Там у каждого ядрышка есть своя маленькая память. Ну и вообще подход датацентрический - потому случайных обращений к общей памяти нет. Каждому ядру в кэш загружается порция данных и он там в кэше работает, потом результаты централизовано собираются. Программа у всех ядер общая,тоже централизовано загружается. Несколько банков памяти, чтобы загружать новую порцию не мешая текущей работе. В общем на интеловские процессоры совсем не похоже. Ну и шина памяти толстая как незнамо что. В принципе по радеонам дока доступна, можно почитать.
Не надо делать мне как лучше, оставьте мне как хорошо