Mahagam (02.04.2010 15:20, просмотров: 235) ответил igorchem на Я правильно понимаю, что проблема в доступе к индексному массиву?
представьте себе как можно обращаться физически в одно и то же время к 4-м ячейкам памяти одновременно? это ж 4 разных адреса. или по 4-м разным тактовым сигналам. вот представьте себе, какое будет быстродействие вашего кода на CUDA, если ваши 192 параллельных потока должны будут одновременно добавить результат своей работы к какой-нить мегаглобальной 64-х разрядной переменной. ну вот считали параллельно, а потом сумму 192 потоков сделать. оно как? в 1 такт будет?