Думаю, фишка в другом. кеш лайн поди 16 байт. 8 пересылок по 16 битной шине и 4 - по 32битной. Если подсчитать совокупную пропускную способность через транзакции ((16 байт)/(период клока * тактов на транзакцию)), то выигрыш от 32 бит будет невелик. А усложнение разводки как платы, так и кристалла, заметное.
Также сильно зависит от продвинутости SDRAM контроллера - умение держать банки открытыми, правильная раскладка код и данных по разным банкам и проч.