ну отлично, регистр 256 бит = 32 байта. процессор у нас суперскалярный - хреначит по нескольку команд за такт. итого 64 байта за такт можно выпихивать из ядра. на частоте 4.0GHz это какой поток будет? https://img.purch.com/500-png/o/aHR0cDovL21lZGlhLmJlc3RvZm1pY3JvLmNvbS9SL1MvNjkxNzY4L29yaWdpbmFsLzUwMC5QTkc= и что вы там писали выше? 32 регистра всего толстых? значит за 32 такта всё можно слить? один такт - 250 пикосекунд. 32 такта = 8 наносекунд. ой как долго толстые регистры выдавливать...
на картинке слева в табличке в предпоследней строчке - возможности кэша и Load/store проца вообще.