Есть тонкость, связанная с когерентностью кеша. И с остановкой работы конвейера памяти. Если у нас доступ к памяти монопольно заблокирован на 32 такта - то остановится параллелизм выборки и декодирования команд. Точно не знаю, мое предположение.
Дальше надо обеспечить когерентность.
В целом, выпихивание 32 толстых регистров нифига не полезно для производительности.