Загрузка/выгрузка выровненных SIMD как правило не медленнее чем обычных регистров (в этом и смысл SIMD), проблема тут в другом - данные должны красиво укладываться в SIMD, а это не всегда просто и очевидно, источник/приёмник данных может просто не обеспечивать необходимые условия, а перепаковка данных может иметь значительные накладные расходы.
Это моё личное предвзятое мнение. Любое совпадение с реальностью является случайным и непреднамеренным.