И кстати примерный асм код для Шарка не оптимальный похоже приведен (так для вида): вот реальный пример, каждое ядро из двух выполняет по такому куску за один такт:
macs: f12=f0*f4, f8=f8+f12, f0=dm(i0,m0), f4=pm(i9,m9);\n" /* P[N-1]=D[N-1]*C[N-1], S[N-2]=S[N-3]+P[N-2] */
P.S. Но вопрос какие библиотеки настройки компиляции, можно полностью запретить SIMD и в том числе случайно неразобравшись (кое-где нужны четные фильтры для библиотечных функций, мы свои нечетные писали сами).