caxapa.ru :: А что, очень даже приличный код. Признаюсь, не ожидала. Странно только, что использует более короткие xmm-регистры вместо вдвое более длинных ymm. Именно это и портит всю малину, снижая скорость вдвое. Причем ymm обязаны быть, если это Haswell,

Ксения (17.10.2016 00:53, просмотров: 314) ответил fk0 на gcc (-mavx2 -march=haswell -mfpmath=sse -O3, gcc=6.2) -- для "упакованных флоатов" в gcc нужно встроенные функции использовать -- тот же ассемблер получается...

А что, очень даже приличный код. Признаюсь, не ожидала. Странно только, что использует более короткие xmm-регистры вместо вдвое более длинных ymm. Именно это и портит всю малину, снижая скорость вдвое. Причем ymm обязаны быть, если это Haswell, тем более что вижу крутую FMA-команду vfmadd231sd, которая бывает только на AVX2. Скажите, а у параметра -mfpmath=sse нет ли других значений? Скажем -mfpmath=avx или -mfpmath=avx2? Может быть, gcc можно раскрутить на большее? Кстати, для будущей платформы AVX512 пишется почти так же, только xmm-регистры заменяются не на ymm, а на еще более длинные zmm. Ну и шаг тогда будет не $8, а $32. Причем, до сих пор я не нашла ассемблера, который бы AVX512-команды понимал, хотя, судя по интернету, народ для него уже пишет - счастливые обладатели Xeon Psi. :)

Ответить

- а теперь подобный код скормить родному компилятору от интела?? - Mahagam(17.10.2016 10:00)
  - Скормила, код получился гадский. Даже если списать качество кода на мое неумение включить там нужную оптимизацию (хотя Yes на вкладке Optimization я выставляла), главным остается все тот же недостаток - считает на коротких регистрах xmm, а более Ксения(270 знак., 17.10.2016 21:40)
    - Смотри: fk0(382 знак., 18.10.2016 00:13)
      - Так не годится, т.к. исходные массивы должны быть типа double. Т.е. каждый элемент в них - число, а вовсе не пакет из 4-х чисел. Правильно - копировать числа четверками из double-массивов в регистры ymm, а потом использовать параллельную пакетную Ксения(791 знак., 18.10.2016 00:42)
        
        Ну у тебя-то на входе пакеты! vmovupd и vfmadd231pd работают с пакетами. А иначе есть vmovusd и vfmadd231sd. - fk0(18.10.2016 00:48)
        
        vmovusd и vmovapd грузят в длинный регистр данные с указанного им адреса, с ними как раз всё правильно. Проблема в ином - компилятор должен был сам догадаться о том, что double-массив можно обрабатывать четверками. При этом число элементов в Ксения(625 знак., 18.10.2016 01:04 - 01:11)
        
        Блин, только открыл ответ сказать, что происходит фактическое использование компилятора как туго управляемого ассемблера с попытками ему вталдычить, как именно он должен поступить — а всё уже сказано :-D - Николай Коровин(18.10.2016 01:11)

Средства и методы разработки