caxapa.ru :: Шаблон делу не поможет, т.к. после компиляции он выльется всё в тот же сишный код. Тогда как суть дела вот в чем: функции fmin(), fmax() и fma() появились потому, что в AVX/AVX2 появились новые процессорные инструкции, делающие эти операции "за

Ксения (13.03.2019 16:57 - 17:11, просмотров: 836) ответил йцукен на Это не мой код, и он вроде бы не умножает coeffs[0] на x. Я бы шаблон написал.

Шаблон делу не поможет, т.к. после компиляции он выльется всё в тот же сишный код. Тогда как суть дела вот в чем: функции fmin(), fmax() и fma() появились потому, что в AVX/AVX2 появились новые процессорные инструкции, делающие эти операции "за один такт". Эта ситуация аналогична появлению в языке операторов +=, *= и им подобных из-за того, что у процессора были такие команды для работы с памятью. К тому же выражение a+=b+c строго не эквивалентно выражению a=a+b+c, т.к. компилятору запрещено "упростить" второе выражение до первого, поскольку он обязан выполнять сложения слева направо. В этом смысле меня огорчает, что люди забывают про сишные операторы типа +=, ошибочно полагая, что компилятор сам упростит выражения, написанные в духе Бэйсика. Вот и сейчас, с появлением fma(), появились новые возможности. Например, в реализации функции poly(): double poly( double x, int n, double *coef) // compute polynomial { if( !n) return 0; double y = coef[n]; while(--n >= 0) y = fma(y, x, coef[n]); return y; } При такой реализации цикл крутился бы с максимальной скоростью. Однако при том важном условии, если fma() реализована на языке, как прямая подстановка кода! Но если мы возьмем стороннюю библиотеку с функцией fma(), реализованной, как подпрограмма, то это выльется в то, что компилятор будет вынужден сперва залить три числа в параметры вызова (большая удача, если не на стек!), а затем вызвать функцию из библиотеки со всеми сопровождающими такой вызов потерями (запихиванием адреса возврата в стек, переход на другой адрес, а по окончании возврат по адресу из стека с приведением стека в прежнее состояние). При этом реализация poly() сразу же станет настолько неэффективной, что ее быстрее было бы считать без помощи fma(). Практический пример - вычисление функции erfcx() через полином 23-порядка:

 x           variant 1       variant 2    difference
...
 21.0       0.0268358       0.0268358   -6.9042e-016
 22.0       0.0256186       0.0256186   -3.81639e-016
 23.0       0.0245069       0.0245069   -2.18575e-016
 24.0       0.0234875       0.0234875     -1.249e-016
 25.0       0.0225496       0.0225496   -7.28584e-017
 26.0       0.0216836       0.0216836   -4.51028e-017
100000 раз в цикле: 
1) erfcx(x): 8960 ms
2) erfcx(x): 80 ms
Результат вычислений практически одинаковый, но время отличается в 100 раз.

Ответить

- Разумеется, шаблон не для оптимизации, а для того, чтобы не писать отдельно для типов float, double и complex. Всего 4 строчки, но обычно в проекте не одна функция. - йцукен(14.03.2019 00:12)
- Интересно, за счет чего все же разница образуется? fma и обычный FPU в проце по-разному считают дабловую плавучку, у них не все разряды достоверные? - Evgeny_CD(14.03.2019 00:12)
  - В разрядами у FPU87 всё отлично, т.к. он всегда считает в разрядной сетке float80, а при чтении и записи в память делает конверсию в float80 и обратно. Я до сих пор им пользуюсь, когда нужна повышенная точность. Исключение поддержки float80 Ксения(3348 знак., 14.03.2019 15:03)
  - Я так понимаю, обычный FPU - наследник пресловутого 8087 с 80-битными регистрами, а всякие SSE и другие слова из трёх букв используют стандартный 64-битный double. - йцукен(14.03.2019 10:28)

Средства и методы разработки