ВходНаше всё Теги codebook 无线电组件 Поиск Опросы Закон Пятница
29 марта
706475 Топик полностью
fk0, легенда (18.10.2016 00:13, просмотров: 158) ответил Ксения на Скормила, код получился гадский. Даже если списать качество кода на мое неумение включить там нужную оптимизацию (хотя Yes на вкладке Optimization я выставляла), главным остается все тот же недостаток - считает на коротких регистрах xmm, а более
Смотри:  #include <immintrin.h> double f(__m256 *x, __m256 *y) { __m256 sum={0,0,0,0}; __m256 *xp=x, *yp=y; for (int i=0; i<128; i++) { sum += (*xp++) * (*yp++); } return sum[0]+sum[1]+sum[2]+sum[3]; }
.L2:
	vmovaps	(%ebx,%eax), %ymm3
	vfmadd231ps	(%edx,%eax), %ymm3, %ymm0
	addl	$32, %eax
	cmpl	$4096, %eax
	jne	.L2
         ...
[ZX]