Скормила, код получился гадский. Даже если списать качество кода на мое неумение включить там нужную оптимизацию (хотя Yes на вкладке Optimization я выставляла), главным остается все тот же недостаток - считает на коротких регистрах xmm, а более длинные ymm не использует.
Между тем у Intel компилятора есть опция "Enable Enhanced Instruction Set", среди возможных вариантов которой есть и такой - "Intel(R) Advanced Vector Extentions 2 (/arch:CORE-AVX2)", который я и выставила (см. картинку). Однако толку нет.