Только скорее всего дело не в векторных инструкциях. Дело в перекомпиляции под "семейство" представленное вашим процессором. На производительность влияют куда больше вещей, чем просто разрешение компилятору использовать векторные инструкции. См. https://stackoverflow.com/questions/19470873/why-does-gcc-generate-15-20-faster-code-if-i-optimize-for-size-instead-of-speed ссылку.
В особенности обратить внимание на второй ответ, с g++ -O2 -falign-functions=16 -falign-loops=16
Спасибо, князь. Вы настоящий дворянин. И программист.