Смысл тот, что для ИИ высокая точность не нужна - достаточно float16, а в наборе инструкций "AVX-512 Vector Neural Network Instructions (VNNI) - vector instructions for deep learning" в векторный регистр длиной 512 бит поместится таких флоатов аж https://www.anandtech.com/show/13194/intel-shows-xeon-2018-2019-roadmap-cooper-lakesp-and-ice-lakesp-confirmed 512/16=32 штуки! Это очень выгодно, т.к. тактовая частота CPU растет очень медленно, а тут ускорение сразу в десятки раз!