Битва левой и правой руки Intel. [Xeon E5, E7 <-> Arria 10 GX]. Битва в части плавучки. Show must go on!!! Удивительные результаты!!! Ксения выложила фотку чудесной платы (
http://caxapa.ru/737783.html ), mut дал ссылку на производителя.
https://www.reflex …cie/xpressgxa10-lp1150
Arria 10 - 20 нм семейство.
Там стоят либо 10AX115N4F40I3SG (digikey 3 шт - $5608, самый медленый вариант в семействе), либо 10AX115N2F40I1SG (digikey 3 шт - $8972 почти самый быстрый, есть чуть быстрее, но он недоступен). Ресрурсы ниже, цены, на самом деле, не так и высоки.
Есть вполне фирменная борда DE5a-Net Arria 10 FPGA Development Kit от Terasic за $5520
http://www.terasic …ist=Simple#Category166
В ней стоит 10AX115N3F45I2S (digikey 3 шт - $7378, средний вариант в семействе)
Заметим, что DigiKey цена на Arria 10 (как и на все толстые FPGA от Alera и Xilinx) очень спекульские.
Intel Xeon Processor E7-8894 v4. 24 ядра, 48 потоков, 60 MB кеша, 2.40 GHz/3.40 GHz, и всего-то $8898.00
http://caxapa.ru/735889.html
http://caxapa.ru/u …-v4-60M-Cache-2_40-GHz
E5-2699A v4 $4938.00
https://ark.intel. …-v4-55M-Cache-2_40-GHz
Получаем вот такую мегатаблицу, xls файл для желающих проверить вложен.
FPGA 10AX115N4F40I3SG 10AX115N3F45I2S 10AX115N2F40I1SG
Стоимость, $ 5 608 7 378 8 972
"ALM 8-input fracturable look-up table 427 200 427 200 427 200
(LUT) with four dedicated registers"
Register 1 708 800 1 708 800 1 708 800
M20K - 20кбит блок 2 713 2 713 2 713
MLAB - 640 бит многофункциональный блок 20 774 20 774 20 774
17.4 Gbps Transceiver 96 96 96
PCIe Hard IP Block 4 4 4
Hard Memory Controller 16 16 16
"Variable-precision DSP Block" 1 518 1 518 1 518
FPU SP block 1 518 1 518 1 518
"FPU DP block (/4 DSP Block)" 380 380 380
Данные Intel - производительность FPU SP, MFLOPS 1 366 000
DSP в режиме SP Floating point adder 266 369 471
or subtract mode, МГц
DSP блок в режиме SP Floating point 294 393 490
multiplier accumulate mode
Вычисленая FPU SP, MFLOPS 446 292 596 574 743 820
Вычисленая FPU SP, MFLOPS, 892 584 1 193 148 1 487 640
если MAC считать за 2 операции
Вычисленая FPU DP, MFLOPS 111 573 149 144 185 955
SP MFLOPS/$ 80 81 83
DP MFLOPS/$ 20 20 21
Процессор E5-2699A v4 E7-8894 V4
Стоимость, $ 4 938 8 898
Ядер 22 24
Потоков 44 48
Тактовая в многоядерном режиме, МГц 2 400 2 400
AVX 2.0 блоков (1 блок на ядро) 22 24
Операций SP за такт (8 на один AVX блок) 176 192
SP FPU производительность, MFLOPS 422 400 460 800
Операций DP за такт (4 на один AVX блок) 88 96
DP FPU производительность, MFLOPS 211 200 230 400
SP MFLOPS/$ 86 52
DP MFLOPS/$ 43 26
Важные примечания.
1. У FPGA для реализации DP надо брать 4 блока DSP. Я считал, что тактовая при этом не упадет, но это почти наверняка не так. Эффективность FPGA в части DP за счет этих /4 падает очень сильно.
2. Приводимых Интелом циферок по FPU перфомансу я не получил, однако понял, что они считали, приравнивая MAC к двум SP FPU операциям.
3. Я везде считал MAC как одну операцию, кроме оговоренной строки.
4. Мне сейчас лень искать, сколько AVX блоков в каждом ядре интела, и я считал, что блок 1, как следствие HT ничего не даст.
5. Получилось, что ~80 SP FPU MFLOPS/$ - это некий инвариант для адекватных FPGA Xeon - E5. Причем, при росте тактовой более быстрые варинты Arria 10 имеют большую FPU производительность, но 80 SP FPU MFLOPS/$ не меняется!!!!
6. DP FPU - это не то, для чего нужно использовать современные FPGA. Видно, что CPU эффективнее в 2 раза по MFLOPS/$. DP FPU в FPGA - это редкое ислючение для особых случаев. Так обращать матрицы на FPGA нам не светит.
7. Все эти расчеты весьма далеки от практики - MAC сделать это хорошо, а вот данные оттащить/притащить - это совсем другое дело.
И это единственное, в чем FPGA за счет большого количества внутренней памяти и большого ресурса коммутации может превзойти CPU. Если это удастся закодить. Также быстрый IO, который в мире ПК ограничен только PCIe x 16, в мире FPGA может быт кратно быстрее.
Но чтобы выжать производительность из Xeon - тоже очень много и очень сложно кодить надо.
8. Intel Xeon Processor E7-8894 - процессор для лохов. Ему такую цену поставили только за счет возможности 8 сокетных конфигураций.
9. Жручесть. Компактная плата, с которой все началось, Max 80W. Xeon E5, E7 - 145W...165W. FPGA получаются экономичнее, но не на порядок.
10. Коллеги, просьба проверить расчеты - не облажался ли я где?
Arria 10 <-> Xeon E5: победителя нет!