ВходНаше всё Теги codebook 无线电组件 Поиск Опросы Закон Суббота
20 апреля
737898
Evgeny_CD, Архитектор (20.02.2017 01:56 - 28.03.2018 20:22, просмотров: 4837)
Битва левой и правой руки Intel. [Xeon E5, E7 <-> Arria 10 GX]. Битва в части плавучки. Show must go on!!! Удивительные результаты!!! Ксения выложила фотку чудесной платы ( http://caxapa.ru/737783.html ), mut дал ссылку на производителя. https://www.reflex …cie/xpressgxa10-lp1150 Arria 10 - 20 нм семейство. Там стоят либо 10AX115N4F40I3SG (digikey 3 шт - $5608, самый медленый вариант в семействе), либо 10AX115N2F40I1SG (digikey 3 шт - $8972 почти самый быстрый, есть чуть быстрее, но он недоступен). Ресрурсы ниже, цены, на самом деле, не так и высоки. Есть вполне фирменная борда DE5a-Net Arria 10 FPGA Development Kit от Terasic за $5520 http://www.terasic …ist=Simple#Category166 В ней стоит 10AX115N3F45I2S (digikey 3 шт - $7378, средний вариант в семействе) Заметим, что DigiKey цена на Arria 10 (как и на все толстые FPGA от Alera и Xilinx) очень спекульские. Intel Xeon Processor E7-8894 v4. 24 ядра, 48 потоков, 60 MB кеша, 2.40 GHz/3.40 GHz, и всего-то $8898.00 http://caxapa.ru/735889.html http://caxapa.ru/u …-v4-60M-Cache-2_40-GHz E5-2699A v4 $4938.00 https://ark.intel. …-v4-55M-Cache-2_40-GHz Получаем вот такую мегатаблицу, xls файл для желающих проверить вложен.
FPGA                                    10AX115N4F40I3SG    10AX115N3F45I2S 10AX115N2F40I1SG 
Стоимость, $                            5 608               7 378           8 972   
"ALM  8-input fracturable look-up table 427 200             427 200         427 200   
(LUT) with four dedicated registers"
Register                                1 708 800           1 708 800       1 708 800   
M20K - 20кбит блок                      2 713               2 713           2 713   
MLAB - 640 бит многофункциональный блок 20 774              20 774          20 774   
17.4 Gbps Transceiver                   96                  96              96   
PCIe Hard IP Block                      4                   4               4
Hard Memory Controller                  16                  16              16   
"Variable-precision DSP Block"          1 518               1 518           1 518   
FPU SP block                            1 518               1 518           1 518   
"FPU DP block (/4  DSP Block)"          380                 380             380   
Данные Intel - производительность FPU SP, MFLOPS                            1 366 000
DSP в режиме SP Floating point adder    266                 369             471   
or subtract mode, МГц
DSP блок в режиме SP Floating point     294                 393             490   
multiplier accumulate mode
Вычисленая FPU SP, MFLOPS               446 292             596 574         743 820   
Вычисленая FPU SP, MFLOPS,              892 584             1 193 148       1 487 640   
если MAC считать за 2 операции
Вычисленая FPU DP, MFLOPS               111 573             149 144         185 955   
SP MFLOPS/$                             80                  81              83   
DP MFLOPS/$                             20                  20              21   
Процессор                               E5-2699A v4                         E7-8894 V4 
Стоимость, $                            4 938                               8 898   
Ядер                                    22                                  24   
Потоков                                 44                                  48   
Тактовая в многоядерном режиме, МГц     2 400                               2 400   
AVX 2.0 блоков (1 блок на ядро)         22                                  24   
Операций SP за такт (8 на один AVX блок) 176                                192   
SP FPU производительность, MFLOPS       422 400                             460 800   
Операций DP за такт (4 на один AVX блок) 88                                 96   
DP FPU производительность, MFLOPS       211 200                             230 400   
SP MFLOPS/$                             86                                  52   
DP MFLOPS/$                             43                                  26   
Важные примечания. 1. У FPGA для реализации DP надо брать 4 блока DSP. Я считал, что тактовая при этом не упадет, но это почти наверняка не так. Эффективность FPGA в части DP за счет этих /4 падает очень сильно. 2. Приводимых Интелом циферок по FPU перфомансу я не получил, однако понял, что они считали, приравнивая MAC к двум SP FPU операциям. 3. Я везде считал MAC как одну операцию, кроме оговоренной строки. 4. Мне сейчас лень искать, сколько AVX блоков в каждом ядре интела, и я считал, что блок 1, как следствие HT ничего не даст. 5. Получилось, что ~80 SP FPU MFLOPS/$ - это некий инвариант для адекватных FPGA Xeon - E5. Причем, при росте тактовой более быстрые варинты Arria 10 имеют большую FPU производительность, но 80 SP FPU MFLOPS/$ не меняется!!!! 6. DP FPU - это не то, для чего нужно использовать современные FPGA. Видно, что CPU эффективнее в 2 раза по MFLOPS/$. DP FPU в FPGA - это редкое ислючение для особых случаев. Так обращать матрицы на FPGA нам не светит. 7. Все эти расчеты весьма далеки от практики - MAC сделать это хорошо, а вот данные оттащить/притащить - это совсем другое дело. И это единственное, в чем FPGA за счет большого количества внутренней памяти и большого ресурса коммутации может превзойти CPU. Если это удастся закодить. Также быстрый IO, который в мире ПК ограничен только PCIe x 16, в мире FPGA может быт кратно быстрее. Но чтобы выжать производительность из Xeon - тоже очень много и очень сложно кодить надо. 8. Intel Xeon Processor E7-8894 - процессор для лохов. Ему такую цену поставили только за счет возможности 8 сокетных конфигураций. 9. Жручесть. Компактная плата, с которой все началось, Max 80W. Xeon E5, E7 - 145W...165W. FPGA получаются экономичнее, но не на порядок. 10. Коллеги, просьба проверить расчеты - не облажался ли я где? Arria 10 <-> Xeon E5: победителя нет!