SkyNet теперь называется NVIDIA DGX-1 -> http://caxapa.ru/665420.html
http://fcenter.ru/online/hardnews/2016/04/06#material_id=38942
Собираем факты в кучку.
Производительность GPU GP100 достигает 21,2 терафлопс для FP16, 10,6 терафлопс для FP32 и 5,3 терафлопс для FP64.
Предыдущая "самая быстрая карта в мире для " Tesla® M40
http://www.nvidia. …/object/tesla-m40.html
Up to 7 Teraflops of single-precision performance with NVIDIA GPU Boost™
3072 NVIDIA CUDA® cores
Т.е. новый чип заметно круче, раза в полтора-два по скорости. А старый чип ускорял Deep Learning в 13 раз (в какой-то там конфигурации, вероятно, случайно попал, но, судя по отзывам, действительно ускоряет в несколько раз).
Теперь вернемся DGX-1. Штучка с 8 GPU внутре, высотой 3U, жрет 3,2 КВт, стоит 129k$, скорость на FP16 будет достигать 170 терафлопс (169.6
, если считать честно). (спасибо, что не FP8).
7 таких короЁбочек будут стоить 903k$, займут ровно 21U, или половину стандартного шкафа 42U и дадут перфоманс 1187.2 терафлопа. Или чуть более производительности 1 содержимого башки человека, которая как раз в 1 петафлопс оценивается.
Хорошо. Ускорившись в 100500 раз, мы обучили нашу нейросеть. Предположим, автовождению авто. Дальше что? Как эту стойку в машину засунуть, и где взять столько КВт мощи для нее?
Отставить КВт. Вот жеж готовая аппаратная платформа -->
После обучения, как я понимаю, для обычной работы перфоманс нужен сильно меньше.
Вот и получается, что эффективная разработка алгоритмов автовождения становится доступной для команды с бюджетом на оборудование от 1 M$, и делать такую разработку можно достаточно быстро.
Важные замечания.
1. У аффтара этой заметки, т.е. меня, отсутствуют познания по нейросетям. Что такое этот Deep Learning, я пока не осознал. Какие именно нужны выч. ресурсы для обучения "автоводителя", мне тоже непонятно.
2. Производительность, конечно, дана "от лукавого". Насколько хорошо нейросетевые задачи ложатся на CUDA - для меня загадка.