caxapa.ru :: Некоторое время назад мы обсуждали, что, вероятно, аццкий заговор будушего - это x86 + аццкая FPGA на кристалле. Но, если пораскинуть мозгами, FPGA нужно только эмбеддерам (и совсем не аццкая), а вот в массовый рынок пойдет x86 + MPPA®

Evgeny_CD^{Архитектор} (16.02.2012 13:17 - 13:35, просмотров: 17944)

Некоторое время назад мы обсуждали, что, вероятно, аццкий заговор будушего - это x86 + аццкая FPGA на кристалле. Но, если пораскинуть мозгами, FPGA нужно только эмбеддерам (и совсем не аццкая), а вот в массовый рынок пойдет x86 + MPPA® http://www.kalray.eu/en/products/mppa.html
Multi-Purpose Processor Array -> (респект USSR) Или что-то типа того. Что важно: * ядра специалищированные. Дурь со 100 MIPS ядрами на кристалле нах никому не нужна (кроме узких ниш). * основное know-how - бооооольшой шинный коммутатор на кристалле. Он, собственно, и пожирает основную площадь оного, что почти очевидно. Ну и накристальная память тоже там же где-то, аццки многопортовая. Первый, кто эффективно реализует эффективную поддержку массового параллелизма на уровне компилера, получит большой приз :), и определит, какой из кристаллов будет жить :)

- для потока (а назночение ММРА и т.п. это всякое видео и т.п.) шинный комутатор может быть упращен до 0, что-то типа авалон-стриминг. ну или же типа амба4 (имхо, излишнее переусложнение), где есть аццкий сруаутпут, но и аццкое латенси - ыыыы(16.02.2012 15:10, )
- По поводу "параллелизьма на уровне компилера" см. в сторону OpenCL. Altera уже в теме :) - Stewart Little(16.02.2012 14:44, ссылка, ссылка)
  - На OpenCL все дружно поставили. - Evgeny_CD(16.02.2012 14:54)
- Это ~~какое-то жалкое подобие левой руки~~ студенческий стартап с бывшим вице от ST. Ну не дают людЯм покою лавры КУДЫ от nVidia :) или просто надо громко обозначить присутствие в сегменте. - Д.ARMоед(16.02.2012 14:41)
  - Ога! Максимальный объем памяти у современных видеокарт - 3G. Тут - 128G. Разницу ощущаете? - Evgeny_CD(16.02.2012 14:54)
    - Неа. Солидные мультикорщики сразу заявляют о векторных возможностях, а тут - мутняк. "Primitives for “task parallelism” and “data parallelism”" - и всё. Мультикор без вектора нна не нужен. С таким же успехом можно поставить 1024 десктопа "свиньёй" Д.ARMоед(21 знак., 16.02.2012 15:46)
      - Расскажи мне, как векторность поможет искать по дереву поиска? "Большой счет" != big data - Evgeny_CD(16.02.2012 15:48)
        
        Ну, если на пальцах, то ищут не совсем по данным, а по индексу. Составленному, например, в виде В-дерева. Д.ARMоед(56 знак., 16.02.2012 16:11, ссылка)
        
        И в чем разница на аппаратном уровне? Разница на уровне программы, и всего-то. Т.е. имея массив процессоров надо размножить одну и ту же программу на кучку процов. Чтобы каждый обрабатывал свой набор данных. И будет всполне себе вектор. Evgeny_CD(142 знак., 16.02.2012 16:34)
        
        Т.е. суть в способе написания программы и способе трансляции в код для проциков. А в чем в аппаратуре должны бытьотличия? - Evgeny_CD(16.02.2012 16:37)
        
        С педивикией фиг поспоришь :) Д.ARMоед(763 знак., 16.02.2012 17:38 - 17:46)
        
        У них там действительно мутно все декларировано. И POSIX, и какой-то непонятный язык "С с плюшками". Суть Вы описали верно - падение скорости при увеличении доступного процессору размера памяти с произвольным доступом. Решение тоже понятное - Evgeny_CD(123 знак., 16.02.2012 17:50)
        
        Обратная сторона медали -> Д.ARMоед(150 знак., 18.02.2012 10:53, ссылка)
        
        В первой ссылке народ показал, что некий набор алгоритмов AI распараллеливается почти идеально на набор от 2 до 64 ядер. Но вопрос - все ли это алгоритмы, и есть ли широко используемые на практике алгоритмы AI, которые хреново распараллеливаются? Evgeny_CD(227 знак., 18.02.2012 23:50)
        
        Видимо стоит изначально решать задачу в ключе, допускающем или векторизацию, или мапредьюс. Которые, в свою очередь, хорошо распараллеливаются на соответствующих архитектурах. Д.ARMоед(303 знак., 19.02.2012 17:37 - 17:49)
        
        +1 в части TDP: 5W на 256 ядер при 400 Мгц тактовой каждого - это сильно! - Evgeny_CD(19.02.2012 19:15)
        
        По причине ламерства в предметной области мой вопрос состоял в том, можно ли любую задачу AI разложить на то, что векторизуется и мапредьюсится? Или тем есть нечто, принципиально не распараллеливаемое? - Evgeny_CD(19.02.2012 19:12)
        
        (a+b)*c-d тут нечего распараллелить, если операнды - скалярные значения. Д.ARMоед(261 знак., 19.02.2012 20:58 - 21:17)
        
        Ну так поставить 2 скобки - и уже можно параллелить :) (a+b)*(c-d) Такое вообще хороший MAC блок за такт сделает, наверное :) Вообще статья интересная. Там грамотно сказано, что ключевое направление - диалоговая работа по распараллеливанию кода. Evgeny_CD(230 знак., 19.02.2012 22:31)
        
        Если человек понимает смысл залачи - уже хорошо. Д.ARMоед(621 знак., 19.02.2012 23:02)
        
        MapReduce -> --> даже я отчасти понял, что это такое. - Evgeny_CD(19.02.2012 19:13, ссылка, ссылка)
        
        А зачем вам посторонний суперкомпьютер? Это же вещь индивидуальная, сразу под две разноплановых задачи не подойдет. pin(225 знак., 19.02.2012 12:47)
        
        Ну цена и жручесть у него будут очень даже супер :) Как Вы, возможно, помните, топик начался со ссылки на перцев, которые упаковали 256 ядер на один кристалл и прикрутили к ним PCIe, 2xDDR3 ну и прочее. И на одной плате PCIe-16 можно уместить 8 Evgeny_CD(629 знак., 19.02.2012 14:54)
    - Там где нужно чтото сложно считать, большой обьём ОЗУ и не требуется. - T.Дocтoeвcкий(16.02.2012 15:02)
      - А там, где надо работать с большими данными - как раз требуется. Сколько у нас фирм? В кажой есть отдел маркетинга и бухгалтерия. И сколько из них считают обтекание потоком лопастей турбины? Разницу рынка осознаете? - Evgeny_CD(16.02.2012 15:08)
- О! У дураков мысли сходятся! Посмотрите на пример скриншота из SDK этих кренделей. Согласитесь, этот "с" исходник как-то неуловимо напоминает Verilog или что-то в этом духе :) Evgeny_CD(16.02.2012 13:58)
- хренасдва! сотня универсальных ядер куда как менее эффективна чем набор заточенных под задачу модулей. - Mahagam(16.02.2012 13:29)
  - Это не такой однозначный вопрос. Позже напишу. - Evgeny_CD(16.02.2012 13:34)

Средства и методы разработки