caxapa.ru :: да что там непривычного, погуглите DAG - тот же LLVM + graphiz рисует такие же картинки как и у них в доках (только покрасивше :). ну и вообще, к чему бы у всех архитектур, претендующих на производительность, трехоперандные инструкции? это же типа

ыыыы (22.08.2013 12:38, просмотров: 237) ответил =AlexD= на Да, я досконально разбирался с внутренней структурой, системой команд, более того, по моей просьбе проводили разработчики некоторые тесты. Я остался недоволен реализацией, хотя сама идеология очень перспективная.

да что там непривычного, погуглите DAG - тот же LLVM + graphiz рисует такие же картинки как и у них в доках (только покрасивше :). ну и вообще, к чему бы у всех архитектур, претендующих на производительность, трехоперандные инструкции? это же типа трата ПМ. то есть задачу оптимизации "параграфов" решают уже лет тридцать и какбы напридумывали много разного. те же out-of-order и register reordering|renaming все про это, опять же кеши: их управление (без ячеек памяти) жрет 2/3 кремния процессорного - к чему бы это? по-поводу моей претензии: 1) в более детальном описании "коммутатора" отсутствует признак готовности (при этом работу датапаса обсасывают очень подробно - это по сути единственное, что тут можно запатентовать, и то может это мне кажется из-за малого знания лойерского аспекта), там и так асоциативная (CAM) память, возможно решили сократить, то есть я предположил, что эта готовность на весь мультилет 2) даже если добавить эту готовность - посмотрите, как на этих графах будет распространятся задержка ------------- по поводу Ваших претензий 1) про прерывания в высокопроизводительной архитектуре речи нет, даже у "традиционного" TMS6xxx прерывания запрещены при исполнении оптимизированного кода 2) поэтому и попа с распределенными вычислителями, если бы туда вписывались кэши и вообще комон-дата, то пентиумы уже давно были бы на помойках. это все для потоковой обработки с детерминированым флоу (чтоб там они не писали в презенташках) 3) это САМ - почитайте как его делают - очень дорого добавлять дополнительные ячейки 4) я так подозреваю, что об "межпараграфной" оптимизации авторы вообще не думали 5) тут не разбирался - кажется, что для такой архитектуры это вообще невозможно, обычно выделяют отдельные целы для доступа к большой памяти - в эту архитектуру это не лезет 6) я так понимаю, что это происходит из-за задержек rd, если бы все rd были 1 такт (или даже известное N тактов) то даже самый тупой компилятор сумел бы генерить оптимальный код - вот это как раз проблема, которую и я не знаю как решать :) 7) 8) это я так понимаю для 4х ядерного, а что будет для 1024х :) 9) теоретически можно С компилер запилить и с кривым стеком, но это сильно трудоемчее, чем накодить целов и связей между ними :)

- Кстати, 1024х клеточный Мультиклет невозможен, т.к. инструкция не может получить результат другой инструкции, если она дальше 63 позиций от текущей :-P , разве что систему команд расширять, вводить 64битовые инструкции :-). =AlexD=(126 знак., 22.08.2013 13:41)
- Да, современные процы с out-of-order и register reordering|renaming устроены примерно по такому же принципу, но они вынуждены использовать кучу аппаратуры для трансляции регистрового кода в нечто похожее на триплеты (операнды + результат), на лету =AlexD=(2484 знак., 22.08.2013 13:20)
  - пожелаю мультиклету успеха (несмотря на зависть), хотя меня раздражает излишний PR. казалось бы - возьми ПЛИС Virtex|Stratix и обкатай эту архитектуру, возможно сделать разветвления - это типа эмбедед(с прерываниями), это для графики и т.д. ыыыы(115 знак., 22.08.2013 14:41)
    - Обижаешь, RTL для плисин они даже продают :-), что нормального симулятора нет - это да косяк-косячище, да и без оптимизирующего компилятора хреново. А пожелать им нужно не столько удачи, сколько мозгов по больше для избавления от косяков :-). - =AlexD=(22.08.2013 14:48 - 23.08.2013 08:17)
  - Есть ещё VLIW. Где вопросы решаются не на лету, а даже на этапе компиляции (эльбрусы) или на этапе трансляции x86-->VLIW (трансмета). Instructions Per Clock там может быть очень большим. Только это не панацея: не шибко современные программы fk0(360 знак., 22.08.2013 14:14)
    - да вот не пошла VLIW (как раз таки трансмета, да и DEC побаловался x86->alpha), как раз невозможность компилеру предсказать время поступления данных rd. ставит на EPIC|VLIW крест. были еще варианты, например, ultra sparc имел набор "зеркальных" ыыыы(722 знак., 22.08.2013 14:30)
    - влив отстой, у них своих недостатков вышекрыши, проблема в том, что статический анализ идёт лесом, когда появляются не прогнозируемые задержки доступа в память. А так в любом Сишном коде парралелизма уровня выражений полно, хотя на верилоге было =AlexD=(23 знак., 22.08.2013 14:19)
      - какие такие задержки, если шины у нормальных VLIWов будут широченные? к примеру 256 бит на код и 2х64 на данные. да к кэшу данных не одна шинка, а 8 по 32 бита. Mahagam(69 знак., 22.08.2013 14:46)
        
        Сделай мысленный эксперимент. У тебя кеш. У тебя работа с памятью по указателю (например список). Ты возьмёшься предсказать задержки в n-ном потоке исполнения? =AlexD=(356 знак., 22.08.2013 14:57)
        
        сделай мысленный эксперимент. возьми камень типа L138, где есть VLIW DSP и ARM9. запусти линукс на DSP и заставь ARM9 считать fft и прочую математику. Mahagam(377 знак., 22.08.2013 15:41)
        
        Это ваще не в тему, DSP код есть чем считать, это ваще не проблема, на крайнях есть GPU и FPGA. Проблема заключается в повышении производительности на совсем другом коде, именно на том, который на ARMах запускают. - =AlexD=(23.08.2013 07:31)
        
        щетаю, что под каждую задачу есть своя архитектура, подходящая под неё оптимальным образом. не вижу смысла требовать от VLIW особо шустрого исполнения кода общего назначения - Mahagam(23.08.2013 09:30)
        
        А кто требует? Эта ветка вообще-то была не про VLIW :-) , но даже первое упоминание -> о них касалось проблемы распараллеливания вычислений, =AlexD=(326 знак., 23.08.2013 09:39, ссылка)
        
        ну а если данные лежат в ячейках i и i+33 и обе они не закешированы, да и банк ddr нужно еще открыть... - ыыыы(22.08.2013 14:55)

Средства и методы разработки