caxapa.ru :: Это фишка давно реализована в ДСП. Кстати, если не изменяет память, то Интел имеет какое-то отношение к блэкфинам.

580BM80 (16.12.2010 12:56, просмотров: 273) ответил Ксения на Мне когда-то материал на глаза попадался про векторные способности FPU у POWER4/5. Там было очень удобно вычислять скалярное произведение.

Это фишка давно реализована в ДСП. Кстати, если не изменяет память, то Интел имеет какое-то отношение к блэкфинам.

- Знаю. Только покажите мне такой DSP, у которого тактовая выше, чем у писюка :). Ксения(288 знак., 16.12.2010 13:02)
  - Пожалуйста :) Up to 10GHz Multicore, fixed/floating + Accelerators бомж(721 знак., 16.12.2010 13:49, ссылка)
    - Угу. Берем видюху баксов за 200 с гигом оперативы, качаем нахаляву CUDA SDK с сайта Nvidia, и хотя ядра в такой карте будут работать на частоте мегов 700-900, зато их там штук 200 будет, а то и 400, что и позволит при удачной задаче и толковом Evgeny_CD(156 знак., 16.12.2010 16:06 - 16:08)
      - Да-да. И пытаемся впихнуть эту видюху в махонький корпус :) - Ruslan(16.12.2010 19:24)
        
        Современные прессы творят чудеса. - Гудвин(16.12.2010 20:13)
    - Тока эти 10 ГГц обозначают 8 ядер по 1,25ГГц, каждое перемножает по 2 дабла за такт в пике. Но недорого, всего $160 :) - she(16.12.2010 13:53)
      - Стадо черепах не обгонят зайца, даже если их суммарная скорость окажется больше. - Ксения(16.12.2010 14:16)
        
        Есть куча задач, где обгонят. Но простому программисту распараллеливание плохо в мозг ложится, это факт :) - she(16.12.2010 14:20)
        
        А строители тоже от плохих мозгов строят дом с первого этажа последовательно, а не все этажи разом? - Ксения(16.12.2010 14:35)
        
        Зато квартиры отделывают параллельно. И в результате получается быстрее. - бомж(16.12.2010 14:38)
        
        +1. Чтение книжки по CUDA повергло меня в ступор. Долго курить надо. - Evgeny_CD(16.12.2010 14:34)
      - Ну вот, всё сразу рассказал :) Никакой интриги, понимаешь. - бомж(16.12.2010 13:55)
  - Не подскажу. Знаком только с целочисленными и не самыми современными. Хотя тактовые нынче тоже не на порядки отстают от PC. Во всяком случае, AVR курит в сторонке, в том числе и 32ой :) - 580BM80(16.12.2010 13:26)
    - AVR/AVR32 - это контроллеры, на быструю арифметику они и не претендуют, т.к. работают на flash-памяти, которая особо быстрой быть не может. Ксения(1519 знак., 16.12.2010 14:11)
      - На мой взгляд у писюка также мало оснований ориентироваться на обработку сигналов, как и у МК заниматься быстрой арифметикой. Да одной и доработки системы команд маловато будет. В DSP есть и другие форсирующие примочки. - 580BM80(16.12.2010 14:57)
        
        Отчего тогда конкуренция идет за частоту и число ядер, а про примочки забыли? - Ксения(16.12.2010 15:03)
        
        Конкурируют не только строители x86, но и разработчики других архитектур, в том числи и всяких DSP. И тенденции там те же самые (увеличение частоты и количества ядер). А "примочки" дают весьма серьёзный эффект. Ваш пример FPU += [SI++]*[DI++] 580BM80(381 знак., 16.12.2010 15:22)
        
        Уж сколько раз говорено/писано, что native x86 никто сейчас не исполняет, все современные процы компилят его на лету в команды чего-то жутко параллельного и RISCового. Там не только 2 обращения за так к памяти получается, а гораздо больше. - Evgeny_CD(16.12.2010 16:07)
        
        Хм... Память в разы медленнее самого процессора. К тому же одновременный доступ физически возможен только в разные банки на разных физических шинах. У программиста должна быть возможность явно задавать распределение памяти с точки зрения привязки 580BM80(86 знак., 16.12.2010 16:18)
        
        при 4Мбайт кеша L3 на кристалле банковость и шинность внешнего SDRAM не так важны. А кеши подключаются к разным частям процессора разными шинами. - Evgeny_CD(16.12.2010 16:21)
        
        А Вы можете гарантировать, что обрабатываемые массивы отобразятся в кэше таким образом, что доступ к ним будет производиться через разные шины? - 580BM80(16.12.2010 16:34)
        
        А это тайна, которая велика есть. Это в embedded мире код и данные можно положить по разным банкам памяти, и при правильном контроллере SDRAM, который не закрывает банк так долго, как это можно сделать, получить приличный прирост скорости. В Evgeny_CD(31 знак., 16.12.2010 16:37)
        
        За сударыню Вы постояли достойно. И даже истина не дороже. Даже для меня ;-) - 580BM80(16.12.2010 16:44)
        
        А кто просит за один такт? Архитектура x86 как раз и позволяет выполнять команды за разное число тактов, в зависимости от сложности задания. Так что такие ёмкие команды как раз хорошо бы смотрелись на x86 и др. представителях CISC-архитектуры. Ксения(79 знак., 16.12.2010 15:49)
        
        Ну тогда обсуждаемая рацуха вообще не имеет смысла. Ваш пример запросто раскладывается на несколько команд без заметного увеличения объёма программы. Значит Интел всё правильно сделала :) - 580BM80(16.12.2010 16:05)

Средства и методы разработки