-
- Знаю. Только покажите мне такой DSP, у которого тактовая выше, чем у писюка :). Ксения(288 знак., 16.12.2010 13:02)
- Пожалуйста :) Up to 10GHz Multicore, fixed/floating + Accelerators бомж(721 знак., 16.12.2010 13:49, ссылка)
- Угу. Берем видюху баксов за 200 с гигом оперативы, качаем нахаляву CUDA SDK с сайта Nvidia, и хотя ядра в такой карте будут работать на частоте мегов 700-900, зато их там штук 200 будет, а то и 400, что и позволит при удачной задаче и толковом Evgeny_CD(156 знак., 16.12.2010 16:06 - 16:08)
- Да-да. И пытаемся впихнуть эту видюху в махонький корпус :) - Ruslan(16.12.2010 19:24)
- Современные прессы творят чудеса. - Гудвин(16.12.2010 20:13)
- Да-да. И пытаемся впихнуть эту видюху в махонький корпус :) - Ruslan(16.12.2010 19:24)
- Тока эти 10 ГГц обозначают 8 ядер по 1,25ГГц, каждое перемножает по 2 дабла за такт в пике. Но недорого, всего $160 :) - she(16.12.2010 13:53)
- Стадо черепах не обгонят зайца, даже если их суммарная скорость окажется больше. - Ксения(16.12.2010 14:16)
- Есть куча задач, где обгонят. Но простому программисту распараллеливание плохо в мозг ложится, это факт :) - she(16.12.2010 14:20)
- А строители тоже от плохих мозгов строят дом с первого этажа последовательно, а не все этажи разом? - Ксения(16.12.2010 14:35)
- Зато квартиры отделывают параллельно. И в результате получается быстрее. - бомж(16.12.2010 14:38)
- +1. Чтение книжки по CUDA повергло меня в ступор. Долго курить надо. - Evgeny_CD(16.12.2010 14:34)
- А строители тоже от плохих мозгов строят дом с первого этажа последовательно, а не все этажи разом? - Ксения(16.12.2010 14:35)
- Есть куча задач, где обгонят. Но простому программисту распараллеливание плохо в мозг ложится, это факт :) - she(16.12.2010 14:20)
- Ну вот, всё сразу рассказал :) Никакой интриги, понимаешь. - бомж(16.12.2010 13:55)
- Стадо черепах не обгонят зайца, даже если их суммарная скорость окажется больше. - Ксения(16.12.2010 14:16)
- Угу. Берем видюху баксов за 200 с гигом оперативы, качаем нахаляву CUDA SDK с сайта Nvidia, и хотя ядра в такой карте будут работать на частоте мегов 700-900, зато их там штук 200 будет, а то и 400, что и позволит при удачной задаче и толковом Evgeny_CD(156 знак., 16.12.2010 16:06 - 16:08)
- Не подскажу. Знаком только с целочисленными и не самыми современными. Хотя тактовые нынче тоже не на порядки отстают от PC. Во всяком случае, AVR курит в сторонке, в том числе и 32ой :) - 580BM80(16.12.2010 13:26)
- AVR/AVR32 - это контроллеры, на быструю арифметику они и не претендуют, т.к. работают на flash-памяти, которая особо быстрой быть не может. Ксения(1519 знак., 16.12.2010 14:11)
- На мой взгляд у писюка также мало оснований ориентироваться на обработку сигналов, как и у МК заниматься быстрой арифметикой. Да одной и доработки системы команд маловато будет. В DSP есть и другие форсирующие примочки. - 580BM80(16.12.2010 14:57)
- Отчего тогда конкуренция идет за частоту и число ядер, а про примочки забыли? - Ксения(16.12.2010 15:03)
- Конкурируют не только строители x86, но и разработчики других архитектур, в том числи и всяких DSP. И тенденции там те же самые (увеличение частоты и количества ядер). А "примочки" дают весьма серьёзный эффект. Ваш пример FPU += [SI++]*[DI++] 580BM80(381 знак., 16.12.2010 15:22)
- Уж сколько раз говорено/писано, что native x86 никто сейчас не исполняет, все современные процы компилят его на лету в команды чего-то жутко параллельного и RISCового. Там не только 2 обращения за так к памяти получается, а гораздо больше. - Evgeny_CD(16.12.2010 16:07)
- Хм... Память в разы медленнее самого процессора. К тому же одновременный доступ физически возможен только в разные банки на разных физических шинах. У программиста должна быть возможность явно задавать распределение памяти с точки зрения привязки 580BM80(86 знак., 16.12.2010 16:18)
- при 4Мбайт кеша L3 на кристалле банковость и шинность внешнего SDRAM не так важны. А кеши подключаются к разным частям процессора разными шинами. - Evgeny_CD(16.12.2010 16:21)
- А Вы можете гарантировать, что обрабатываемые массивы отобразятся в кэше таким образом, что доступ к ним будет производиться через разные шины? - 580BM80(16.12.2010 16:34)
- А это тайна, которая велика есть. Это в embedded мире код и данные можно положить по разным банкам памяти, и при правильном контроллере SDRAM, который не закрывает банк так долго, как это можно сделать, получить приличный прирост скорости. В Evgeny_CD(31 знак., 16.12.2010 16:37)
- За сударыню Вы постояли достойно. И даже истина не дороже. Даже для меня ;-) - 580BM80(16.12.2010 16:44)
- А это тайна, которая велика есть. Это в embedded мире код и данные можно положить по разным банкам памяти, и при правильном контроллере SDRAM, который не закрывает банк так долго, как это можно сделать, получить приличный прирост скорости. В Evgeny_CD(31 знак., 16.12.2010 16:37)
- А Вы можете гарантировать, что обрабатываемые массивы отобразятся в кэше таким образом, что доступ к ним будет производиться через разные шины? - 580BM80(16.12.2010 16:34)
- при 4Мбайт кеша L3 на кристалле банковость и шинность внешнего SDRAM не так важны. А кеши подключаются к разным частям процессора разными шинами. - Evgeny_CD(16.12.2010 16:21)
- Хм... Память в разы медленнее самого процессора. К тому же одновременный доступ физически возможен только в разные банки на разных физических шинах. У программиста должна быть возможность явно задавать распределение памяти с точки зрения привязки 580BM80(86 знак., 16.12.2010 16:18)
- А кто просит за один такт? Архитектура x86 как раз и позволяет выполнять команды за разное число тактов, в зависимости от сложности задания. Так что такие ёмкие команды как раз хорошо бы смотрелись на x86 и др. представителях CISC-архитектуры. Ксения(79 знак., 16.12.2010 15:49)
- Уж сколько раз говорено/писано, что native x86 никто сейчас не исполняет, все современные процы компилят его на лету в команды чего-то жутко параллельного и RISCового. Там не только 2 обращения за так к памяти получается, а гораздо больше. - Evgeny_CD(16.12.2010 16:07)
- Конкурируют не только строители x86, но и разработчики других архитектур, в том числи и всяких DSP. И тенденции там те же самые (увеличение частоты и количества ядер). А "примочки" дают весьма серьёзный эффект. Ваш пример FPU += [SI++]*[DI++] 580BM80(381 знак., 16.12.2010 15:22)
- Отчего тогда конкуренция идет за частоту и число ядер, а про примочки забыли? - Ксения(16.12.2010 15:03)
- На мой взгляд у писюка также мало оснований ориентироваться на обработку сигналов, как и у МК заниматься быстрой арифметикой. Да одной и доработки системы команд маловато будет. В DSP есть и другие форсирующие примочки. - 580BM80(16.12.2010 14:57)
- AVR/AVR32 - это контроллеры, на быструю арифметику они и не претендуют, т.к. работают на flash-памяти, которая особо быстрой быть не может. Ксения(1519 знак., 16.12.2010 14:11)
- Пожалуйста :) Up to 10GHz Multicore, fixed/floating + Accelerators бомж(721 знак., 16.12.2010 13:49, ссылка)
- Знаю. Только покажите мне такой DSP, у которого тактовая выше, чем у писюка :). Ксения(288 знак., 16.12.2010 13:02)