caxapa.ru :: Зачитал я тут доку на свежий Microblaze (Xilinx) и протащился! (Я не знаю, есть это в NIOS-II (Altera) или нет – читал в описываемой части токо доку по Microblaze) [upd: добавил Spartan-3E для сравнения].

Evgeny_CD^{Архитектор} (28.07.2011 19:51 - 20:53, просмотров: 30494)

Зачитал я тут доку на свежий Microblaze (Xilinx) и протащился! (Я не знаю, есть это в NIOS-II (Altera) или нет – читал в описываемой части токо доку по Microblaze) [upd: добавил Spartan-3E для сравнения]. С того самого счастливого момента, как я немного стал понимать, работу Осей, меня всегда бесило то, насколько распространенные процы и Оси ортогональны друг другу. Основное:

Скорость переключения контекста. Просто выгружать регистры в память – не быстро. Делать теневые банки – недешево по ресурсами кристалла и плохо масштабируется (вдруг у меня будет не 16 задач, как в SH-2A теневых банков, а 18?).

Работа с системными структурами. Разделение доступа, работа с большими объектами – как же все это не быстро в реале работает…

Грамотная работа с DMA. Чтобы при мелких пакетах скорость не терялась. А то пока DMA запрограммируешь, пока проверишь – а оно завершило или нет – процом проще переслать…

Отсутствие гибкости. Нельзя все задачи причесывать под одну гребенку! Я бы выделил 4 класса:

* Fast interrupt – все для процедуры лежит в SRAM на тактовой процессора. * System routine – как и предыдущее, но в силу большего объема кода и данных они только частично хранятся в локальной памяти. * Schedulable routine. В процессе работы системы хороший шедулер (пусть он для простоты работает параллельно основному процу) заранее сможет предсказать порядок вызова «больших задач». Либо ему можно подсказать из текущей задачи. Т.е. типа прерывание случится когда угодно, но мы его и обработаем быстро, а вот вызов следующей тяжелой задачи можно понять на основе данных от объектов Оси и какой-то информации от текущей задачи. Тогда можно заранее дать команду продвинутому менеджеру памяти (очень продвинутый DMA) –типа загрузи мне стек этой задачи вот сюда, в быстрое статическое локальное ОЗУ, и кусочек программного кода начиная от точки, с которой мы прервали задачу, вот в этот кеш лайн (или эти кеш лайны). И когда все готово – тут мы задачи и переключаем с минимальными задержками. Пусть не все данные и код этой задачи мы загоняем в локальное ОЗУ, но если грамотно загрузить их в кеш – старт «новой» задачи будет без ожидания. * Asynchronus user space – а вот это POSIX. Типа все красиво, стандартно, но очень медленно. Ну чтобы пЫтоны и лУа всякие запускать в полном *NIX окружении. Все живет в SDRAM и работает крайне неторопливо. Время меряется миллисекундами и десятками миллисекунд. DMA вообще должно быть совершенно другим. Это не просто набор регистров, это простенький процессор со специализированной системой команд. Типа ждать вот этого сигнала, брать отсюда, класть сюда, так-то модифицировать указатели, так то модифицировать данные, выставлять такие-то сигналы. И отдавать ему команды я должен как сопроцессору, в основном потоке команд, без задержек. Прочитав доку, я понял, что я не одинок в своих бредовых фантазиях! Что меня поразило: * Специальный бит атомизации для многих команд Microblaze. * Легкость (на бумаге) создания собственного сопроцессора. Мои мечты обретают реальность. Вот как я себе это мыслю. IP тек. Пришел пакет. И попал в спецобработчик. Он подсчитал CRC IP, выделил в пакете дескрипторную часть, преобразовал ее в C структуру, чтобы процу было очень удобно работать с ней, положил в некую быструю память, данные загнал в медленную память, положив указатель и длину в дексриптор, проинкрементировал число необработанных пакетов и суммарный объем данных, и уснул. Вот юзеровское приложение. Которое записало в буфер сокета. Т.е. оно запросило менеджер памяти. Он дал ему нужный кусочек памяти. Юзер заспамил кусочек, дал сокету указатель и длину. Аналогично проикрементировался счетчик необработанных данных сокета. Шедулер постоянно мониторит – что делать далее? Ага, вот необработанные данные по входным пакетам превысили лимит, вот данные по буферу сокета – надо вызвать IP стек. Но вначале мы дадим команду подкачать в локальное адресное пространство дескрипторную часть данных стека, и когда они закачаются, переключим задачи. Никто никого ждать не будет, все на мази. Ага, стек отработал и решил – вот этот кусок данных (! Не обрабатывая сами данные !) надо засунуть в буфер сокета, вот тогда-то обработать такой-то код (истечение таймеров) и т.д. Далее у нас есть менеджер композитных объектов – еще один программируемый сопроцессор. Который суть обрабатывает связный список кусочков в памяти. И у нас есть команды работы с этими композитными объектами, как с файлами – установить указатель, считать данные и т.д. Стек выдает команду менеджеру – включить такой-то кусок в буфер сокета. И усе! Теперь по работе с памятью. SDRAM хорошо работает пакетами! А с небольшой локальной памятью в FPGA поступаем так. Распределяем все адресное пространство между задачами. Где у них код, где данные. И коммутируем старшие биты адреса каждого 2 кб блока :) Т.е. вот сейчас этот блок – данные задачи А по такому-то адресу. Шедулер запускает системную задачу С. Пока она работает, блок данных задачи А загоняется в SDRAM, в тот же блок записывает данные задачи Б, коммутирует его на адресное пространство Б, и когда С отработает, запускает задачу Б на готовом :) Рядом с системным таймером живет двухслойное бинарное дерево поиска. С аппаратной поддержкой. Там записано, в какие моменты какие системные события наступят, и все запрос от задач «ждать 20 мс» пропускаются через то же дерево. Двухслойность означает, что «быстрые» события записаны в локальной памяти, а до которых далеко –живут в SDRAM. По мере продвижения времени и освобождение локальной памяти подкачиваем из SDRAM. Суть всей этой суеты примерно такова. Я всегда поражался многомегабайтным кешам современных процессоров. Ну нахуа процу 2Мбайта кеша, он же столько данных за раз необработает! Это плата за отсутствие планирования работы с памятью силами программиста. И отсутствие сопроцессоров для работы с памятью. Теперь разберемся «скоко стоит». 40 нм Spartan-6 в корпусе BGA 256. Первая цифра – 40, 2-я коммерческие. digikey.com 16k LE. 32 блока BRAM 2k, 32 DSP48A1 Slices XC6SLX16-2FTG256I $27.93 XC6SLX16-2FTG256C $24.27 25k LE 52 блока BRAM 2k, 38 DSP48A1 Slices XC6SLX25-2FTG256I $39.37 XC6SLX25-2FTG256C $34.25 25k LE в больших корпусах 484 1 мм (266 IO) XC6SLX25-N3FGG484C - 45.29 (нет на складе) XC6SLX25-2FGG484I - 52.07 Навороченные донельзя 150k LE 268 блока BRAM 2k, 180 DSP48A1 Slices в тех же больших корпусах 484 1 мм (338 IO). Дорого, но для макетно-транировочных вариантов самое то. Зато 0.5 мБайта статического ОЗУ на кристалле :) XC6SLX150-2FGG484C - 158.75 XC6SLX150-2FGG484I - 182.50 (нет на складе) Спартан 3 (предыдущее поколение) 19.5 k LE. 28 блоков памяти 2к. 28 умножителей 16 х 16. Разница в цене индустриальных очень мала, но камень сильно проигрывает по цене и ресурсами 25-ке строкой выше. XC3S1200E-4FTG256I - 43.74 XC3S1200E-4FTG256C - 42.16 CYCLONE® IV E 15k LE от Altera. 56 умножителей 16 х 16, 1кб блоков тоже что-то типа 56. EP4CE15F17C8N 28.93 - нет в продаже. Коммерческий. EP4CE15F17C7N 36.16 Коммерческий. EP4CE15F17I8LN 43.39 Индустриальный. На коммерческие цены у Altera похожи, а вот индустриальные у нее традиционно задраны. Навороченный Microblaze с отладкой, кешами, контроллером памяти и пр. «весит» <4k LE. Навороченные контроллер SDRAM ~2…3 k LE. (это если не использовать встроенный hard контроллер DDR) Так что в 16 k LE влезет немало чего. В качестве бонуса есть PicoBlaze, который занимает что-то типа 200 LE и половину 2к блока памяти под код. Так что сопроцессоров можно наплодить немеренно. MicroBlaze поддерживает до 16 сопроцессоров :) Да, $25 баксов современные, даже навороченные контроллеры не стоят (оценим их в $15). Но $10 разницы между ценой навороченного контроллера и FPGA стоят того, ибо гибкость и масштабируемость такого решения определяются только фантазией разработчика. В обсчем, Spartan-6 таки «порвал формат». Altera тормозит с Cyclone-IV. С учетом грядущей серии до конца 2012 28 нм чипов от Altera и Xilinx, как со встроенными Cortex-A9, так и без них, FPGA уверенно переходят в область разумной элементной базы для массовых решений. Я понимаю, что трудоемкость разработки и требования к разработчику при реализации этого пути существенно выше, но стоит напрячься, потратить (условно) 1 год в фоне на освоение технологии, как дальше особых затрат не будет. Зато гибкость полная, и за счет кучи DSP блоков ускориться можно просто немерено (на специализированных задачах). Все изложенное верно для embedded систем. С ограниченным и заранее известным числом задач. Без супер-гибкости а ля лялих и пр.

Ответить

- Будущее наступило -> - Evgeny_CD(15.02.2020 01:27, ссылка)
- USB 3.0 становится достижим, по крайней мере для лабораторно-макетных целей. -> - Evgeny_CD(29.07.2011 20:27, ссылка)
- Lattice MachXO2 -> просто создан для такой архитектуры!!!! При цене сопроцессора $7!!! Evgeny_CD(618 знак., 29.07.2011 16:46, ссылка)
  - "И тогда система становится неограниченно масштабируемой...." - World domination !!! Ha-ha-ha... (зловещий смех, занавес) SciFi(26 знак., 29.07.2011 16:54)
    - Ну что же, сделаем последний шаг к мировому господству. Доведем до конца мои красивые идеи по отладке. Evgeny_CD(3869 знак., 29.07.2011 21:42)
    - А я думал, топот санитаров с носилками и смирительной рубашкой... - Evgeny_CD(29.07.2011 17:00)
- "MicroBlaze поддерживает до 16 сопроцессоров" это вы про FSL шину? Mahagam(437 знак., 29.07.2011 11:57)
  - Может я чего не догнал, но ISA у MicroBlaze на вид не страшная... - Evgeny_CD(29.07.2011 21:49)
    - это пока читаешь доку, а как смотришь на то что выдаёт компилятор - хочется рыдать. - Mahagam(31.07.2011 04:30)
      - Не поверите - когда читал доку, такие мысли и крутились у меня в башке :) Evgeny_CD(197 знак., 31.07.2011 12:57)
        
        я ща опять засел за OMAP-L137. Mahagam(1344 знак., 31.07.2011 13:31, ссылка, картинка)
        
        А какая у вас периферия если не секрет? rst(134 знак., 15.08.2011 11:09)
        
        +1. Тоже будем использовать. Но L138 получше будет, там есть SATA и 2 McBSP (Multichannel Buffered Serial Ports). - Ruslan(31.07.2011 15:00)
        
        нам ни то ни другое не нужно. периферией плисина заведует Mahagam(50 знак., 31.07.2011 18:31)
        
        А полная дока на прЭлесть есть? Чтобы самому все можно было написать, без либ? - Evgeny_CD(31.07.2011 14:20)
        
        мы сами всё пишем. Mahagam(120 знак., 31.07.2011 18:30)
        
        А вы сможете держать в голове тысячи 1,5-2 страниц документации, чтобы без либ обходиться? Или вы либы собираетесь писать самостоятельно? Если да, то нафига этот велосипед-то? - rezident(31.07.2011 14:26)
        
        ВОЗМОЖНОСТЬ написать низкоуровневое ПО для любой части камня и НЕОБХОДИМОСТЬ делать это - разные вещи. Первое крайне полезно для защиты инвестиций и выжимания 101% перфоманса в какой-то критической ситуации, а частота использования Evgeny_CD(43 знак., 01.08.2011 12:28)
        
        Полагаю, 10к страниц - более адекватная оценка объема доки на это чипчик. Нафига держать в голове, сидя за компуком :) Evgeny_CD(674 знак., 01.08.2011 11:53)
        
        Как понимаю это сферическая контора? :) В наших реалиях сам будешь себе парсить :) - Ruslan(01.08.2011 12:36)
        
        Нет, контора не сферическая. Не все так просто и идеально, как я описал, но эффективная групповая работа присутствует. Но даже если и сам - вопрос в грамотной организации процесса. При описанном подходе можно и самому за пару месяцев Evgeny_CD(139 знак., 01.08.2011 12:42)
        
        Молодцы. Жму руку. - Ruslan(01.08.2011 12:49)
        
        Ыыы... хочу работать в такой компании, просто люто завидую всеми формами зависти ;-)))) - =AlexD=(01.08.2011 12:12)
  - Правда Ваша. Я пока немного знаю про тонкости софткоров. Я скорее пытался синтезировать некую общую цель, описать будущее крупными мазками. - Evgeny_CD(29.07.2011 12:40)
- Ждем ответа от Altera :) Ruslan(101 знак., 29.07.2011 09:14)
  - Альтере пока не ставили задачу читать все мои посты. Так что от нее пока ответа не будет. Но я отвечу. ОМАР и рядом не лежал. Evgeny_CD(369 знак., 29.07.2011 13:19)
- Долго собирается и мутно в отладке. Вместо основной тематики работы придётся постоянно программировать ПЛИСы. Но некая замануха в этом, конечно, есть. - -pin-(28.07.2011 21:01, )
  - Первые проекты надо делать в режиме рисеча, без обязательств перед внешним миром. После отладки ядра програмить придеться только новую периферию. - Evgeny_CD(28.07.2011 21:10)
- Это все написано для host процессора в архитектуре dream board. Периферийные процики выбираем по вкусу - их нынче много. Ну и контроллер для SPI обмена с периферийными проциками на FPGA сделать можно очень хороший :) - Evgeny_CD(28.07.2011 20:26)

Средства и методы разработки