caxapa.ru :: Большая размышлизма про извращенные пути уменьшения требований по памяти.

Evgeny_CD^{Архитектор} (30.11.2012 00:09, просмотров: 28586)

Большая размышлизма про извращенные пути уменьшения требований по памяти. http://caxapa.ru/304157.html
http://www.gii.upv.es/tlsf/
ATSAM4S16CA-AU 100 - $6.42 (дижикей). 120MHz, Cortex™-M4, 1MB FLASH 128K RAM, 100LQFP. На складе нет. Можно предположить, что SAM4SD32C (2MB FLASH 160K RAM, HCACHE 2KB) будет в опте стоить менее $10, например $8. EP4CE6F17C9LN CYCLONE IV FPGA, 6272 LE, 276480 bit RAM, 179 IO, 256-FBGA (17x17, 1mm) 90 - $14.94 (на складе нет). Маложрущая, но медленная FPGA. EP4CE6F17C8N - более быстрая, но более жручая. Имеет встроенный контроллер памяти до DDR3. Цена та же. EP3C5F256C8 IC CYCLONE III FPGA, 5136 LE, 423936 bit RAM, 182 IO, 256-FBGA (17x17, 1mm), 14.90 на складе в розницу. Меньше LE, но больше памяти. Суть идеи. 120MHz, Cortex™-M4 2MB FLASH 160K RAM HCACHE 2KB - это взрослое изделие. На нем можно многое сделать. Но ОЗУ на множество задач при классическом вытесняющем подходе не хватит. У камня есть внешняя шина, 8 бит, порядка 35Мбай/сек при минимальных задержках. Угробит перфоманс нахрен при использовании под ОЗУ. DMA есть только PDC, память-память нет. Зато есть SD|MMC контроллер 8 бит до 50 Мгц (!). Думаю, при карточке совсем без задержек 30-40 Мбайт/сек выдаст. Делаем так. 64к - RTOS и RT задачи в режиме вытеснения. Обрабтка прерываний. 32к - служебная память для менеджера объектов 64к - ресурс пула задач, выполняющихся в кооперативном режиме. А память расширяем при помощи хитрого свопа. Память однобанковая, однопортовая, но. 32 бита, 120 Мгц - 480Мбайт/сек. 40Мбайт/сек от PDC - это менее 10% торможения по ОЗУ, при этом не каждая операция проца лезет в ОЗУ. Чтобы прокачать 64к, надо около 2 мсек. Процом по внешней шине - жалко ресурс терять. DMA память-память нет. Но!!! У нас есть MMC контроллер! Берем FPGA. * SDRAM контроллер. Специализиролванный, блочный, очень простой. * NIOS-II с работой из внутреннего ОЗУ. 32к под код и данные хватит. Может, часть в SDRAM. * Аппаратная реализация SPI протокола для сопроцессоров * MMC контроллер. Очень простой. Одна команда - записать|считать блок. В ней часть битов адреса сектора - служебная информация. * простой форматтер для приема данные от TV деколера и записи их блоками в SDRAM. А далее водим понятие объекта. Объект имеет номер, максимальный размер, и указатель на элемент объекта. Некое подобие файла. Как устроены задачи в кооперативном пуле. MMU на пограммном уровне :) Задача знает, что за ней закреплены такие-то объекты. Это распределено при компиляции. Есть менежер памяти этого 64к кооперативного пула. Отдельно от всего. Задача, получив вызов "продолжить выполнение", делает следующее. Она вызывает менеджер памяти коопертивного пула и говорит - дай указатель на буфер. Далее она вызывает ОСь и говорит - объект такой-то начиная со смещения такого-то, длина блока такая, помести мне по указателю. Вызовы асинхронные. ОСька при помощи MMC свопа прокачивает нужный блок и выставляет флаг - объект готов. Пример JPEG кодека. Задача говорит - дай мне блок 8 строк изображения. И дай мне второй блок 8 строк. И дай мне большой блок под выходное изображение (будем считать для простоты, что мы жмем в файл меньше 64к, хотя это не принциапиально в рамках рассматриваемого подхода) Ждем готовности первого блока. разбиваем 8Х8, зигзаг, обработка. Закончили - тут глядишь, и вторая пачка строк прокачалась. ОСька решает, что пора эту задачу вытеснить нахер. Посылает ей сообщение "замри". Задача в процессе выполнения постоянно контролирует флаги. При обнаружении замри: * очищает стек вызовов - топает в корневую функцию. Например, абортировав текущее сжатие блока 8 Х 8 * записывает статус - жму такой-то блок и проч в специальный блок статус "задачи" * дает ОСи команду - начать своп таких-то объектов * освобождает регионы вызовом менеджера пула кооперативной памяти. * отдает управление. Далее ОСька запускает другую кооперативную задачу, а процессы свопа объектов идут в фоне. Задча либо сразу запускается в работу по мере готовности своих объектов, либо ждет завершения свопа от предыдущей задачи. Софткор в FPGA занимается менеджментом своего SDRAM по алгоритму типа TLSF (Two-Level Segregate Fit) ->. С аппаратной поддержкой для ускорения Памяти для этого надо совсем немного. Он ставит в соответстиве ID объектов и адреса в памяти, контролирует максимальный размер и проч. По MMC ему приходит команда - 32 бита номер сектора и 512 байт - сектор. 14 бит - ID объекта (16к объектов для реальной системы за глаза), 18 бит - смещение (объекты максимального размера 256к тоже нормально). Либо 12 бит - 20 бит (4к - 1М). MMC можно сделать прозрачным :) Задавать адрес сектора больше реального размера карточки. Данные транзитом идут через FPGA. Если команда укладывается в карточку, то FPGA ничего не делает. Есди нет - то она обрабатывается внутри FPGA, а карточка говорит - "что за херню мне прислали", такой ответ идет в никуда. Контроллер для SPI сопроцессоров устроен примерно так. 2 буфера блочной памяти. Перед началом акта обмена софткор программирует контроллер, что перед началом он должен в выходной буфер положить блок, начиная с адреса такого-то, потом произвести обмен, потом полученный блок положить по адресу такому и выставить запрос софткору. SPI сопроцессор является SPI мастером - удобно программить и SPI скорость максимальная будет. Что мы в итоге имеем: * FPGA как "клей" для интеграции кучи всего * большой объем дешевой SDRAM. Можно сделать блочный обмен с простой ECC типа Хемминга (12,8). Т.е. сознательно похерив часть емкости одной микросхемы SDRAM, повысим надежность. 8М памяти данных достаточно для большинства задач, 128Мбит SDRAM стоит менее $2, при Хемминге (8, 4) получим простоту реализации и аццкую надежность ценой потери половины емкости. * очень экономное использование IO FPGA, что является очень дорогим ресурсом в классе дешевых FPGA. * НЕ трату ресов FPGA на то, что можно взять в контроллерах за 1-2$ - UART, I2C и еще много чего. * почти неограниченые возможности расширения. Можно прикрутить десяток SPI сопроцессоров. * Разумная экономика. 8$ (MCU) + 14$ (FPGA) + 2$ SDRAM = $24. При этом возможности гораздо шире навороченного контроллера за $25. Самокритика. * Сложность программизма будет нехилая. Опять segment:offset маячит :) Отладка всех этих оверлеев тоже не сахар. Оценка перспектив. Вычислительных ресурсов 120MHz, Cortex™-M4 2MB FLASH 160K RAM HCACHE 2KB хватит для очень многих эмбеддерсих задач на годы вперед. Максимум, что нам грозит к 14 году - это 4M FLASH 512k SRAM, что меньше по ресурсам, чем я описал. Но если к такому контроллеру присобачить мои оверлеи - итог будет еще более впечатляющим :) Насчет "мы возьмем китайский 2*Cortex-A9 + 2G SDRAM за $30" - его еще запрограммить надо, и SPI сопроцессоры к этому лялиху будет ох как непросто подрубить... Для реализации задач по графике мой подход не годится - им надо много линейно адресуемой памяти, там точно проще "китайский 2*Cortex-A9 + 2G SDRAM за $30". Вот пусть и будет такой модуль SPI сопроцессор для GUI, экран все рано дороже будет :), а целевую логику будем делать на "контроллерах профессионального уровня". Кучка сопроцессоров очень удобна вот почему. Мы можем не просто добавить в систему мост SPI<->UART, а сделать контроллер modbus на однобаксовос контроллере. И По верхнего уровня будет оперировать только пакетами, а одельный контроллер modbus и написать проще, и автономно отладить можно "во все щели". Мой подход способствует групповой разработке, в том числе силами распределенной команды. Есть небольшой набор внутренних стандартов, компоненты системы испытываются отдельно и независимо. Система получается модульная. Конечно, руки чешутся поставить вместо FLASH контроллера за $8 MCF54xxx 250 МГц и $6 + $5 DDR2 чип памяти, но надежность.... в контроллере все на кристалле, а там ECC на SDRAM нету. Для одиночных изделий нижнего ценового диапазона мой подход покажет результаты "не очень", зато если делать линейку продуктов с жизненным циклом лет 15 (как раз до моей пенсии :) ) - алтьтернатив ему просто нету. Гибкость и слабая зависимость от внешних поставщиков у моего подхода вне конкуренции. SPI контроллеры за 1$ можно вообще менять от партии к партии при полной программное совместимости host кода :), FPGA можно заменить, хост процессор тоже. При грамотном написании кода и ориентации на GCC-like среды ПО будет полностью переносимым. В идеале, конечно, надо вкурить таки C++, чтобы легче портировать базу кода. С оверлеями или нет, все остальное чтобы тоже было модульным. Ну и напоследок :). --> MPXD1010VLU64 40 - $10.71 e200z0h 64 MHz Flash (ECC) 1 MB RAM (ECC) 48 KB Graphics RAM 160 KB QFP176 Последние данные. MPXN2020VMG116 - $14.7. Это совершенно неубиваемый камень с диким перфомансом, который стоит так мало по причине обрезанности внешней шины. Применение к нему механизма "оверлеев" позволит творить чудеса :)

- А теперь включаем магию. Готовы? Evgeny_CD(741 знак., 30.11.2012 15:24)
- Рассмотрим STM32F417IGT6. На складах пока не нашел, дижикей 1000 - $9.82 $10, как и предсказывал. 1M FLASH 192K SRAM. Но вопросы имею...-> Ну и errata --> как всегда... SD блок hw flow control забажили... Evgeny_CD(277 знак., 30.11.2012 14:39, ссылка, ссылка)
  - Ну SRAM же, странно было бы если бы было не 0WS ;) А задержки у не-TCM могут быть из-за DMA, которые захватывают шину. - Dir(30.11.2012 15:09)
  - Сдается мне, что при некоторой фантазии вместо QSPI на чтение можно DCMI использовать. Или на SDIO повесить e-MMC чип. - vmp(30.11.2012 14:55 - 14:59, ссылка)
    - В чипе этом желательно дырку не протереть, желательно скорость записи иметь 50 Мбайт/сек, ну и цена e-MMC не очень обычно... - Evgeny_CD(30.11.2012 15:01)
      - А чем плоха цена 373,6 руб за 8 гигабайтный чип? - vmp(30.11.2012 15:09, ссылка)
        
        В общем, ничем. ДОка на него? - Evgeny_CD(30.11.2012 15:14)
        
        Можно взять на аналогичный чип от Микрона, но после нудной регистрации. - vmp(30.11.2012 15:34, ссылка)
    - Я даже доку почитал - нет ли там вывода случайно :) - Evgeny_CD(30.11.2012 14:59)
- Попробую пояснить суть своих идей, они шире, чем просто «прикручивание FPGA». Evgeny_CD(4533 знак., 30.11.2012 12:58)
  - А чем ваши оверлеи лучше виртуальной памяти? Если взять камень с MMU, то нужно лишь сделать диспетчер подкачки отсутствующих страниц из внешней памяти в ОЗУ и не корячиться с построением дерева оверлеев. - vmp(30.11.2012 14:26)
    - В общем, ничем, не считая того, что MMU для Cortex-M4 не предусмотрено, а ARM9 проигрывает M4 с микроконтроллерной точки зрения. - Evgeny_CD(30.11.2012 14:42)
  - А двухядерник для своих целей не рассматривали? Даже безфлэшовый LPC43xx с 264Кб ОЗУ. Периодически подкачиваете оверлеи по QSPI. Он весьма шустрый - 50Мб/с. Может и хватить. И SDRAM есть. Да и флэшовых LPC43xx уже довольно много на складах... Dir(213 знак., 30.11.2012 13:42)
    - QSPI, конечно же, рулит супротив MMC. If exist :) Двухядерность была бы просто кайфом для такой идеологии с теневой RTOS. Смущает сегментированность ОЗУ в LPC. Там кучка банков, и как из него сделать линейное адресное пространство, я пока не Evgeny_CD(344 знак., 30.11.2012 14:06)
      - А что есть сомнения в существовании QSPI? Ну, называется чуть по другому SPIFI. Но сути то не меняет. Скорость даже 60МБ/с обещают. Проверил только что DS :) - Dir(30.11.2012 14:19)
        
        В LPC он есть во многих камнях (уже). У других производителей он встречается в камнях гораздо реже. :( - Evgeny_CD(30.11.2012 14:21)
- Евгений, если вам так хочется flash, sdram и надежности - посмотрите на Hercules™ ARM Cortex™-R Safety Microcontrollers от TI. Cortex-R4F, 220 МГц, дублированные ядра, вся память с ECC (3М Flash, 256К RAM) и по цене $26. - vmp(30.11.2012 09:18, ссылка, ссылка)
  - он достаточно дорог для простых применений. Mahagam(30 знак., 30.11.2012 12:05)
    - +1 - Evgeny_CD(30.11.2012 12:45)
  - Да, у него нет кеша, и он просто создан для моей "оверлейной" идеологии :). Цена в одном классе с моими извращенными мыслями. Камень интересен, я смотрю на него. Смушает безальтернативность. Аналога именно с таким набором опций (SDRAM контроллер) Evgeny_CD(143 знак., 30.11.2012 11:13)
- Не вижу я что-то ситуации когда остро необходима одновременная работа с внешней SDRAM и внутренней флэш Ж8-О Dir(717 знак., 30.11.2012 02:54 - 02:56)
- AM1707 - нет только ECC. - Ralex(30.11.2012 01:44, ссылка)
  - А это приятная фишка, черт побери! - Evgeny_CD(30.11.2012 11:23)
- Обещали (не поню точно, но примерно) от $23 при 10К+ в год - Vit(30.11.2012 01:28, ссылка)
  - Да, это самая мощная шпилька в жопу моей идеи. Вопрос в том, какова будет реальная стоимость создания проекта на этих чудо камнях. Evgeny_CD(191 знак., 30.11.2012 11:15)
- не лучше ли выкинуть ATSAM4S и взять тот МК, который ориентирован на работу с внешней памятью, если уж она нужна? А то получается притягивание за уши - koyodza(30.11.2012 00:16)
  - FLASH + SDRAM + кеш - это только кайнетисы старшие. А они под $20 по цене. PK70FN1M0VMJ12 - $23 (всего 1M FLASH 128k SRAM) и непонятно, когда живьем будут. Гибкость у моего варианта выше. Без кеша - либо медленно, либо тот же оверлей, вид сбоку. - Evgeny_CD(30.11.2012 00:55)
    - Евгений, стесняюсь спросить, а сколько вы dreamboard сделали/продали (по любой, пускай и не самой дешевой цене)? Не подколка. Просто интересно. Мне кажется, что у вас их уже не меньше десятка вариантов должно быть спроектировано. Или нет? - rezident(30.11.2012 00:59)
      - Базовый вариант двухпроцессорного устройства при мне был выпущен тиражем 50к, после моего ухода из фирмы - еще 80к. Было еще несколько 2-х и 3-х процессорных устройств с тиражами несколько к. Для моих задач идеология многопроцессорности полностью Evgeny_CD(164 знак., 30.11.2012 01:03)
        
        Ну т.е. серии даже не 100К. И что, разница цены MCU в $5-10 настолько существенна на фоне продажной стоимости всей dreamboard? - rezident(30.11.2012 01:15)
        
        $10 не критерий. Критерий - одна команда и одна база кода для линейки с "большим динамическим диапазоном" возможностей. Я сейчас пытаюсь нащупать минимальную BOM стоимость продвинутых решений. Evgeny_CD(252 знак., 30.11.2012 11:22)
        
        семейство Vybrid закроет ваши потребности. - 3m(30.11.2012 11:32)
        
        Очень даже возможно. Посему и не бросился разрабатывать согласно своим идеям, а потратил несколько часов на пост, и теперь с благодарностью принимаю критику и идеи... - Evgeny_CD(30.11.2012 11:39)
  - Не совсем. Evgeny_CD(644 знак., 30.11.2012 00:45)
    - OMAP-L138 + самая дешёвая FPGA + mDDRAM. да, дорого. зато SPI-сопроцессоры становятся никому не нужны. ибо и так и быстродействия выше крыши, и 3 разномастных ядра в помощь. - Mahagam(30.11.2012 00:50)
      - - ECC SDRAM. Без SPI сопроцессоров не обойтись. Evgeny_CD(273 знак., 30.11.2012 00:58)
        
        8 UART - это к FPGA, на 6-ом спартане реализуется столько уартов, сколько там модулей блочной памяти. Mahagam(105 знак., 30.11.2012 01:10)
        
        Ну я почти о том же, только круче :) Evgeny_CD(313 знак., 30.11.2012 10:57)
        
        а какая разница где код этих железок будет исполнятся, в однобаксовом отельном арме, или в качестве потока на основном ядре? Mahagam(405 знак., 30.11.2012 12:04)
        
        Фишка в том, что я ставлю формальную заадачу "писателю SPI сопроцессора" и имею средства формальной верификации его труда. Прошло устройство все тесты и не пошло в реальном проекте - я мудак. Не прошло - он бабло не получил. - Evgeny_CD(30.11.2012 12:08)

Средства и методы разработки