caxapa.ru :: [Последовательный суперскаляр]. Ключевая идея для embedded CPU

Evgeny_CD^{Архитектор} (17.12.2021 23:50, просмотров: 2330)

[Последовательный суперскаляр]. Ключевая идея для embedded CPU

Пусть у нас будет ядро, 200....1000 МГц. И пусть будет шина периферии, 30-50-100 МГц.

Вот процессор пишет в регистр периферии. Буфера для записи (даже в ARM926 их штук 8 было) или кеш отработают это, не тормозя процессор. Но нужна блокировка, если кто вдруг сразу прочитает по этом адресу - программная или аппаратная.

Вот процессор читает регистр периферии. И наступает жопа. Процессор замирает, пока не отработается чтение из регистра.

Пусть у нас будет "буфер чтения", несколько шт. В том такте, где у нас была команда "прочитать по адресу в регистре и положить в другой регистр", это пишется в буфер чтения. Регистр блокируется битом неготовности. Если кто полезет в регистр, все тормозится, прерывания и вызов, возврат из подпрограмм запрещены.

Если у нас нет обращения к регистру, то ничего не тормозится.

Когда периферийная шина отработала, и прочитанное попало в буфер чтения, то процессор на 1 такт тормозит все остальное, данные попадают в регистр, бит неготовности снимается.

Структура процессора несколько усложнится, но слабо, и сложных перекрестных зависимостей в этой структуре нет. Тактовая не упадет сильно.

Суперскаляр - это когда поток команд разбивается на несколько параллельных потоков, которые патаются исполнить независимо. И там есть такой механизм - если что-то не готово для исполнения, поток курит бамбук, другие работают. Но это намного более сложная структура. Это откуда такое название.

Идею можно расширить. Пусть у нас тактовая ядра в несколько раз выше тактовой внешней памяти. SAM9X60 - 600 Мгц ядро, 200 - SDRAM. Если мы хотим прочитать из памяти, а она не закеширована, но страница открыта - нужно отложить чтение на 5 тактов, скажем, делая что-то другое (например, записывая, или читая из закешированной области) мы сэкономим бесценные тактики. В среднем можно прилично съкономить. Можно также сократить размер кеша без потери скорости, что всегда полезно.

Если у нас ZBT, синхронная статическая память, то при грамотном проектировании можно вообще микроскопическим кешом обойтись.

Ответить

- Ta-daaam! Achievement unlocked. You're invented Tomasulo algorithm! - RxTx(18.12.2021 00:13)
  - Твою мать, все украдено до нас! Но я придумал такой лайтовый вариант, очень экономичный по LE Evgeny_CD(1 знак., 18.12.2021 00:30, ссылка)
    - ну об этом даже девушка Ирина у Панчула в курсе :)) фyтбoлиcт(2 знак., 18.12.2021 00:46, , картинка, ссылка)
      - Блин, накрылся Нобель :( - Evgeny_CD(18.12.2021 00:53)
        
        да там всего чуть больше ляма. разве это деньги?? сейчас.. - фyтбoлиcт(18.12.2021 01:01, )
        
        Ну как, вот такую 4х канальную штучку домой можно было бы купить. 50+ Gsps примерно лям зелени и стоит. Evgeny_CD(1 знак., 18.12.2021 01:18, ссылка)
        
        а смысл ? ведь и не останется почти ничего на хорошие детальки.. фyтбoлиcт(1 знак., 18.12.2021 01:26, , ссылка)
        
        Это? Evgeny_CD(1 знак., 18.12.2021 02:03, ссылка)
- Вот такая "мелочь" позволит сделать работу процессора и периферии сильно более гармоничной. Т.е. при грамотном коде часть обработки будет в железе, например то, что плохо ложится на процессор, какие-то битовые поля, еще что-то, процессор будет получать готовые данные и давать новые команды управления, и все это не будет сильно терять такты даже при относительно медленной шине между ними. - Evgeny_CD(17.12.2021 23:55)

Средства и методы разработки