caxapa.ru :: Для FPP на ассемблере писать круто :-)

Ксения (18.01.2006 13:17, просмотров: 1) ответил blackbit на ..раскопал старый букварь в кладовке:

Для FPP на ассемблере писать круто :-) FPP (float point processor) уже давно стал неотъемлемой частью Пентиумов и Атлонов, но сохранил свою стековою архитектуру и все те же 8 регистров. Компиляторы, к сожалению, не умеют использовать стековый механизм на полную катушку, а, тем не менее, использование глубоких регистров FPP для накопления сумм дает огромный выигрыш в призводительности для матричных операций. Посудите сами. Львиную долю там замимают вычисления т.н. скалярных вектоных сумм, а попросту говоря, накопление суммы произведений соответствующих (с одинаковым индексом) элементов двух массивов. На С это выглядит так: long double summa = 0; for (i=0, i<n; i++) summa += A[i]*B[i]; Компилятор не может реализовать операцию +=, поскольку с FPP такое не пройдет (складывать в памяти он не умеет), а накопление суммы в памяти приводит в двум лишним обращениям к памяти для загрузки и выгрузки значения summа. При том, что каждое значение 10-байтное! (накопление сумм требует максимальной разрядности мантиссы). А между тем, хранить сумму внутри FPP мило дело: fldz // загружаем в стек ноль, это и будет стартовая сумма mov ecx, n // устанавливаем счетчик цикла, он будет считать вниз cycle: // метка fld byte ptr [eax] // загружаем в стек *A fmul byte ptr [edx] // умножаем на *B faddp // прибавляем произведение к сумме с выталкиванием второго слагаемого add eax,8 // сдвигаем поинтер A на следующее значение add eвx,8 // сдвигаем поинтер B на следующее значение loop cycle // крутим цикл ret // готово, накопленая сумма лежит на верху стека, где и положено оставлять результат для функций, возвращающих float-значение. Выигрыш по скорости почти на порядок (в 5-9 раз)! Напоминаю, что при умножении двух матриц [m,k] и [k,n] нужно m*n раз вычислять такие суммы на массивах длиной k элементов. К тому же, точность тут максимальная, т.к. FPP не приходится на каждом шаге по нескольку раз преобразовывать рабочий формат числа в стандартный формат хранения чисел в памяти (это приводит к вынужденному округлению - усечению мантиссы). Кроме того FFT (Быстрое Приобразование Фурье) можно при старании делать внутри FPP, не заводя никаких дополнительных переменных. Это тоже дает ускорение в 4-7 раз (чем длиннее массив, тем больше выигрыш). Это может быть полезным для обработки очень длинных массивов (более миллиона элементов) или при работе в РЕЖИМЕ РЕАЛЬНОГО ВРЕМЕНИ, когда, например, требуется фильтровать звук в wav-формате в процессе воспроизведения.

- .."Сынок, я все знаю - я сам, брат, из этих... но в песне не понял ты, увы, ничего!" (с) Шевчук ;)) - blackbit(19.01.2006 10:27, )
  - Ты бы, дедушка, ещё азбуку раскопал :-( - Ксения(19.01.2006 11:31, )
- Народ, может хватит ? :) Черный Кот(885 знак., 18.01.2006 23:13, )
  - о. виашдээльщик. Mahagam(175 знак., 19.01.2006 10:51, )
- какой именно компилятор так не умеет? - Mahagam(18.01.2006 16:01, )
  - Borland не умеет Ксения(386 знак., 18.01.2006 22:05, )
- Ксень, про FFT пожалуйста подробнее :) Черный Кот(867 знак., 18.01.2006 14:57, )
  - Ответ: Ксения(1476 знак., 18.01.2006 22:26, )
    - Ксень, спасибо, но увы, мы о разных вещах говорим... :( Черный Кот(966 знак., 18.01.2006 22:55, )
      - Действительно о разных Ксения(531 знак., 18.01.2006 23:08, )
        
        Вот тут про "быстрые" оптроны - Snaky(19.01.2006 07:53, , ссылка)
        
        Спасибо, статья любопытная, но... Ксения(627 знак., 19.01.2006 12:48, )
        
        Вот это уже забавно... Черный Кот(602 знак., 19.01.2006 00:06, )
        
        Я как-то уже задавала про это вопрос Ксения(359 знак., 19.01.2006 00:39, )
        
        Схемы a) производятся серийно, можете купить :)) - General(19.01.2006 07:56, )
        
        Ндя... О мужики, ничтожество вам имя... :))))))))) Черный Кот(713 знак., 19.01.2006 02:01, )
        
        есть ещё извращенное решение Mahagam(258 знак., 19.01.2006 10:57, )
        
        Пустое дело. Сегодны бессмысленно ставить что-либо, кроме ADum1100 или подобных. там 10М минимум. - General(19.01.2006 08:00, )
        
        АДумы хороши, но у них униполярный 5-вольтовый выход Ксения(481 знак., 19.01.2006 11:28, )
        
        Преобразуй транзистором как в схеме а) - General(19.01.2006 13:10, )
        
        О какой схеме речь? - Ксения(19.01.2006 13:17, )
        
        Оэта - General(19.01.2006 15:38, , картинка)
        
        Я эту схему не понимаю Ксения(304 знак., 19.01.2006 17:14, )
        
        АбракАдабра. RTX=RxD, TXD=TxD, +8..12V = RTS или DTR. А читать надо больше :)) - General(20.01.2006 10:38, )
        
        Тогда к TxD и RTS эта схема не должна присоединяться Ксения(172 знак., 20.01.2006 11:29, )
        
        RTS и TXD приходят от компьютера. Причем в состоянии, когда комп "молчит", на его TXD -10V, а на его RTS обычно +10V (у модема + на DTR и поэтому для запитки от RS232 обычно ставят два диода). Действительно, тут немудрено и запутаться. - General(20.01.2006 12:05, )
        
        Ответ: Ксения(589 знак., 20.01.2006 15:52, )
        
        сразу видно, кто программист, а кто системотехник, (ли системоинженер?). - Mahagam(20.01.2006 15:10, )
    - добавление Ксения(189 знак., 18.01.2006 22:33, )
  - Блин... Извини ступил :((( Черный Кот(252 знак., 18.01.2006 16:48, )
- На дворе вообще-то 2006 год AD(202 знак., 18.01.2006 13:43, )
  - Кстати... Черный Кот(690 знак., 18.01.2006 23:49, )
    - gcc сам по себе Mahagam(15 знак., 19.01.2006 11:04, )
      - Мне кажется ты не прав :) Черный Кот(472 знак., 19.01.2006 12:05, )
        
        для ARM говоришь? Mahagam(238 знак., 19.01.2006 12:19, )
        
        да, известный факт bialix(83 знак., 20.01.2006 19:30, )
      - Нет, нет.. будьте же последовательны - в руках мастера и к@кашка топор. ;) - blackbit(19.01.2006 11:38, )
    - Ответ: AD(592 знак., 19.01.2006 00:28, )
      - Ну вот видишь, и спорить оказывается не о чем :))))))))) - Черный Кот(19.01.2006 02:02, )
  - Чепуха Ксения(72 знак., 18.01.2006 22:29, )
    - Что именно чепуха? AD(34 знак., 18.01.2006 23:54, )
      - Ответ: Ксения(1472 знак., 19.01.2006 01:03, )
        
        Мне даже стыдно AD(620 знак., 19.01.2006 12:56, )
        
        А мне не стыдно, я - ... бессовестная :-) Ксения(335 знак., 19.01.2006 14:38, )
        
        Ууу, как все запущено AD(422 знак., 19.01.2006 15:29, )
        
        AMD CodeAnalyst Mahagam(158 знак., 19.01.2006 15:17, )

Микроконтроллеры