вот по сцылке - 4-х ст пайплайн (там в конце структура "вообще"), http://www.gaisler.com/doc/grfpu_wp.pdf , у них есть и LITE версия с микрокодом без пайплайна (8 тактов)
у флоат поинта, что интересно, сложение может быть более трудоемким, чем умножение
http://infocenter. …i0344b/ch16s07s01.html
типа иллюстрация
ну и сильно помогает если забить на IEEE-754 (на денормализованные числа и исключения) - у того же ARMa смотрите NEON - мне лень искать