Я говорил о следующем. Пусть есть некий пакет под обработку. Его обработку можно разбить на несколько коротких стадий, которые выстроены в конвейр.
В такой системе не будет никого потока данных и потока управления - условно, на каждом такте у тебя данные уже а регистрах, ты делаешь свою операцию и передаешь данные в регистры следующего блока. Слои нейросети, например.
Но в реальной жизни все портят обратные связи. Когда для стадии N тебе нужны данные стадии N+7, например. Спекулятивное исполнение помогает, но не до конца.
Условно, FFT я могу выстроить до скорости обработки 1G+ отсчетов в секунду и любой размерности, с выдачей спектры каждый такт, потому что там систолическая матрица. Но на все алгоритмы столь хороши.