Замысел состоит в том, что можно сильно оптимизировать ПО. На железо возложить чисто железные задачи - наносекундный hard RT (фильтрация коротких помех через однобитовое "скользящее среднее" как пример), кучу паралельных процессов (простенький коррелятор, например) - которые крайне трудно и нерационально делать на MCU.
А все заточенное под программизм делать на MCU. За счет паралелльной шины обмен с FPGA будет не только быстрым, но и синхронным. При правильном проектировании примерно так:
* считал пин готовности FPGA на порту (чтобы не тормозить процессор довольно медленной шиной)
* программно считал данные из FPGA
* Опять проверил готовность
* засунуд данные и т.д.
SPI при интенсивном или чувствительном к RT обмене был бы головной болью, т.к. либо тупо висеть на опросе готовности, либо появляются прерывания, буферизация, сложности синхронизации и проч.
В этом случае даже Cortex-M0 будет достаточен для многих задач, да и цена вопроса $5 допустима для многих приложений.
Мир в очередой раз изменился.