Обновление: добавил тесты Cortex-R4F с программной эмуляцией, добавил тесты SDRAM в LPC4357, добавил свои выводы Очевидно, что результаты с VFP быстрее, я хочу сравнить архитектуры (не затрагивая результатов с VFP).
1. медленный флэш в LPC4357 (20 МГц) портит всё. Время выполнения замедляется с 27.1 мс до 57.2 мс, более чем в два раза (112%). То есть уж лучше взять микроконтроллер с меньшей тактовой частотой, но с более быстрой флэш (например, Renessans с 100 МГц флэш). Также усугубляет проблему отсутствие кэша в CortexM4.
2. по причине медленного доступа к SDRAM и отсутствия кэша в Cortex-M4 код из SDRAM имеет смысл выполнять только при максимальной рабочей частоте 120 МГц (ограничение в техническом описании LPC4357).
3. По той же причине медленного доступа к SDRAM и отсутствию кэша понятие "linux", даже с патчем realtime, бессмысленно (будут тормоза).
4. Чип от Texas Instruments получился удачный; замедление быстродействия при выполнении из флэша приемлимое (с 24.11 мс до 35,44 мс; 47%). Там более быстрая флэшка. Но нет кэша (было бы ещё быстрее).
число "fps" для двух ядер LPC4357 @ 204 МГц (FLASH): 1000 / 60.7 + 1000 / 147 = 23.28, для RM48L952 @ 220 МГц: 1000 / 35.44 =28.22. С учётом масштабирующего коэффициента по частоте получим 28.21 * 204 / 220 = 26.16. То есть одно ядро CortexR4 в RM48L952 быстрее двух ядер CortexM0 + CortexM4 в LPC4357 на такой же частоте. И не надо заморачиваться с синхронизацией ядер
5. Cortex-M0 сильно тормозное ядро. Целесообразно использовать если уж совсем припрёт (микропотребление, например). А так смысла вообще не вижу, лучше уж быстрее посчитать с Cortex-M3(4) и заснуть, или посчитать за такое же время при меньшей тактовой.