Тема на самом деле жутко интересная. Просто настоящий диссер можно было бы написать. Не бумажный, а очень даже востребованный. Для этого нужно всего лишь набор тактово-корректных симуляторов различных ядер: ARM, Cortex, CF, MIPS, PPC. Берем пюре Ц код того же LWIP, например. Пишем виртуальный Ethernet контроллер (который после записи битика "отправить" мгновенно, не тормозя проц, отправляет данные получателю - например, виндам при помощи
http://ru.wikipedia.org/wiki/Pcap). И устраиваем обмен нашего виртуального LwIP стека с неким эталонным хостом пакетами переменной длины.
Запускаем код на симуляторе - и считаем, сколько тактов проца было потрачено на прием/передачу объема данных при одинаковой статистике пакетов для разных процов.
Тактово-корректный симулятор ядра - чтобы в жизни и модели число тактов было одинаково. Также симулируется FLASH, кеш, MAM и пр. шняги. Ну или для простоты хотя бы в предположениие идеального 1 тактового ОЗУ на всех шинах.