С STM32, как и со всеми сложными камнями, все сложно не по причине 32 битности. На скорость влияют: * неравномерность скорости к ускорителю FLASH (надо читать новое 128 (256 H7) битное слово FLASH кода или нет)
* столкновения процессора и DMA (а каналов DMA может быть много)
* состояние кеша
Так что сколько тактов займет тот или иной код - никто точно не знает :( И от итерации к итерации оно будет очень сильно плавать (до кратных различий для малого количества кода).