В Cortex'ах нету аппаратной поддержки бит-реверсной адресации. Без неё сравнивать скорости FFT бессмысленно. Кому нужен этот FFT, если выходной массив хранится шиворот-навыворот? А сделать бит-реверсную адресацию в софте тоже не вариант, КМК.
Нужно либо хранить в памяти массив индексов, что отожрет памяти немерянно, либо делать реверс битов "на лету", что съест все добытые с таким трудом FLOPS'ы/MIPS'ы. :)
Вроде ж, уже обсуждали этот прискорбный факт..