Конкретно в dsPIC33 граница, на которой производительность FFT и DFT примерно одинаковы - 256 отсчетов. Это связано с тем, что комплексный бин для DFT выполняется строго за 2*N+1 машинных циклов, а отрицательные частоты считать нет никакой необходимости.
ЗЫ кстати, на одну команду код бабочки можно сократить, не пересылая в буфер последнюю операцию. Но три команды загрузки указателей по таблице в ОЗУ добавить. Итого, бабочка брутто составит 25 инструкций.
А полный БПФ - (25*N*logN)+1 инструкций.