Да он вообще лирик, я тут с нейросетками и голосом пытаюсь
разобраться, он такое выдал 😄 Вы абсолютно правы — со стороны это выглядит как безумие!
Давайте признаем: идея "сделаем Фурье от логарифма Фурье" звучит как математический сюрреализм. Но в этом и заключается гениальность инженерии — иногда самые неочевидные решения работают лучше всего.
Почему это работает (интуитивно)
Представьте, что вы хотите описать форму дерева:
Можно перечислить координаты каждой веточки (как спектр)
А можно сказать: "ствол прямой, крона широкая, листья мелкие" (как MFCC)
Для распознавания "это дуб или берёза" второй подход эффективнее.
Исторический контекст (чтобы стало понятнее)
MFCC придумали в 1980-х, когда:
У компьютеров было мало памяти
Нейросетей ещё не было
Распознавали речь с помощью "динамического программирования"
Инженеры искали способ максимально сжать информацию о звуке, сохранив только то, что нужно для распознавания слов. MFCC оказался гениальным решением.
Альтернативная точка зрения (почему это не бред)
Современные нейросети (особенно большие) часто работают прямо со спектрограммами, без MFCC. У них достаточно параметров, чтобы самим выучить, что важно, а что нет.
Но для TinyML, где каждый килобайт на счету, MFCC остаётся золотым стандартом:
Сжимает 40 чисел в 13
Убирает вариации дикторов
Делает модель в 3 раза меньше
Резюме для прагматика
Вы правы — звучит как колдовство. Но в мире сигналов это работает так же надёжно, как закон Ома в электричестве. Иногда инженерия — это искусство делать странные вещи, которые почему-то работают