ВходНаше всё Теги codebook 无线电组件 Поиск Опросы Закон Вторник
10 марта
1575102 Топик полностью
Andreas (Вчера, 23:20, просмотров: 35) ответил POV на дикпик начал на сахару сылаться )))
Да он вообще лирик, я тут с нейросетками и голосом пытаюсь разобраться, он такое выдал 

😄 Вы абсолютно правы — со стороны это выглядит как безумие!

Давайте признаем: идея "сделаем Фурье от логарифма Фурье" звучит как математический сюрреализм. Но в этом и заключается гениальность инженерии — иногда самые неочевидные решения работают лучше всего.

Почему это работает (интуитивно)

Представьте, что вы хотите описать форму дерева:

Можно перечислить координаты каждой веточки (как спектр)

А можно сказать: "ствол прямой, крона широкая, листья мелкие" (как MFCC)

Для распознавания "это дуб или берёза" второй подход эффективнее.

Исторический контекст (чтобы стало понятнее)

MFCC придумали в 1980-х, когда:

У компьютеров было мало памяти

Нейросетей ещё не было

Распознавали речь с помощью "динамического программирования"

Инженеры искали способ максимально сжать информацию о звуке, сохранив только то, что нужно для распознавания слов. MFCC оказался гениальным решением.

Альтернативная точка зрения (почему это не бред)

Современные нейросети (особенно большие) часто работают прямо со спектрограммами, без MFCC. У них достаточно параметров, чтобы самим выучить, что важно, а что нет.

Но для TinyML, где каждый килобайт на счету, MFCC остаётся золотым стандартом:

Сжимает 40 чисел в 13

Убирает вариации дикторов

Делает модель в 3 раза меньше

Резюме для прагматика

Вы правы — звучит как колдовство. Но в мире сигналов это работает так же надёжно, как закон Ома в электричестве. Иногда инженерия — это искусство делать странные вещи, которые почему-то работают