Там не в ШИМ'е, а в методике формантного синтеза речи. На выходе
вполне себе 12-битный звук телефонного качества, но речь
специфическая. Типичный пример такого синтезатора: eSpeak.
Синтезаторы такого типа очень легко адаптировать для другого языка,
они занимают маленький объём памяти, не требуют высоких
вычислительных ресурсов, поэтому получили широкое распространение.