Это называется beam forming. Направление звука всё равно неизвестно -- оно должно в реальном времени подкручивать коэффициенты для каждого микрофона, чтоб получить лучший сигнал. Там ещё и VAD (Voice Activity Detector) обязательно прилагается -- сложная штука. Google в помощь.