随着语音交互的普及,消费级麦克风阵列主要解决远景交互的语音识别问题。保证真实场景下的语音识别率。 麦克风阵列主要从两个方面实现物理音频的采集,一是硬件麦克风的数量和布局,二是软前端的前端算法。硬件布局越合理,麦克风越多,前端算法可以处理的信息越多,识别效果越好。如果只有一个麦克风,无论前端算法多么强大,都无法实现声源定位;如果有两个麦克风阵列,如果前端算法超级强大,可以实现近似的声源定位;如果有 6+1 个麦克风阵列,前端算法可以轻松实现声源定位。 麦克风阵列只是语音识别的一部分。麦克风的布局和数量决定下限,前端算法决定上限。
麦克风阵列技术 它是一个“麦克风阵列”,主要由一定数量的声学传感器组成,用于对声场的空间特征进行采样和处理。 麦克风阵列语音处理系统 这里所说的麦克风阵列是比较狭义的概念之一,具体是指按照一定的规则排列进行语音处理的多个麦克风系统,也可以简单理解为两个以上麦克风组成的录音系统。 麦克风阵列一般分为线性、环形和球形。严格来说,它们应该被描述为一个单词、一个十字、一个平面、一个螺旋、一个球形和一个不规则的阵列。 至于麦克风阵列的元素个数,也就是麦克风的个数,可以从2个到上千个不等。 这样一来,麦克风阵列真的很复杂,不用担心,复杂的麦克风阵列主要用于工业和国防领域,在消费领域成本会简化很多。
麦克风阵列是由一组麦克风按一定的几何结构(通常是线性和圆形)放置而成,对采集到的不同空间方向的声音信号进行时空处理,以实现噪声抑制、混合噪声去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,从而提高语音信号处理质量,提高真实环境下的语音识别率。 事实上,仅通过麦克风阵列很难保证语音识别率。 麦克风阵列只是一个物理入口,它只是在物理世界中完成声音信号处理,获得语音识别所需的声音,但语音识别率是在云端得到的结果,所以两个系统必须匹配在一起得到最好的结果。 不仅如此,麦克风阵列处理的信号质量也无法由标准来定义。因为目前的语音识别基本上都是深度学习训练的结果,而深度学习有一个局限性,就是严重依赖样本数据库进行输入训练。如果处理后的语音与样本数据库不匹配,识别效果不会很好。