语音UI的基本原则

描述

Amazon Echo和Google Home中的语音用户界面(语音UI)功能吸引了消费者的注意。语音识别系统的效率很大程度上取决于麦克风阵列和算法集合,这些算法允许阵列聚焦于用户的语音并拒绝不需要的噪声。下面解释这些算法的基本功能。

触发/唤醒词

语音 UI 系统使用分配的触发词(如“Alexa”或“确定谷歌”)来激活语音 UI 设备。设备必须使用自己的算法立即进行识别,因为使用互联网资源会产生太多的延迟。

触发词必须产生一个独特的波形,该波形可以使算法与正常语音区分开来,否则成功识别的百分比可能低得令人无法接受。通常,使用三到五个音节的触发词是最好的。

小触发词算法占用较少的内存和处理,但犯更多的错误,而大的算法需要更多的资源,但犯的错误更少。模型也是可调的 - 它们可以更严格(更少的误报,但更难触发)或更宽松(更多的误报,但更容易触发)。大多数产品设计师选择更严格的调整,因为客户对错误触发没有同情心。

图 1 比较了不同调谐点的三触发模型的性能。在测试条件下,每小时实现少于两个错误触发器是一个合理的目标。小模型只能通过图形最左侧的两个最严格的调谐来实现这一点。中型和大型型号在更宽的工作范围内实现了这一目标。

dsp

dsp

图 1. 每小时使用小型、中型和大型算法模型测试误报,左侧调整更严格,右侧调整更宽松。

到达目的地(到达方向)

一旦触发词被识别出来,下一步就是确定用户语音的到达方向(DOA)。一旦确定了方向,DOA算法就会告诉波束成形算法它应该聚焦在哪个方向。

DOA算法的核心功能是检查来自阵列中不同麦克风的信号的相位关系,并使用此信息来确定哪个麦克风首先接收声音。但是,由于来自墙壁,地板,天花板和房间内其他物体的反射,用户的声音也将从其他方向传来。为此,DOA算法包括优先逻辑,它将更响亮的初始到达与更安静的反射分开。

DOA 算法的操作通过自动调整环境噪声水平得到增强。该算法测量房间内的平均噪声水平,并且仅当输入信号至少比环境噪声水平高出一定数量的分贝时,才会重新计算用户嘴巴的位置。

回声消除器

为了更好地关注用户的声音,语音 UI 设备必须从其麦克风拾取的声音中减去自己的扬声器产生的声音。这似乎很简单,就像将节目材料的相位反转版本混合到来自麦克风的信号中一样简单。然而,该过程不足以处理扬声器对波形的改变、数字信号处理(DSP)均衡、麦克风和声学反射。

AEC算法中的第一步是将麦克风的输出与原始(前DSP)输入信号进行比较,并计算校正曲线,以从语音命令的波形中减去扬声器的直接声音。

第二步是减去声学回声。该算法必须在一定的误差范围内“寻找”与节目材料匹配的声音(以补偿由声学引起的波形变化),以及对应于预期混响时间的已定义时间窗口内的声音。由于每个麦克风接收的回声集略有不同,并且来自扬声器的直接声音也不同,因此要实现最佳性能,需要对每个麦克风进行单独的 AEC 处理。

AEC 查找反射的时间段称为“回波尾部长度”。回声尾部长度越长,可以消除的反射越多,算法的性能就越好。然而,较长的尾巴需要更多的内存和更多的处理。图2显示了回声消除器在逐渐增加混响的房间中的表现。对更长的回声尾部的需求是显而易见的。

dsp

dsp

图 2. 回声消除器在四个房间中表现,混响时间增加。较大的房间受益于使用长回声尾部的算法。

波束成形

波束成形允许麦克风阵列聚焦于来自特定方向的声音。它提高了信噪比(SNR),因为它有助于隔离用户的声音,同时抑制来自其他方向的声音。

例如,如果用户位于麦克风阵列的一侧,而空调位于另一侧,则来自空调的声音首先到达用户对面的麦克风,然后在几分之一秒后到达离用户最近的麦克风。波束成形算法使用这些时差来消除空调声音,同时保留用户的声音。

具有两个麦克风的阵列取消声音的能力有限,但具有三个或更多麦克风的阵列可以消除来自更多方向的声音。麦克风越少,性能就越会随着视角(用户的声音与语音 UI 产品前轴之间的角度)的变化而变化。

虽然麦克风阵列系统使用定向拾音模式来滤除噪声,但某些噪声可以通过识别将噪声与所需信号分离的特性,然后消除噪声的算法进行衰减。降噪算法可以帮助触发单词识别,并在所有其他算法完成其工作后提高语音UI性能。

语音命令是瞬时事件。可以检测到始终存在或重复的任何声音,并将其从来自麦克风阵列的信号中删除。示例包括汽车中的道路噪声,以及家庭中的洗碗机和HVAC系统噪声。高于或低于人声频谱的声音也可以从信号中滤除。

手机中使用的常见降噪算法倾向于突出显示对人类理解最关键的频谱,而不是对电子系统隔离和理解语音命令最关键的频谱。大多数此类算法实际上会降低语音 UI 性能。简单地说,人类听的东西与语音UI系统不同。

图3显示了在有和没有降噪的情况下触发字检测的功效。降噪算法将整体语音识别提高了2 dB -考虑到用户的声音通常仅比周围噪声大几dB,这是一个很大的差异。

dsp

图 3. 降噪算法对触发字检测的影响。

审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分