语音命令系统的低功耗解决方案二

星星科技指导员 2022-10-25 795

描述

便携式产品中语音命令的硬件注意事项

语音命令接口的硬件核心由麦克风阵列和处理器组成，处理器可以接收和解释来自麦克风的音频信号。根据设备的类型，可能需要各种其他组件，例如用于低功耗蓝牙或WiFi的无线接口，以及扬声器，放大器，LED和显示器以提供用户反馈。

麦克风阵列设计

虽然可以在语音命令产品中使用单个麦克风，但大多数此类产品使用由两到七个麦克风组成的波束成形阵列。该阵列允许音频处理器将麦克风的拾音模式集中在用户的声音上，从而提高用户语音相对于周围环境噪声的信噪比。DSP概念的研究表明，实现最佳的信噪比对于语音命令产品的准确性和可靠性至关重要。然而，便携式和电池供电产品的外形尺寸所带来的要求带来了许多挑战，而这些挑战在专为家庭使用而设计的产品中并不存在。

麦克风数量：DSP Concepts 白皮书“设计优化的麦克风波束成形器”表明，增加麦克风数量可以提高语音 UI 的可靠性，五个麦克风阵列在环间距为 71 毫米之间，实现了性能和成本的最佳平衡。麦克风的灵敏度匹配得越紧密，波束成形器的性能就越好;实现这一点的最实用方法是在安装麦克风后平衡硬件中的麦克风灵敏度，因此灵敏度调整不仅可以补偿麦克风的不同增益（通常指定为±3 dB的精度），还可以补偿外壳对麦克风的声学效果。

然而，很少有便携式产品，几乎没有可穿戴设备有这样的阵列空间。例如，真正的无线耳机通常每个听筒中只有两个麦克风的空间。此外，这种阵列所需的处理能力可能超出了大多数便携式设备中使用的相对较小的处理器的能力。因此，执行波束成形和其他语音 UI 优化功能的软件算法必须能够针对两个或最多三个麦克风进行优化。

麦克风选择：由于语音命令产品使用多个麦克风，因此这些产品选择麦克风的两个主要因素通常是尺寸和成本。然而，在便携式和电池供电产品中，麦克风的功耗也变得很重要。MEMS麦克风已经成为语音命令产品的标准，其小尺寸、低成本和低功耗使其在便携式和电池供电产品中的使用更加重要。压电MEMS麦克风的另一个优点是它们非常稳定，并且在回流焊，湿度或温度变化期间灵敏度不会发生变化。

这些麦克风可以具有模拟或数字输出，但模拟麦克风通常是超低功耗应用的更好选择。模拟麦克风具有内部放大器，因此需要一些功率，但使用PDM或I2S数字输出具有更多的内部组件，因此消耗更多的功率。但是，模拟麦克风可能需要添加模数转换器级，如果该功能尚未内置于 SoC 中。

专为超低功耗应用设计的MEMS麦克风的一个例子是Vesper VM1010，这是一款模拟输出麦克风，在“声音唤醒”模式下的额定功耗仅为8 μA。考虑到便携式产品中的电池即使在完全断电时通常也会消耗约50 μA的功率，因此VM1010对便携式产品的电池寿命几乎没有影响。

VM1010中的压电麦克风元件由一个非常低功耗的比较器威廉希尔官方网站监控，当麦克风上的声音超过由外部电阻器设置的特定阈值时，该威廉希尔官方网站会向系统的其余部分发送唤醒信号。正确选择电阻器可设置所需的阈值，以优化 VM1010，从而在各种噪声环境中实现最佳性能。VM1010 专注于 250 Hz 至 6 kHz 之间的声音，可更好地拾取人声并抑制环境噪音，如机械隆隆声和风噪。因此，VM1010 中的零功耗监听在系统中最低功率的语音活动检测模式之前提供超低功耗模式，从而在待机状态下节省大量功耗。这种类型的单个麦克风可用于触发语音命令产品的麦克风阵列、音频处理威廉希尔官方网站和互联网连接（如果适用）。

处理器

［图1|Vesper VM1010 MEMS 麦克风（左）及其内部威廉希尔官方网站配置（右）］

便携式产品中的语音识别麦克风也必须坚固耐用，能够承受产品从腰部高处掉落到混凝土上的冲击。它们可能还需要防水或至少防水。上面引用的VM1010是浸入式，防尘和防震的，因此它符合所有这些标准。

根据DSP Concepts进行的测试（在白皮书“设计优化的麦克风波束成形器”中介绍），阵列中麦克风的信噪比并不重要。使用灵敏度容差更严格的麦克风有助于提高性能 - 本文详细介绍了使用具有±1 dB容差的麦克风而不是更典型的±3 dB的麦克风所带来的改进。但是，考虑到阵列中的每个麦克风可能处于不同的声学环境中，由于外壳的物理设计，最好在处理器中而不是麦克风本身中匹配麦克风灵敏度。

另一种节省功耗的可能方法是使用加速度计唤醒设备，因此突然移动可以激活麦克风阵列和处理威廉希尔官方网站。这种设计可以消除让麦克风始终“倾听”的需要。它可能在遥控器和控制面板等产品中不实用，这些产品可能超出手臂的可及性，但在一些可穿戴设备中可能很实用。

音频处理器注意事项

在任何语音命令产品中，音频处理器（无论是专用 DSP 还是 SoC 中的处理内核）都必须具有必要的计算能力，以处理来自阵列中所有麦克风的信号，并运行语音识别所需的所有算法。芯片可以容纳的算法越先进，麦克风越多，信噪比就越好，语音识别就越准确。但是，在便携式和电池供电产品中，处理器还必须消耗尽可能少的功率，以便在产品中保持足够的电池寿命。计算和功率效率的这种微妙的平衡行为是一项极其困难的工程挑战。

Ambiq Micro的阿波罗系列是专门设计用于处理具有小外形尺寸和电池功率的产品中的大量音频处理任务的处理器系列。这些微控制器和 SoC 采用 Ambiq Micro 的 SPOT（亚阈值功率优化技术）平台设计，该平台允许它们在不到 1/10 的分辨率上运行。千典型音频处理器的电流。该公司的第一款基于SPOT的MCU，阿波罗1，是一款基于24 MHz皮层M4F的MCU，专注于传感器处理。处理器满载时功耗为35uA/MHz，休眠模式下功耗低至143 nA，仅为便携式产品中电池典型静态功耗的0.003倍。

基于 Cortex M4 的下一代 Apollo2 增加了 PDM 输入，并将内存占用空间和处理能力提高了一倍，达到 48 MHz，专注于超低功耗、始终在线的语音命令处理。Apollo2 Blue 进一步构建了 Apollo2 的功能，集成了低功耗蓝牙控制器和蓝牙 5 就绪无线电。

处理器

［图2 |显示Ambiq微型阿波罗2号蓝色的结构和特征的框图］

Apollo2 和 Apollo2 Blue 处理器目前能够使用 DSP Concepts 的语音 UI 算法（如下所述）处理来自两个或三个麦克风阵列的信号，使其适用于超低功耗耳戴式、可穿戴设备和其他移动应用。Ambiq Micro还计划发布Apollo3 Blue，它将提供额外的计算带宽来处理更多的麦克风，以及更低的活动功耗和睡眠模式，从而实现更严格的波束成形模式，更好的信噪比和更好的语音识别精度。

所有这些处理器都具有耳机等微型可穿戴产品所需的紧凑尺寸。它们的尺寸从2.5mm到4.5mm不等，具体取决于引脚配置。阿波罗1号的有功功耗额定为35 μA/MHz，而阿波罗2号和阿波罗2号的额定功耗低于10 μA/MHz。借助 Apollo2 Blue 的蓝牙 5 无线电，它可以充当语音助手的专用蓝牙低功耗语音通道。

其他组件

除了麦克风阵列和音频处理器之外，语音命令产品还需要其他组件。具体的组件要求将取决于应用和外形尺寸，但几乎每个语音命令产品都会采用一些要求。与麦克风和处理器一样，选择这些组件不仅要考虑其功能和性能，还要考虑小尺寸和低功耗。

无线接口：为了提供比最基本的功能更多的功能，语音命令产品需要访问Internet，以便它们可以从外部服务器发送和接收数据。使用专为家庭使用的智能扬声器，这种连接是通过WiFi与LAN建立的。对于便携式语音命令产品，它通常通过蓝牙连接到智能手机或平板电脑，而智能手机或平板电脑又通过蜂窝数据网络或WiFi连接到互联网。

用户反馈组件：大多数语音命令产品都包含某种用户反馈，以确认设备处于活动状态，正确听到并理解用户的命令，以及它将执行所需的操作。这些设备可以是LED，例如亚马逊Echo和谷歌家庭智能扬声器顶部的闪烁灯。它们也可以是字母数字或图形显示，可以在许多遥控器和家庭自动化墙板上找到。

这些设备中的大多数也可能具有音频反馈，这可能会通过警报音或语音合成来确认用户的命令 - 这是处理器上的另一个负载。该装置必须使用放大器和某种扬声器来重现语音和/或警报音。某些产品可能使用具有波束成形算法的多个驱动程序，将响应引导回侦听器。

工业设计注意事项

产品的物理设计会对其语音识别系统的性能产生重大影响。如上文引用的 DSP 概念白皮书中所述，麦克风灵敏度的精确匹配对于可靠的波束成形器性能和准确的语音识别至关重要。

例如，如果阵列中的麦克风放置在距产品边缘的不同距离处，则它们将具有不同的频率响应，从而在不同频率下具有不同的灵敏度。麦克风安装的一致性也是一个问题。麦克风必须尽可能以完全相同的方式安装，以尽量减少由于安装不一致而可能产生的任何声学差异。话筒周围的任何密封件也必须在设计、材料和安装上保持一致。

除了谨慎设计语音命令产品，使其阵列中的每个麦克风都处于相似的声学环境中外，制造商还可以通过在工厂单独匹配每个单元的麦克风来确保语音命令产品的最佳性能。这个额外的QC步骤可确保由于微小的制造不一致而导致的麦克风性能差异不会影响语音识别的准确性。

审核编辑：郭婷

打开APP阅读更多精彩内容