机器视觉已经在世界上迅速找到了自己的位置。从树上看到和采摘橙子。注视检测针对危险不明的驾驶员。在工厂车间移动的工业机器人依靠它进行安全障碍物检测。
物联网端点位于嵌入式视觉的前沿。而且,与其他前沿领域一样,也存在挑战,其中最重要的是电源效率。是否可以在不超出节点功率容量的情况下在极端边缘进行推理?
这个问题值得考虑。这是因为在边缘进行推理可以避免不加选择地将数据(其中只有一些是可操作的)传输到云进行分析。这降低了存储成本。此外,访问云会损害延迟并抑制实时功能。传输数据是易受攻击的数据,因此端点处理更可取。这对于降低支付给网络运营商的成本也是有利的。
一种全新的 SoC 架构方法
然而,对于所有这些好处,一个主要的绊脚石仍然存在。使用传统微控制器的器件的功耗限制阻碍了极端边缘的神经网络推理。
传统的微控制器(MCU)性能无法达到周期密集型操作。方法唤醒解决方案可能依赖于机器视觉进行对象分类,而机器视觉又需要卷积神经网络 (CNN) 执行矩阵乘法运算,从而转换为数百万乘法累加 (MAC) 计算(图 1)。
图 1.到目前为止,微控制器无法承受大容量乘法累加(MAC)的效率问题一直是绊脚石。
MCU存在各种各样的神经网络。但是,这些未能作为生产就绪的解决方案流行起来,因为所需的性能无法超越电源障碍。
克服功耗-性能难题是为什么对处理器角色和 SoC 架构采用全新方法的解决方案是有意义的。采用这种新方法需要了解物联网端点有三个工作负载需要处理才能成功推理。一个是程序性的,一个是用于数字信号处理的,一个是执行大量的MAC操作。满足每个工作负载独特需求的一种方法是在 SoC 中将用于信号处理和机器学习的双 MAC 16 位 DSP 和用于程序负载的 Arm Cortex-M CPU 组合在一起。
这种混合多核架构充分利用了 DSP 双存储体、零环路开销和复杂地址生成。有了它,可以处理工作负载的任意组合:例如,网络堆栈,RTOS,数字滤波器,时频转换,RNN,CNN以及传统的类似人工智能的搜索,决策树和线性回归。图 2 显示了当 DSP 架构优势发挥作用时,神经网络计算性能如何提高 2 倍甚至 3 倍。
图 2.矩阵乘法 (NxN) 基准测试。
仅靠架构更改是不够的
无论是对于嵌入式视觉系统还是依赖于显著提高神经网络效率的任何其他系统,实施混合多核架构都很重要。但是,当目标是将功耗降至mW范围时,必须做更多的工作。认识到这一需求,埃塔计算获得了专利的连续电压和频率调节(CVFS)。
CVFS 克服了动态电压频率缩放或 DVFS 遇到的问题。DVFS确实利用了降低功率的选项,即降低电压。缺点是,当执行此选项时,最大频率会降低。这个问题将DVFS的有效性固定在一个狭窄的范围内——一个由严格限制数量的预定义离散电压电平定义,并束缚在几百mV的电压范围内。
相比之下,为了在最有效的电压下实现一致的 SoC 操作,CVFS 使用自定时逻辑。通过自定时逻辑,每个器件都可以在连续的范围内自动调整电压和频率。CVFS比DVFS更有效,也比亚阈值设计更容易实施,CVFS在另一个重要方面也与这些不同。这个关键的区别在于,上面提到的混合多核架构使CVFS已经做的好处成倍增加。
生产级极致边缘
极端边缘的端点(例如用于人员检测的端点)具有特定需求。虽然已发布的神经网络可供任何人用于这些物联网端点,但它们并未针对这些需求进行优先级排序。使用领先的威廉希尔官方网站 优化这些网络可以解决这个问题。
除了使用先进的设计方法外,我们在Eta计算中采用的神经网络优化方法还集中在我们的生产级神经传感器处理器ECM3532上(图3)。它融合了混合多核架构和 CVFS 技术的所有优势。
图 3.Eta Compute ECM3532 神经传感器处理器采用混合多核架构,其中 Arm Cortex-M3 处理器、恩智浦 CoolFlux DSP、512KB 闪存、352KB SRAM 和支持外设集成在 SoC 中,可实现在 mW 范围内的极端边缘进行推理。
获得的知识
图4所示的测试结果表明,为了将深度学习引入嵌入式视觉系统,电力成本不必上升到不可接受的水平。虽然没有一根魔杖可以满足耗电的神经网络的需求,但将MCU能效和DSP优势与网络优化相结合的方法可以帮助应用程序避免仅依靠云计算而导致的安全性,延迟和低效率问题。
图 4.在对人员检测模型的测试中,包括摄像头在内的平均系统功率达到5.6mW。对于此测试,速率为每秒 1.3 次推理,但进一步优化应将平均系统功耗降低到 4mW,同时将速率提高到每秒 2 次推理。
审核编辑:郭婷
全部0条评论
快来发表一下你的评论吧 !