如果能够拥有一部智能个人助理,它能听懂我们说的话并做出智能反应,然后处理日常任务,那感觉一定很棒。鉴于机器学习 (ML) 领域近期取得的进展,Arm相信这一天很快就会到来。机器学习已经远远越过移动市场的边界,延伸到医疗保健、零售、汽车和服务器等领域,从只能识别猫的图片发展到可以解决现实问题的水平。
现在主要的难点是如何将这种能力转移到边缘,解决如今普遍存在的隐私、安全、带宽和延迟问题,Arm 机器学习处理器朝这个方向迈出了一大步。
移动性能
机器学习处理器是专门为移动和相邻市场(例如智能相机、AR/VR、无人机、医疗和消费性电子产品等)推出的全新设计,性能为 4.6 TOP/s,能效为 3 TOPs/W。计算能力和内存的进一步优化大大提高了它们在不同网络中的性能。
其架构包括用于执行卷积层的固定功能引擎以及用于执行非卷积层和实现选定原语和算子的可编程层引擎。网络控制单元管理网络的整体执行和网络的遍历,DMA 负责将数据移入、移出主内存。板载内存可以对重量和特征图进行中央存储,减少流入外部存储器的流量,从而降低功耗。
有了固定功能和可编程引擎,机器学习处理器变得非常强大、高效和灵活,足以应对未来的挑战,不仅保留了原始性能,还具备多功能性,能够有效运行各种神经网络。
主要特点
大幅提升 CPU、GPU、DSP 和加速器效率。
采用开源软件,无锁定。
与现有软件框架紧密集成:TensorFlow、TensorFlow Lite、Caffe、Caffe 2。
经优化后适用于 Arm Cortex CPU 和 Arm Mali GPU。
Arm 机器学习处理器架构
为应对多个市场带来的挑战,满足不同的性能需求,从物联网的每秒几 GOP 到服务器的每秒数十 TOP,机器学习处理器采用了全新的可扩展架构。
对于物联网或嵌入式应用,该架构的性能可降低至约每秒 2 GOP,而对于 ADAS、5G 或服务器型应用,性能可提高至每秒 150 TOP。这些多重配置的效率可达到现有解决方案的数倍。
由于与现有的 Arm CPU、GPU 和其他 IP 兼容,且能提供完整的异构系统,该架构还可通过 TensorFlow、TensorFlow Lite、Caffe 和 Caffe 2 等常用的机器学习框架来获取。
随着机器学习的工作负载不断增大,计算需求将呈现出多种形式。Arm 已经开始采用拥有不同性能和效率等级的增强型 CPU 和 GPU,运行多种机器学习用例。我们推出 Arm 机器学习平台的目的在于扩大选择范围,提供异构环境,满足每种用例的选择和灵活性需求,开发出边缘智能系统。
全部0条评论
快来发表一下你的评论吧 !