实现异构多核十倍嵌入式内存性能的三种方法

描述

  从理论上讲,异构多核设备可以配备针对给定用例可以抛出的任何类型的操作而优化的计算块。用于视频处理的 GPU、用于对象识别的神经网络处理器、运行操作系统的 CPU 等。与同一级别的同类处理器相比,不同的适合用途的内核为 SoC 提供了更大的灵活性,因此在更广泛的工作负载范围内具有更高的性能和更低的功耗。

  但是,当您开始考虑基于边缘的AI,计算机视觉等应用程序的要求时,事实是I / O和内存变得与原始处理性能一样严格,如果不是更多的话。

  “内存速度只会上升得这么快,对吧?”,英伟达副总裁兼嵌入式与边缘计算总经理Deepu Talla说。“它没有呈指数级增长。由于大小的原因,位宽大致相同:它是16位,32位,64位,128位,等等。大多数嵌入式处理器通常具有32位甚至16位接口,这也是由于成本和尺寸的原因。

  “记忆的速度每一代只增长2倍,这通常每三年发生一次,”他继续说道。“但是,SoC中的计算要求可能增加了10倍或20倍。

  您如何协调计算性能的不成比例的提高与内存技术相对较小的进步?特别是随着处理器演变成独特的逻辑集合,这些逻辑集合都需要自己访问内存等资源。

  根据塔拉的说法,你把它给他们。以下是嵌入式存储器架构为满足下一代异构多核处理器的需求而不断发展的三种方式。

  #1.特定于内核的静态存储器

  “如果你看看很多这样的嵌入式处理器,它们过去一直都有SRAM,”Talla说。“现在,对于每个特定的单元,我们有本地SRAM,它从DRAM获取数据,将其存储在本地并进行处理,然后发回最终输出。

  特定于内核的SRAM具有一些优势,首先是无需将临时数据写回片外DRAM所带来的内存性能提升。

  这种架构还具有降低功耗的额外好处,因为极低电压的SRAM模块位于SoC中相应的逻辑IP附近或附近。

  “如果你去DRAM,那可能是一个数量级的功率,所以你实际上通过使用这些技术来节省功率,”Talla解释说。

  #2.增加系统内存

  如今,嵌入式处理器具有多达 4 MB 至 8 MB 的系统内存。此系统内存不专用于任何一个特定内核,并且可以在 CPU、GPU 和加速器等元素之间共享。

  与专用SRAM类似,更多共享系统内存的主要好处是更少的DRAM访问。例如,传统的视频编码序列如下所示:

  数字内存 -》 视频编码器 -》 数字内存 -》 附加计算 -》 DRAM

  增加的系统缓存可实现以下功能:

  DRAM -》 视频编码器 -》 系统内存 -》 附加计算 -》 DRAM

  如前所述,不同之处在于单独的内核不必不断从片外DRAM获取数据,因为大型系统内存消除了对中间步骤的需求。

  #3.增加的缓存大小

  最后,随着较新的处理技术使更高容量的内存更实惠,缓存大小将不可避免地增加。在异构 SoC 上为 CPU、GPU、DSP 和其他核心架构提供更大的缓存也将减少 DRAM 流量。

  将增加的缓存大小与前两项改进相结合,开始产生一些重大收益。

  Talla指出:“更多的SRAM,通用的系统内存,以及更多的高容量缓存,可以让你在未来三到五年内将性能提高10倍到100倍,即使内存带宽可能只增加了一倍或四倍。

  审核编辑:郭婷

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分