基于可定制64位内核的RISC-V设计

描述

西班牙的SemiDynamics基于其完全可定制的64位内核开发了用于AI芯片设计的RISC-V Tensor Unit。

RISC-V Tensor 单元集成到缓存子系统中,SemiDynamics 使其成为第一个用于数据中心高性能 AI 芯片设计的完全一致的此类单元。

LLaMa-2 或 ChatGPT 等大型语言机器学习模型 (LLM) 使用数十亿个参数,需要大量计算能力。LLM 层中的大部分计算可以作为张量单元硬件中的矩阵乘法有效实现。

张量单元构建在 Semidynamics RVV1.0 矢量处理单元之上,并使用现有的矢量寄存器来存储矩阵。这使得张量单元可以用于需要矩阵乘法功能的层,例如全连接和卷积,并将向量单元用于激活函数层(ReLU、Sigmoid、Softmax 等),这是一个很大的改进- 单独的 NPU 可能会与激活层作斗争。

寄存器

张量单元使用矢量单元功能以及 Atrevido-423 Gazzillion CPU 从内存中获取所需的数据。64 位 CPU 内核的性能意味着不需要直接内存访问 (DMA) 来管理数据流。由于张量单元使用向量寄存器来存储其数据,并且不包含新的、架构上可见的状态,因此它可以与任何支持 RISC-V 向量的 Linux 一起使用,而无需进行任何更改。

SemiDynamics 创始人兼首席执行官 Roger Espasa 表示:“这个新的 Tensor Unit 旨在与我们的其他创新技术完全集成,以提供具有出色 AI 性能的解决方案。”

“首先,核心是我们的 64 位完全可定制的 RISC-V 内核。然后是我们的矢量单元,它通过我们的 Gazzillion 技术不断馈送数据,因此不会丢失任何数据。然后是张量单元,它执行人工智能所需的矩阵乘法。该解决方案的每个阶段都经过精心设计,可与其他阶段完全集成,以实现最佳的人工智能性能和非常简单的编程。与仅在标量核心上运行 AI 软件相比,性能提高了 128 倍。”

Tensor Unit 将于下个月在美国举行的 RISC-V 峰会上进行讨论,作为人工智能芯片设计重点的一部分。

审核编辑:黄飞

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分