0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何对推理加速器进行基准测试

星星科技指导员 来源:嵌入式计算设计 作者:Geoff Tate 2022-06-06 16:02 次阅读

在过去的十年中,神经网络已经从有趣的研究发展到广泛应用于语言翻译、关键词识别和对象识别。

长期以来,神经网络仅限于具有运行神经网络所需的计算资源的数据中心,最初是在微处理器上,然后越来越多地在 GPU 上,因为 GPU 具有运行神经网络所需的更多 MAC。

英伟达最近宣布,其推理产品的销售额首次超过了培训产品的销售额。

随着推理移动到电力和成本预算受限的边缘(数据中心之外的任何地方),客户正在寻找能够以他们能够承受的价格和电力提供所需吞吐量的推理加速器。

本博客讨论如何对推理加速器进行基准测试,以找到最适合您的神经网络的加速器;以及客户在学习曲线上通常如何发展他们对基准测试的思考。神经网络推理令人兴奋但也很复杂,因此最初非常令人困惑。当客户解决问题时,灯会逐步亮起。

首先让我们回顾一下推理加速器的常见元素以及它们运行的​​神经网络。

所有推理加速器的共同元素

所有推理加速器都有以下共同点:

MAC(很多)

片上 SRAM

片外DRAM

控制逻辑

所有单元之间的片上互连

推理加速器之间的元素和组织的数量差异很大;组织 MAC 的方法;MAC 与 SRAM/DRAM 的比率;以及它们之间的数据如何流动对于确定加速器的实际加速情况至关重要。

所有神经网络模型的共同元素

所有神经网络都包含以下元素:

数值选择:32 位浮点(模型训练时使用的),

16 位浮点、16 位整数或 8 位整数

输入数据:图像、音频、文本等

几十到几百层,每层处理前一层的激活,并将输出激活传递到下一层

模型每一层的权重

TOPS - 推理基准测试的第一阶段

刚接触神经网络性能估计的客户几乎总是先问“你的芯片/模块/板有多少 TOPS?” 因为他们假设 TOPS 和吞吐量相关 - 但事实并非如此。

TOPS 是每秒万亿次操作的首字母缩写词,可用 MAC 的数量(以千计)乘以 MAC 运行的频率(以千兆赫兹为单位)乘以 2(一个 MAC = 两个操作)。因此,简单来说,1GHz 的 1K MAC = 2 TOPS。

更多 MAC 意味着更多 TOPS。

重要的是内存组织和互连是否可以保持 MAC 的“馈送”,从而使它们得到高度利用,从而在模型上产生高吞吐量。

ResNet-50 - 推理基准测试的第二阶段

一旦客户意识到重要的指标是吞吐量,他们通常会继续询问,“ResNet-50 的芯片/模块/板的推理/秒吞吐量是多少?”

MLPerf 最近发布了众多制造商提交的 ResNet-50 基准。

ResNet-50 是一种流行的 CNN(卷积神经网络),用于对图像进行分类,多年来一直广泛用于基准测试。

问题是,没有客户真正使用 ResNet-50。

客户询问 ResNet-50 是因为他们假设他们模型上的芯片/模块/板的吞吐量将与 ResNet-50 吞吐量相关。

这个假设的两个主要缺陷是:

ResNet-50 使用 224x224 图像,但大多数客户希望处理 16 倍以上的百万像素图像。ResNet-50 对于 224x224 图像可能在芯片/模块/板上运行良好,但可能不适用于百万像素图像,因为较大的图像比较小的图像对内存子系统的压力更大。对于 2 兆像素的图像,中间激活可以是 64 兆字节,而对于 224x224 图像,中间激活最多为几兆字节。

批量大小:制造商希望引用他们可以为基准测试的最大数字,因此他们的 ResNet-50 基准数字通常是他们可以运行的最大批量大小。但对于边缘应用程序,几乎所有应用程序都需要批量大小 = 1 以实现最小延迟。考虑一辆车:如果你正在寻找像行人这样的物体,你需要尽快意识到它们。因此,大批量可能会最大化吞吐量,但在边缘需要的是最小延迟,即批量大小为 1。

如果 ResNet-50 在批量大小 = 1 的百万像素图像上运行,则它对于真实世界模型来说并不是一个糟糕的基准。但它不是通常使用的一个好的基准。

真实世界模型和图像 - 推理基准测试的第三阶段

客户在学习曲线中达到的下一个阶段是他们应该找到一个具有与他们相似特征的开源神经网络模型:相似类型的模型(CNN 或 RNN 或 LSTM),相似大小的图像(或其他输入类型),相似的层数和相似的操作。

例如,对 CNN 感兴趣的客户他们最常问的问题是:“对于 2 兆像素(或 1 或 4),YOLOv2(或 YOLOv3)的每秒帧数是多少?”

真正有趣的是,尽管大多数客户都想了解 YOLOv2/v3,但几乎没有制造商为其提供基准(一个例外是 Nvidia Xavier,它将 YOLOv3 的基准为 608x608 或 1/3 兆像素)。

YOLOv3 是一个压力很大的基准测试,它很好地测试了推理加速器的鲁棒性:6200 万个权重;100+层;和超过 3000 亿个 MAC 来处理单个 2 兆像素图像。对该模型进行基准测试显示了加速器是否可以同时获得高 MAC 利用率、管理存储读取/写入而不会使 MAC 停滞,以及互连是否可以在内存和 MAC 之间有效移动数据而不会停滞计算。

当然,不仅仅是吞吐量很重要,实现吞吐量的成本和功率也很重要。

2000 美元和 75 瓦的 Nvidia Tesla T4 可能具有您想要的吞吐量,但可能远远超出您的预算。

客户考虑的另一件事是他们计划运行的模型的吞吐量效率、吞吐量/美元和吞吐量/瓦特

第 4 阶段:对吞吐量、功率和成本的实际模型进行基准测试

客户对基准推理学习曲线的最后阶段是开发自己的模型,使用通常来自 Nvidia 或数据中心的训练硬件/软件,然后在可能的目标推理加速器上对该模型进行基准测试。

通过这种方式,客户可以真正判断哪个加速器将为他们提供最佳的吞吐量效率。

终点似乎很明显,但事后诸葛亮。神经网络推理非常复杂,所有客户都要经过学习曲线才能得出正确的结论。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4771

    浏览量

    100742
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4734

    浏览量

    128914
  • 数据中心
    +关注

    关注

    16

    文章

    4769

    浏览量

    72107
收藏 人收藏

    评论

    相关推荐

    从版本控制到全流程支持:揭秘Helix Core如何成为您的创意加速器

    加速器
    龙智DevSecOps
    发布于 :2024年11月26日 13:42:47

    FPGA和ASIC在大模型推理加速中的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像Groq的LPU,专门针对大语言模型的
    的头像 发表于 10-29 14:12 418次阅读
    FPGA和ASIC在大模型<b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的应用

    AMD助力HyperAccel开发全新AI推理服务

    ( LLM )的推理,此类模型通常具有数十亿个参数,例如 OpenAI 的 ChatGPT 和 Meta 的 Llama 3 等 Llama LLM。其 AI 芯片名为时延处理单元( LPU ),是专门用于 LLM 端到端推理的硬件加速
    的头像 发表于 09-18 09:37 360次阅读
    AMD助力HyperAccel开发全新AI<b class='flag-5'>推理</b>服务<b class='flag-5'>器</b>

    利用边沿速率加速器和自动感应电平转换

    电子发烧友网站提供《利用边沿速率加速器和自动感应电平转换.pdf》资料免费下载
    发表于 09-02 11:58 1次下载
    利用边沿速率<b class='flag-5'>加速器</b>和自动感应电平转换<b class='flag-5'>器</b>

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键技术的详细探讨,内容将涵盖模型压缩、
    的头像 发表于 07-24 11:38 871次阅读

    什么是神经网络加速器?它有哪些特点?

    )和图形处理(GPU)虽然可以处理神经网络计算,但在能效比和计算密度上往往难以满足特定应用场景的需求。因此,神经网络加速器应运而生,它通过优化硬件架构和算法实现,针对神经网络计算的特点进行定制化设计,以达到更高的计算效率和更低
    的头像 发表于 07-11 10:40 482次阅读

    “白地板”方案,智算中心加速器

    明德源能白地板方案,智算中心加速器
    的头像 发表于 06-21 11:54 785次阅读

    Arm推动生成式AI落地边缘!全新Ethos-U85 AI加速器支持Transformer 架构,性能提升四倍

    电子发烧友网报道(文/黄晶晶)在嵌入式领域,边缘与端侧AI推理需求不断增长,Arm既有Helium 技术使 CPU 能够执行更多计算密集型的 AI 推理算法,也有Ethos 系列 AI 加速器,以
    的头像 发表于 04-16 09:10 4605次阅读
    Arm推动生成式AI落地边缘!全新Ethos-U85 AI<b class='flag-5'>加速器</b>支持Transformer 架构,性能提升四倍

    UL Procyon AI 发布图像生成基准测试,基于Stable Diffusion

    UL去年发布的首个Windows版Procyon AI推理基准测试,以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精
    的头像 发表于 03-25 16:16 880次阅读

    Hitek Systems开发基于PCIe的高性能加速器以满足行业需求

    Hitek Systems 使用开放式 FPGA 堆栈 (OFS) 和 Agilex 7 FPGA,以开发基于最新 PCIe 的高性能加速器 (HiPrAcc),旨在满足网络、计算和高容量存储应用的需求。
    的头像 发表于 03-22 14:02 628次阅读
    Hitek Systems开发基于PCIe的高性能<b class='flag-5'>加速器</b>以满足行业需求

    使用NVIDIA Triton推理服务加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务加速 AI 预测。
    的头像 发表于 02-29 14:04 579次阅读

    家居智能化,推动AI加速器的发展

    电子发烧友网报道(文/黄山明)AI加速芯片,也称为人工智能加速器(AI Accelerator),是一种专为执行机器学习和深度学习任务而设计的ASIC或定制化处理。在智能家居中,AI加速
    的头像 发表于 02-23 00:18 4584次阅读

    回旋加速器原理 回旋加速器的影响因素

    回旋加速器(Cyclotron)是一种用于加速带电粒子的可再生粒子加速器。它的工作原理基于带电粒子在恒定强磁场中的运动。本文将详细介绍回旋加速器的原理以及影响因素。 一、回旋
    的头像 发表于 01-30 10:02 3949次阅读

    回旋加速器中粒子的最大动能与什么有关

    回旋加速器是一种用于加速粒子的装置,通过不断变化的磁场和电场来不断加速粒子,使其达到极高的速度和能量。粒子的最大动能取决于几个关键因素。 首先,回旋加速器的设计和性能对粒子的最大动能有
    的头像 发表于 01-18 10:42 3172次阅读

    Wakefield激光加速器 - 能量里程碑

    由The University of Texas at Austin物理学副教授比约恩·“曼努埃尔”·赫格利希(Bjorn “Manuel” Hegelich)领导的国际研究小组最近展示了一种长度不到20米的小型粒子加速器,该加速器产生的电子束能量为100亿电子伏特(10
    的头像 发表于 01-14 09:38 1048次阅读
    Wakefield激光<b class='flag-5'>加速器</b> - 能量里程碑