FPGA与GPU计算存储加速对比-电子发烧友网

硬件制造商正在将加速方法应用于计算存储，这是专门设计用于包含内嵌计算元素的存储。这种方法已经被证明可以为分析和 AI 应用提供优异的性能。使用或者不使用机器学习辅助的分析以及验证，都可以借助计算存储器件进行加速。这些器件提供了一个关键的优势，使得成本高昂的计算被卸载到存储器件上，而不必在服务器 CPU 上完成。与标准的存储/CPU 方法相比，通过计算存储获得的优势包括：

1. 借助应用专用编程定制可编程硬件，获得更高性能

2. 将计算任务从服务器卸载到存储器件，释放 CPU 资源

3. 数据与计算共址，降低数据传输需求

这种新颖的方法前景光明。不过，您应根据具体用例评估这种方法，考量性能、成本、功耗和易用性。性价比和单位功耗性能在选择加速硬件评估时，占据主要比率。在本文中，我们将研讨单位功耗性能。

计算存储功耗比较

在这个场景中，我们将比较以 CSV 数据读取用例为主的三种工具：英伟达 GPUDirect 存储和RAPIDS存储，以及基于赛灵思技术的三星 SmartSSD 存储。CSV 读取在计算密集型流水线中起着重要的作用（参见图 1）。

在下文中，我们将性能定义成 CSV 的处理速率，或处理“带宽”。我们先快速回顾一下三种系统的运行方式。

英伟达 GPUDirect 存储

端到端满足分析和 AI 需求

将 GPU 用作计算单元，紧贴基于 NVMe 的存储器件布局（GPUDirect）

使用 CUDA 进行编程（RAPIDS）

英伟达用其 CSV 数据读取技术衡量相对于标准 SSD 的性能提升。结果如图 1 所示。使用 1 到 8 个加速器时，对应的吞吐量是 4 到 23GB/s。

三星 SmartSSD 驱动器

将赛灵思 FPGA 用作计算单元

与存储逻辑内嵌驻留在同一个内部 PCIe 互联上

通过编程在存储平台上开展运算

赛灵思数据分析解决方案合作伙伴 Bigstream 与三星合作，为 Apache Spark 设计加速器，包括用于 CSV 和 Parquet 处理的 IP。SmartSSD 的测试使用单机模式的 CSV 解析引擎，以便开展比较。结果如图 2 所示，使用 1 到 12 个加速器时，对应的吞吐量是 4 到 23GB/s，同时也给出英伟达的结果（使用 1 到 8 个加速器）。请注意，本讨论中的所有结果都按 x 轴上的加速器数量进行参数化。

这些结果令人振奋，但在选择您的解决方案时，请务必将功耗情况纳入考虑。

图 2：SmartSSD 驱动器的 CSV 解析性能结果

单位功耗性能比较

图 3 显示了将功耗考虑在内后的分析结果。它们代表单位功耗达到的性能水平，根据上述讨论中引用的相关材料，给出了以下假设：

Tesla V100 GPU：最大功耗 200 瓦

SmartSSD 驱动器 FPGA：最大功耗 30 瓦

图 3：CSV 解析的每瓦功耗带宽比较

在这个场景下，计算表明，在全部使用 8 个加速器的情况下，SmartSSD 的单位功耗性能比 GPUDirect Storage 高 25 倍。

最终思考

计算存储的优势在于能增强数据分析和 AI 应用的性能。然而，要让这种方法具备可实际部署的能力和实用性，就必须在评估时将功耗纳入考虑。

针对用于 CSV 数据解析的两种不同的计算存储方法，我们已经提出按功耗参数化的吞吐量性能曲线。结果显示，在使用相似数量的加速器进行比较时，SmartSSD 驱动器的单位功耗性能优于 GPUDirect存储方法。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

FPGA

FPGA

+关注

关注
1629

文章
21734

浏览量
603111
驱动器

驱动器

+关注

关注
52

文章
8232

浏览量
146282
gpu

gpu

+关注

关注
28

文章
4733

浏览量
128911

《CST Studio Suite 2024 GPU加速计算指南》

许可证模型的加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟：通过加速对话框启用，打开求解器对话框，点击“

发表于 12-16 14:25

NPU与GPU的性能对比

它们在不同应用场景下的表现。一、设计初衷与优化方向 NPU ：专为加速AI任务而设计，包括深度学习和推理。针对神经网络的计算模式进行了优化，能够高效地执行矩阵乘法、卷积等操作。拥有众多小型处理单元，配备专门的内存体系结构和数据流优化策略，对深度学习任务的处理特别高

发表于 11-14 15:19 •932次阅读

PyTorch GPU 加速训练模型方法

在深度学习领域，GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架，提供了丰富的工具和方法来利用GPU进行模型训练。 1. 了解GPU

发表于 11-05 17:43 •549次阅读

FPGA和ASIC在大模型推理加速中的应用

随着现在AI的快速发展，使用FPGA和ASIC进行推理加速的研究也越来越多，从目前的市场来说，有些公司已经有了专门做推理的ASIC，像Groq的LPU，专门针对大语言模型的推理做了优化，因此相比GPU这种通过

发表于 10-29 14:12 •417次阅读

GPU加速计算平台是什么

GPU加速计算平台，简而言之，是利用图形处理器（GPU）的强大并行计算能力来加速科学

发表于 10-25 09:23 •246次阅读

FPGA加速深度学习模型的案例

FPGA（现场可编程门阵列）加速深度学习模型是当前硬件加速领域的一个热门研究方向。以下是一些FPGA加速深度学习模型的案例：一、基于

发表于 10-25 09:22 •215次阅读

深度学习GPU加速效果如何

图形处理器（GPU）凭借其强大的并行计算能力，成为加速深度学习任务的理想选择。

发表于 10-17 10:07 •187次阅读

Achronix Speedster7t FPGA与GPU解决方案的比较

这篇针对大模型推理跟GPU对比分析，虽然以Llama2为例，也适用于最新的Llama3，模型的日新月易也更进一步说明硬件平台的可编程可扩展的重要性，FPGA是其中一个不错的选择。

发表于 09-18 16:19 •278次阅读

信号计算主板设计方案：735-基于3U VPX的AGX Xavier GPU计算主板

3U VPX导冷结构 , FPGA信号预处理 , GPU显卡 , PCIE视频处理 , GPU计算主板

发表于 07-18 11:31 •472次阅读

科普：GPU和FPGA，有何异同

来源：内容由半导体行业观察（ID：icbank）编译自techspot，谢谢。图形处理单元(GPU)和现场可编程门阵列(FPGA)是用于成像和其他繁重计算的三种主要处理器类型中的两种。中央处理器

发表于 06-15 08:27 •648次阅读

fpga和gpu的区别

FPGA（现场可编程门阵列）和GPU（图形处理器）在多个方面存在显著的区别。

发表于 03-27 14:23 •1207次阅读

FPGA在深度学习应用中或将取代GPU

现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题在过去的十年里，人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅

发表于 03-21 15:19

FPGA与GPU在神经网络构建中的对比研究

嵌入式工程师常见的情况是在硬件加速器（如FPGA）和主机CPU之间建立通信。这项工作因其繁琐和容易出错而臭名昭著。

发表于 02-22 16:30 •770次阅读

FPGA、ASIC、GPU谁是最合适的AI芯片？

CPU、GPU遵循的是冯·诺依曼体系结构，指令要经过存储、译码、执行等步骤，共享内存在使用时，要经历仲裁和缓存。而FPGA和ASIC并不是冯·诺依曼架构（是哈佛架构）。以FPGA

发表于 01-06 11:20 •1643次阅读

如何能够实现通用FPGA问题？

FPGA 是一种伪通用计算加速器，与 GPGPU（通用 GPU）类似，FPGA 可以很好地卸载特定类型的

发表于 12-29 10:29 •464次阅读