超级计算机和FPGA-电子发烧友网

超级计算机和FPGA

1、超算?

大数据、基因科学、金融工程、人工智能、新材料设计、制药和医疗工程、气象灾害预测等领域所涉及的计算处理，家用个人计算机级别的性能是远远不够的。超级计算机(以下简称超算)就是为了解决这种超大规模的问题而开发的。超算并没有一个明确的定义，通常所说的超算大致是性能在家用计算机的1000倍以上，或者理论性能在50 TFLOPST以上的系统。

FPGA作为可以提高超算能效比的通用器件受到了广泛关注。从性能、灵活性和功耗效率方面，CPU、FPGA和ASIC里面FPGA走的是中间路线。FPGA的功耗效率是高于CPU的，灵活性高于ASIC；从功耗效率、性能保障性和算法适用性来看，FPGA应该是碾压GPU的。GPU适用的算法非常有限，拿到一个算法，能否达到最终的性能是有风险的；早期GPU的实现算法非常容易，但是自从Xilinx在高层次综合HLS方面深度耕耘后，FPGA的编程容易度也降低了很多。其优势是不但可以作为运算加速器，还可以作为连接器件让超算中众多的运算处理器和运算加速器更紧密地结合。此外，IoT技术正在推动硬件基础设施的升级，今后运算和数据的集中化和分散化进程都会加速发展。在这个进程当中，为了运用超算技术，也要求数据中心具备更加崭新和有效的方法和技术口。除了大规模计算以外，从强化升级社会IT基础建设的角度上看，超算技术也越来越必要。因此，PLD/FPGA必将会在超算中得到更广泛的运用。

超算中的FPGA应用案例

1、首先是筑波大学20世纪70年代开始研发用于科学计算的并行计算机PACS/PAX，而HA-PACS是该系列的第8代。PACS/PAX系列自开发之初就以实现了CPU和内存间的高速互联架构而闻名。HA-PACS是PACS/PAX系列中首次采用GPU作为运算加速器的超算。用GPU提高超算性能，还必须要实现能够充分发挥GPU高运算性能的并行系统架构。然而，HA-PACS开发时的GPU存在些问题，导致难以实现高效的并行系统架构。例如在多个GPU间共享数据时,传输前后需要在宿主CPU的主存中进行数据复制。还有将数据传输从PCle转为其他通信方式时，很难削减通信延迟。为了改善这些问题，HA-PACS系统基于PEARL ( PCI Express Adaptive and Reliable Link)概念提出了TCA ( Tightly Coupled Accelerato-rs) 技术，并开始开发实现TCA的PEACH2板卡。

那么由CPU+GPU+FPGA组成的异构系统的性能又如何呢? HA-PACS/TCA是一个只有64个节点的小规模系统，理论性能为364.3TFLOPS,实测性能为277.1 TFLOPS, 2013年11月位列TOP500的第134名。另外，由于该系统达到了3.52 GFLOPS/W的高能效比，在2013年11月和2014年6月的Green500榜中位列第3名。HA-PACS/TCA的基础部分采用GPU和CPU组合来实现高性能、低功耗的运算，再加上基于FPGA的PEACH2的使用，进一步提高了跨学科合作应用中的运算性能。

PEACH2提供了可以让多个GPU直接互联通信的框架。具体来说，PEACH2扩展了PCle通信连接，并实现了GPU间的直接通信，从而达到了提高数据传输效率的目的”。技术上，PEACH2实现了一种路由，可以将PCIe协议中Root Complex和多个End Point间的数据包在多个节点间传输。

原本的数据传输路径GPUmem→CPUmem→(InfiniBand/MPI)→CPUmem→GPU mem, 缩短为了GPU mem→(PCIe/PEACH2)→GPU mem,即GPU间的直连传输。此外，通信协议的统一也实现了比InfiniBand更低的延迟。

下面一起看一下PEACH2的通信性能。PEACH2具备4个PCleGen2 x8 (8通路)端口。这里的端口数量上的限制并非源于PEACH2本身，而是因为所采用的FPGA器件的物理限制，这点可以通过FPGA制造技术的提升而改善。PEACH2中GPU对GPU的DMA的Ping-pong延迟为2.0us ( 100万分之2秒)，CPU对CPU的延迟为1.8 us,可以说通信延迟十分小了。PEACH2能达到这种性能要归功于使用了PLD/FPGA,正因如此它才能将传输开销降低到2.0 us的程度。这个性能和MVAPICH2 v2.0-GDR ( 带GDR : 4.5us ;不带GDR : 19 us) 相比已经足够了。FPGA的采用实现了轻量化协议、多RootComplex互联、Block-Stride通信硬件，从而获得了高应用性能。此外，在Ping-pong带宽方面，PEACH2 的CPU对CPU的DMA传输性能约为3.5 GB/s,达到了理论性能的95%;GPU对GPU的DMA性能约为2.8GB/s。然而，当负载大小超过512 KB时MVAPICH2 v2.0-GDR的性能更高，可以在实际应用时根据需求进行选择。综上，无论研究领域或商业系统，今后都会继续探索能够发挥PLD/FPGA优势的高效方法，从而提高系统的整体性能。

2、其次是Cray Research，该公司的超级计算机：XD1就有用上FPGA，XD1用的是Xilinx(赛灵思)公司的VIRTEX系列FPGA。XD1机内有所谓的FPGA应用程序加速模块(FPGA ApplicaTIon AcceleraTIon Module)，模块等于是机内的一个小型辅助运算系统，VIRTEX是模块内的主控芯片，等于是一个协同处理器(Co-Processor)，只不过这个协同处理器与ASIC型式的协同处理器不同，FPGA具有可程序化的功效，因此VIRTEX是一颗可程序化的协同处理器。运算模块内除了有FPGA的协同处理器外，处理器也必须搭配内存才能行使运算，所以FPGA会再连接4颗QDR II SRAM(极高速性的内存)，然后模块一方面用HyperTransport与XD1的主处理器相连，另一方面也连往XD1的特有高速I/O界面：RapidArray。

接着，由于高效运算多是执行大量重复性的运算，例如气象预测、风洞测试等，所以可以将执行的应用程序转化成FPGA内的组态(ConfiguraTIon)程序，以硬件线路方式来执行运算，如此将比过往用纯软件方式执行快上数倍至数十倍的效能，甚至在特定的应用运算上能达一百倍以上的效能。

更仔细而言，其实是将整个应用程序中重复性最高、且最经常用的函数库进行转化，并以FPGA的硬件线路执行，如此就能获得最大的加速效果。

Cray如此，与Cray同为高效运算市场的另一家业者：SGI(视算科技)也实行相同的作法，SGI提出所谓的RASC(Reconfigurable ApplicaTIon Specific Computing，可组态化应用程序性运算，）RASC也是以模块方式让原有的超级计算机能获得加速效果。

SGI的作法与Cray有部分相同也有部分不同，Cray是将模块设置在原有超级计算机的机内，而SGI则是运用既有超级计算机机箱的上部来加搭加速模块，不过就功效机制而言两者异曲同工，此外两者都使用Xilinx的VIRTEX系列FPGA，但是内存与I/O部分两家也实行不同的设计，Cray是使用QDR II SRAM，SGI则是可实行QDR SRAM，或者也可用DDR2 SDRAM，前者容量少(80MB)但速度快，后者容量大(20GB)而速度慢，提供两种选择的原因是可依据不同的应用程序特性来选用。

另外，高效运算业者通常有独门的机内通讯传输技术，RapidArray即是Cray的独家技术，而SGI自身也有独家的传输技术，即NUMAlink 4(已是第四代技术)，所以SGI的RASC不是使用RapidArray，而是使用NUMAlink 4。

其实Cray系统内所用的FPGA模块是与DRC Computer公司技术合作而成，因此DRC Computer自身也有提供相近方案，DRC的RPU(Reconfigurable Processor Units)同样也是用FPGA来加速，一样是用Xilinx VIRTEX FPGA，但与主系统间的连接接口改成AMD Opteron处理器的接座接口，如此一般使用AMD Opteron处理器的x86服务器也可以加装RPU来提升高效运算的效能。

原文标题：FPGA应用案例——超级计算机

文章出处：【微信公众号：FPGA技术联盟】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

FPGA

FPGA

+关注

关注
1629

文章
21734

浏览量
603111
计算机

计算机

+关注

关注
19

文章
7490

浏览量
87894
人工智能

人工智能

+关注

关注
1791

文章
47229

浏览量
238340

原文标题：FPGA应用案例——超级计算机

文章出处：【微信号：gh_873435264fd4，微信公众号：FPGA技术联盟】欢迎添加关注！文章转载请注明出处。

云端超级计算机使用教程

云端超级计算机是一种基于云计算的高性能计算服务，它将大量计算资源和存储资源集中在一起，通过网络向用户提供按需的

发表于 12-17 10:19 •92次阅读

量子计算机与普通计算机工作原理的区别

超越世界上最强大的超级计算机，完成以前不可想象的任务！这意味着量子计算机可能会彻底改变我们的生活。在本文中，我们将先了解普通计算机的工作原理，再深入探讨量子

发表于 11-24 11:00 •289次阅读

量子<b class='flag-5'>计算机</b>与普通<b class='flag-5'>计算机</b>工作原理的区别

丹麦推出首台AI超级计算机Gefion

近日，丹麦正式推出了该国首台人工智能超级计算机，命名为Gefion，以纪念丹麦神话中的女神。此次揭幕仪式由英伟达首席执行官黄仁勋与丹麦国王共同出席，彰显了该项目的重要性和影响力。 Gefion AI

发表于 10-29 15:13 •389次阅读

NVIDIA助力丹麦发布首台AI超级计算机

这台丹麦最大的超级计算机由该国政府与丹麦 AI 创新中心共同建设，是一台 NVIDIA DGX SuperPOD 超级计算机。

发表于 10-27 09:42 •434次阅读

云端超级计算机怎么用

云端超级计算机是一种基于云计算的高性能计算服务，它将大量计算资源和存储资源集中在一起，通过网络向用户提供按需的

发表于 10-18 10:14 •151次阅读

借助NVIDIA超级计算机加速量子计算发展

科学期刊《自然》（Nature）本月早些时候发表了一项研究，通过使用 NVIDIA 驱动的超级计算机，验证了量子计算的商业化途径。

发表于 07-25 09:55 •514次阅读

工业计算机与普通计算机的区别

在信息化和自动化日益发展的今天，计算机已经成为了我们日常生活和工作中不可或缺的工具。然而，在计算机领域中，工业计算机和普通计算机虽然都具备基本的计算

发表于 06-06 16:45 •1376次阅读

富士通使用富岳超级计算机训练LLM

尽管富士通的富岳超级计算机不再是超级计算机500强名单中最快的机器，但它仍然是一个非常强大的系统，A64FX处理器的多功能性允许将其用于各种工作负载，例如AI。

发表于 05-13 14:18 •546次阅读

英伟达帮助日本建造混合量子超级计算机

英伟达正在帮助日本建造混合量子超级计算机，这是日本国家量子计算计划的一部分。

发表于 04-23 14:54 •536次阅读

微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机

微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机这一消息属实。

发表于 04-11 10:14 •551次阅读

从原子到超级计算机：NVIDIA与合作伙伴扩展量子计算应用

量子计算领域的最新进展包括分子研究、部署巨型超级计算机，以及通过一项新的学术计划培养量子从业人员。

发表于 03-22 10:05 •423次阅读

诺和诺德基金会将联手英伟达打造丹麦AI超级计算机

诺和诺德基金会携手英伟达，共同宣布在丹麦打造一台领先的AI超级计算机。这台超级计算机将致力于推动医疗保健、生命科学以及绿色转型等领域的科研与创新，为丹麦乃至全球的诺和诺德基金会携手英伟

发表于 03-21 13:43 •596次阅读

特斯拉将斥资5亿美元建造Dojo超级计算机

据外媒报道，特斯拉将在其位于纽约布法罗的超级工厂投资超过5亿美元，建造一台名为Dojo的超级计算机。这一举措旨在推进特斯拉的自动驾驶汽车计划。

发表于 01-29 11:26 •696次阅读

特斯拉在布法罗超级工厂投资5亿美元建造Dojo超级计算机

霍楚尔表示，此次项目投资为5亿美元，并将同时在纽约州立大学建设另一台独立的AI超级计算机。“我很荣幸地告诉大家，特斯拉将在布法罗投资5亿美元，用于其新一代超级计算机的建设”，她说道。

发表于 01-29 10:58 •408次阅读

西悉尼大学研发DeepSouth超级计算机，效能超越人脑

DeepSouth 超级计算机相较于其它超级电脑的独特之处在于，其设计以仿效人脑工作模式的神经形态工程为基础，需能量更少、效率更高，且体积远小于同类产品。

发表于 01-03 10:01 •742次阅读

搜索历史

超级计算机和FPGA

评论

云端超级计算机使用教程

量子计算机与普通计算机工作原理的区别

丹麦推出首台AI超级计算机Gefion

NVIDIA助力丹麦发布首台AI超级计算机

云端超级计算机怎么用

借助NVIDIA超级计算机加速量子计算发展

工业计算机与普通计算机的区别

富士通使用富岳超级计算机训练LLM

英伟达帮助日本建造混合量子超级计算机

微软和OpenAI计划投资1000亿美元建造“星际之门”AI超级计算机

从原子到超级计算机：NVIDIA与合作伙伴扩展量子计算应用

诺和诺德基金会将联手英伟达打造丹麦AI超级计算机

特斯拉将斥资5亿美元建造Dojo超级计算机

特斯拉在布法罗超级工厂投资5亿美元建造Dojo超级计算机

西悉尼大学研发DeepSouth超级计算机，效能超越人脑