《开放加速规范AI服务器设计指南》发布，应对生成式AI算力挑战-电子发烧友网

北京2023年8月11日 /美通社/ -- 8月10日，在2023年开放计算社区中国峰会(OCP China Day 2023)上，《开放加速规范AI服务器设计指南》（以下简称《指南》）发布。《指南》面向生成式AI应用场景，进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法，将助力社区成员高效开发符合开放加速规范的AI加速卡，并大幅缩短与AI服务器的适配周期，为用户提供最佳匹配应用场景的AI算力产品方案，把握生成式AI爆发带来的算力产业巨大机遇。

当前，生成式AI技术飞速发展，引领了新一轮AI创新浪潮。AI大模型是生成式AI的关键底座，对生产效率提升、传统产业转型升级具有重大的价值潜力，而大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。随着生成式AI加速落地，业界对配置高算力AI芯片的AI服务器需求也不断高涨。在此背景下，全球已有上百家公司投入新型AI加速芯片的开发，AI计算芯片多元化趋势凸显。由于缺乏统一的业界规范，不同厂商的AI加速芯片存在显著差异，导致不同芯片需要定制化的系统硬件平台承载，带来更高的开发成本和更长的开发周期。

OCP是全球基础硬件技术领域覆盖面最广、最有影响力的开源组织。2019年OCP成立OAI（Open Accelerator Infrastructure）小组，对更适合超大规模深度学习训练的AI加速卡形态进行了定义，以解决多元AI加速卡形态和接口不统一的问题。2019年底，OCP正式发布了OAI-UBB(Universal Baseboard)1.0设计规范，并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台，无需硬件修改即可支持不同厂商的OAM产品。近年来，以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器，实现了开放加速AI服务器的产业化实践。

基于在开放加速计算领域的产品研发和工程实践经验，《指南》进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法，提出四大设计原则、全栈设计方法，包括硬件设计参考、管理接口规范和性能测试标准，旨在帮助社区成员更快更好地开发AI加速卡并适配开放加速AI服务器，应对生成式AI的算力挑战。

《指南》指出，开放加速规范AI服务器设计应遵循四大设计原则，即应用导向、多元开放、绿色高效、统筹设计。在此基础上，应采用多维协同设计、全面系统测试和性能测评调优的设计方法，以提高适配部署效率、系统稳定性、系统可用性。

多维协同设计是指系统厂商和芯片厂商在规划初期要做好全方位、多维度的协同，最大化减少定制开发内容。大模型计算系统通常是一体化高集成度算力集群，包含计算、存储、网络设备，软件、框架、模型组件，机柜、制冷、供电、液冷基础设施等。只有通过多维协同，才能实现全局最优的性能、能效或TCO指标，提高系统适配和集群部署效率。《指南》给出了从节点到集群的软硬全栈参考设计。

全面系统测试是指异构加速计算节点通常故障率高，需要更加全面、严苛的测试，才能最大程度降低系统生产、部署、运行过程中的故障风险，提高系统稳定性，减少断点对训练持续性的影响。《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面梳理。

性能测评调优是指需要对大模型加速计算系统开展多层次的性能评测和软硬件深度调优。《指南》给出了基础性能、互连性能、模型性能测试的要点和指标，并指出了针对大模型训练和推理性能调优的要点，以确保开放加速规范AI服务器能够有效完成当前主流大模型的创新应用支撑。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
455

文章
50816

浏览量
423656
服务器

服务器

+关注

关注
12

文章
9160

浏览量
85423
AI

AI

+关注

关注
87

文章
30896

浏览量
269100
算力

算力

+关注

关注
1

文章
977

浏览量
14822
生成式AI

生成式AI

+关注

关注
0

文章
504

浏览量
475

企业AI算力租赁是什么

企业AI算力租赁是指企业通过互联网向专业的算力提供商租用所需的计算资源，以满足其AI应用的需求。

发表于 11-14 09:30 •596次阅读

算力再跃升！亿万克发布新一代AI服务器——G882N7+！

的特质，但算力告急。想要打破数智时代的算力瓶颈，异构智算成为有效方案。近期，亿万克面向激增的AI

发表于 10-25 17:02 •214次阅读

最强服务器CPU来了！AI性能直接翻倍

以及AI服务器及AI数据中心场景的CPU产品。它不仅能支持广泛的第三方GPU及AI加速器，与它们组合形成强大的异构计算平台，还能在其中补足G

发表于 09-29 11:00 •727次阅读

什么是AI服务器？AI服务器的优势是什么？

AI服务器是一种专门为人工智能应用设计的服务器，它采用异构形式的硬件架构，通常搭载GPU、FPGA、ASIC等加速芯片，利用CPU与加速芯片

发表于 09-21 11:43 •863次阅读

环球仪器助力应对服务器组装挑战

随着智能化、云服务、AI等产业的发展，算力的作用日渐突出。服务器作为提供算

发表于 09-14 11:34 •352次阅读

浪潮信息赵帅：开放计算创新应对Scaling Law挑战

Scaling Law带来的AI基础设施Scale up和Scale out的挑战，数据中心需要以开放创新加速算力系统、管理和基础设施的全向Scale进程，推动

发表于 08-15 16:02 •286次阅读

安谋科技异构算力组合，破局生成式AI算力挑战

，“此芯P1”不仅异构集成了Armv9 CPU核心与Arm Immortalis GPU，还搭载了安谋科技（中国）有限公司（以下简称“安谋科技”）“周易”NPU等自研业务产品。凭借高能效的异构算力资源、系统级的安全保障以及强大的技术生态支持，“此芯P1”将更好地满足

发表于 08-13 09:12 •570次阅读

AI高算力服务器散热，需要用到哪些导热界面材料？

在数字经济、AI大模型等发展的带动下，全球服务器的市场需求急剧提升，利用其强大的计算能力，能够处理复杂的算法和海量数据。与此同时，生成式人工智能的大

发表于 05-30 10:44 •676次阅读

智能算力存在缺口，AI服务器市场规模持续提升

商的资本支出将大幅增加。全球前四大云服务商资本支出调升，预计将从2023年的1400亿美元提升至2024年的超过2000亿美元。 AI 服务器市场规模持续增长近些年，人工智能技术在各个领域广泛应用，包括智能制造、智慧医

发表于 05-22 00:14 •3093次阅读

让生成式AI触手可及 ——AirBox 正式开放预定

让生成式AI触手可及 ——AirBox 正式开放预定

发表于 04-26 08:34 •907次阅读

256Tops算力！CSA1-N8S1684X算力服务器

（基于BM1684X的高算力服务器）高算力AI处理器

发表于 03-23 08:02 •1639次阅读

使用NVIDIA Triton推理服务器来加速AI预测

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

发表于 02-29 14:04 •585次阅读

Suma AI服务器：全栈国产，入局！

供应者稳定可靠，产品生态兼容，可减少升级成本，同时更懂本土“体质”。在这一背景下，中科可控Suma AI服务器脱颖而出，其搭载国产计算平台，兼容主流软件生态，算力强劲，最高支持8卡

发表于 02-28 15:18 •1247次阅读

国产服务器主阵地有哪些？

AI 算力、低功耗等对服务器算力芯片提出新的要求，英伟达 GH200 有望

发表于 01-29 11:29 •1265次阅读

AI算力应用中的光模块产品

以ChatGPT为代表的AI大模型应用普及将推动算力需求快速增长，服务器产业链是其中重要的受益环节之一，AI计算的普及将推动

发表于 01-02 15:32 •551次阅读