0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

《开放加速规范AI服务器设计指南》发布,应对生成式AI算力挑战

全球TMT 来源:全球TMT 作者:全球TMT 2023-08-14 09:49 次阅读

北京2023年8月11日 /美通社/ -- 8月10日,在2023年开放计算社区中国峰会(OCP China Day 2023)上,《开放加速规范AI服务器设计指南》(以下简称《指南》)发布。《指南》面向生成式AI应用场景,进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,将助力社区成员高效开发符合开放加速规范的AI加速卡,并大幅缩短与AI服务器的适配周期,为用户提供最佳匹配应用场景的AI算力产品方案,把握生成式AI爆发带来的算力产业巨大机遇。

当前,生成式AI技术飞速发展,引领了新一轮AI创新浪潮。AI大模型是生成式AI的关键底座,对生产效率提升、传统产业转型升级具有重大的价值潜力,而大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。随着生成式AI加速落地,业界对配置高算力AI芯片的AI服务器需求也不断高涨。在此背景下,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势凸显。由于缺乏统一的业界规范,不同厂商的AI加速芯片存在显著差异,导致不同芯片需要定制化的系统硬件平台承载,带来更高的开发成本和更长的开发周期。

OCP是全球基础硬件技术领域覆盖面最广、最有影响力的开源组织。2019年OCP成立OAI(Open Accelerator Infrastructure)小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,以解决多元AI加速卡形态和接口不统一的问题。2019年底,OCP正式发布了OAI-UBB(Universal Baseboard)1.0设计规范,并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。近年来,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器,实现了开放加速AI服务器的产业化实践。

基于在开放加速计算领域的产品研发和工程实践经验,《指南》进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,提出四大设计原则、全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,旨在帮助社区成员更快更好地开发AI加速卡并适配开放加速AI服务器,应对生成式AI的算力挑战。

《指南》指出,开放加速规范AI服务器设计应遵循四大设计原则,即应用导向、多元开放、绿色高效、统筹设计。在此基础上,应采用多维协同设计、全面系统测试和性能测评调优的设计方法,以提高适配部署效率、系统稳定性、系统可用性。

多维协同设计是指系统厂商和芯片厂商在规划初期要做好全方位、多维度的协同,最大化减少定制开发内容。大模型计算系统通常是一体化高集成度算力集群,包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等。只有通过多维协同,才能实现全局最优的性能、能效或TCO指标,提高系统适配和集群部署效率。《指南》给出了从节点到集群的软硬全栈参考设计。

全面系统测试是指异构加速计算节点通常故障率高,需要更加全面、严苛的测试,才能最大程度降低系统生产、部署、运行过程中的故障风险,提高系统稳定性,减少断点对训练持续性的影响。《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面梳理。

性能测评调优是指需要对大模型加速计算系统开展多层次的性能评测和软硬件深度调优。《指南》给出了基础性能、互连性能、模型性能测试的要点和指标,并指出了针对大模型训练和推理性能调优的要点,以确保开放加速规范AI服务器能够有效完成当前主流大模型的创新应用支撑。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    455

    文章

    50816

    浏览量

    423656
  • 服务器
    +关注

    关注

    12

    文章

    9160

    浏览量

    85423
  • AI
    AI
    +关注

    关注

    87

    文章

    30896

    浏览量

    269100
  • 算力
    +关注

    关注

    1

    文章

    977

    浏览量

    14822
  • 生成式AI
    +关注

    关注

    0

    文章

    504

    浏览量

    475
收藏 人收藏

    评论

    相关推荐

    企业AI租赁是什么

    企业AI租赁是指企业通过互联网向专业的提供商租用所需的计算资源,以满足其AI应用的需求。
    的头像 发表于 11-14 09:30 596次阅读

    再跃升!亿万克发布新一代AI服务器——G882N7+!

    的特质,但告急。想要打破数智时代的瓶颈,异构智成为有效方案。 近期,亿万克面向激增的AI
    的头像 发表于 10-25 17:02 214次阅读

    最强服务器CPU来了!AI性能直接翻倍

    以及AI服务器AI数据中心场景的CPU产品。它不仅能支持广泛的第三方GPU及AI加速器,与它们组合形成强大的异构计算平台,还能在其中补足G
    的头像 发表于 09-29 11:00 727次阅读
    最强<b class='flag-5'>服务器</b>CPU来了!<b class='flag-5'>AI</b>性能直接翻倍

    什么是AI服务器AI服务器的优势是什么?

    AI服务器是一种专门为人工智能应用设计的服务器,它采用异构形式的硬件架构,通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片
    的头像 发表于 09-21 11:43 863次阅读

    环球仪器助力应对服务器组装挑战

    随着智能化、云服务AI等产业的发展,的作用日渐突出。服务器作为提供
    的头像 发表于 09-14 11:34 352次阅读

    浪潮信息赵帅:开放计算创新 应对Scaling Law挑战

    Scaling Law带来的AI基础设施Scale up和Scale out的挑战,数据中心需要以开放创新加速算力系统、管理和基础设施的全向Scale进程,推动
    的头像 发表于 08-15 16:02 286次阅读
    浪潮信息赵帅:<b class='flag-5'>开放</b>计算创新 <b class='flag-5'>应对</b>Scaling Law<b class='flag-5'>挑战</b>

    安谋科技异构组合,破局生成AI挑战

    ,“此芯P1”不仅异构集成了Armv9 CPU核心与Arm Immortalis GPU,还搭载了安谋科技(中国)有限公司(以下简称“安谋科技”)“周易”NPU等自研业务产品。凭借高能效的异构资源、系统级的安全保障以及强大的技术生态支持,“此芯P1”将更好地满足
    的头像 发表于 08-13 09:12 570次阅读

    AI服务器散热,需要用到哪些导热界面材料?

    在数字经济、AI大模型等发展的带动下,全球服务器的市场需求急剧提升,利用其强大的计算能力,能够处理复杂的算法和海量数据。与此同时,生成人工智能的大
    的头像 发表于 05-30 10:44 676次阅读
    <b class='flag-5'>AI</b>高<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>服务器</b>散热,需要用到哪些导热界面材料?

    智能存在缺口,AI服务器市场规模持续提升

    商的资本支出将大幅增加。全球前四大云服务商资本支出调升,预计将从2023年的1400亿美元提升至2024年的超过2000亿美元。   AI 服务器市场规模持续增长   近些年,人工智能技术在各个领域广泛应用,包括智能制造、智慧医
    的头像 发表于 05-22 00:14 3093次阅读

    生成AI触手可及 ——AirBox 正式开放预定

    生成AI触手可及 ——AirBox 正式开放预定
    的头像 发表于 04-26 08:34 907次阅读
    让<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>触手可及 ——AirBox 正式<b class='flag-5'>开放</b>预定

    256Tops!CSA1-N8S1684X服务器

    (基于BM1684X的高服务器)高AI处理
    的头像 发表于 03-23 08:02 1639次阅读
    256Tops<b class='flag-5'>算</b><b class='flag-5'>力</b>!CSA1-N8S1684X<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>服务器</b>

    使用NVIDIA Triton推理服务器加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器加速 AI 预测。
    的头像 发表于 02-29 14:04 585次阅读

    Suma AI服务器:全栈国产,入局!

    供应者稳定可靠,产品生态兼容,可减少升级成本,同时更懂本土“体质”。 在这一背景下,中科可控Suma AI服务器脱颖而出,其搭载国产计算平台,兼容主流软件生态,强劲,最高支持8卡
    的头像 发表于 02-28 15:18 1247次阅读
    Suma <b class='flag-5'>AI</b><b class='flag-5'>服务器</b>:全栈国产,入局!

    国产服务器主阵地有哪些?

    AI 、低功耗等对服务器芯片提出新的要求,英伟达 GH200 有望
    的头像 发表于 01-29 11:29 1265次阅读
    国产<b class='flag-5'>服务器</b>主阵地有哪些?

    AI应用中的光模块产品

    以ChatGPT为代表的AI大模型应用普及将推动需求快速增长,服务器产业链是其中重要的受益环节之一,AI计算的普及将推动
    的头像 发表于 01-02 15:32 551次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>应用中的光模块产品