浪潮信息刘军：智算力系统创新加速生成式AI产业发展-电子发烧友网

北京2023年12月6日/美通社/ --11月29日，在北京举行的2023人工智能计算大会(AICC)上，浪潮信息高级副总裁刘军在主题演讲《智算力系统创新加速生成式AI产业发展》中分享了浪潮信息对于智算力系统创新和AI产业发展的思考。

以下为演讲实录整理

当前，生成式人工智能和大模型推动算力需求高速增长，如何通过智算力系统来更好地支撑AI创新与应用，已经成为智算产业的关键。应对生成式AI的发展和挑战，应该从算力系统、AI软件基础设施（AI Infra）、算法模型和产业生态4个方面来进行综合考量，从而加速智能产业的落地。

智算系统创新，解决生成式AI的算力挑战

在算力系统层面，生成式人工智能面临的挑战主要来自计算、数据和互联三个方面：

在计算层面，算力多元化趋势愈发明显，导致AI算力系统开发适配周期长、定制开发投入大、业务迁移时间久。此外，大模型训练对算力规模要求高，在单芯片算力有限的情况下，必须通过构建更大规模的集群来获得性能的扩展。

在数据层面，大模型从文本、图片等单模态向多模态、跨模态演进，训练的数据集达到TB级甚至PB级，且不同作业阶段对于数据存储的要求呈现多元化趋势。

在互联层面，传统RoCE网络因ECMP哈希不均导致40%以上的网络带宽被浪费，且尾时延高导致网络通信时间占比训练时间高达40%，极大降低了计算效率。同时，网络是集群共享资源，当集群规模达到一定量级后，网络性能波动会影响到所有计算资源的利用率，网络故障会影响数十个甚至更多加速卡的连通性。

面对三重挑战，浪潮信息总结了多年产品研发和用户服务经验，提出三部分解决之道。

在计算方面，首先要针对多元算力，以统一的系统架构和统一的接口规范来兼容各类AI加速卡，保障芯片算力的高效释放。浪潮信息早在2018年就着力开放多元的AI算力平台设计，最新发布的G7多元算力平台是业界唯一可以同时兼容SXM、OAI加速卡并实现8卡全互联、16卡全互联和混合立方互联系统拓扑的AI算力平台。为了保障更大规模的节点扩展性能，浪潮信息研制的开放加速计算架构支持PCIe、RocE和多种私有互联协议，节点内和跨节点卡间互联最大达到896 GB/s，跨节点通过免网卡RDMA实现高效扩展，集群性能加速比超过90%。

在数据存储方面，针对大模型的数据存储需求，浪潮信息在业界率先实现了一套集群系统同时支持文件、对象、大数据等多种非结构化协议的无损互访，同时支持闪存、磁盘、磁带、光盘四类存储介质，并支持数据全生命周期热、温、冷、冰四级存储管理，以一套存储架构支持一个数据中心，真正实现了数据融合、管理融合。

在网络互联方面，浪潮信息专为生成式AI计算场景发布旗舰51.2T高性能交换机，为企业级智算网络提供高吞吐、高可扩展、高可靠的智算网络产品及方案，解决了传统RoCE方案普遍存在的有效带宽低、尾时延高、故障收敛慢等问题，将大模型训练性能提升38%以上，性能接近InfiniBand，助力AI用户高效释放大模型生产力。

AI Infra全栈优化：释放多元算力、提升大模型算力效率

大模型算法开发的链条冗长，这意味着需要诸多的工程化工具支撑。因此，在算力系统外，AI软件基础设施（AI Infra）也亟需创新。

AIGC大模型开发是一项极其复杂的系统工程，即便解决了底层算力供给的问题，仍面临建不了和用不好的问题。"建不好"是指构建算力平台不仅需要服务器、存储、网络等硬件集成,还需要考虑不同硬件和软件之间的兼容性和版本选择，确保驱动和工具的适配性和稳定性；"用不好"则体现在算力平台效率低、稳定性不足、故障频发等现实困扰。

为加速模型生产和落地应用，浪潮信息在AI Infra层面开发了大模型智算软件栈OGAI (Open GenAI Infra)。在算力部署方面，OGAI开源了业界首个AI算力集群系统环境部署方案PODsys；在大规模训练的长时保障方面，从算力调度平台层实现了自动化断点续训；在多元算力接入方面以标准化、模块化接入方式稳定接入超过40+芯片；在数据治理方面构建了流程化、可自定义的数据清洗pipeline，有效缩短数据清洗时间、提升文本审核过滤准确率；在计算效率优化方面，通过对分布式并行算法的极致优化，将千亿参数模型的训练计算效率提升到54%；在多模型管理方面已经支持了超过10个业界主流的开源大模型和元脑生态大模型，用实践证明AI Infra全栈基础软件和工作流的创新是多元算力高效释放、提升大模型算力效率的关键。

基础大模型，生成式AI落地发展的核心支撑

当前，大模型技术正在推动生成式人工智能产业迅猛发展，而基础大模型的关键能力则是大模型在行业和应用落地时能力表现的核心支撑。但是，基础大模型在持续进化的过程中，依然面临着数据、算法、算力等关键因素的挑战与制约。

目前，受政策支持、算力水平提升、数据资源庞大以及科研实力增强等利好因素的推动，中国在基础大模型方面取得一定成绩，但仍需加大在基础性技术方面的原创性突破，夯实底层模型和算法能力。

浪潮信息从实践入手，加大模型结构创新、高质量数据准备、高效算力利用投入，并将这些技术运用在了"源2.0"大模型上，在编程、推理、逻辑等方面展示了先进的能力。

在算法方面，"源2.0"提出并采用了一种新型的注意力算法结构，有效提升了模型自然语言的表达能力与生成精度；在数据方面，"源2.0"在训练数据来源、数据增强和合成方法等方面进行了全面创新，最终增强模型数理逻辑能力；在算力方面，"源2.0"采用非均匀流水并行+优化器参数并行+数据并行+ Loss计算分块的策略，显著降低大模型对于芯片间互联带宽的要求，让模型训练在"条件有限"的算力规模下实现高效率工作。

源2.0作为千亿级基础大模型，在业界公开的评测上进行了代码生成、数学问题求解、事实问答方面的能力测试，展示了较为先进的能力表现。为了满足不同行业、不同场景的能力要求，浪潮信息全面开源"源2.0"全系列大模型，以最便捷的方式支持用户建设自己的智能化产品与能力，结合行业特点进行框架、模型、数据的垂直整合，提升基础大模型的准确性和可用性。

生态聚进，联合创新，加速AI应用落地

有了强大的基础大模型，还需要进一步深入应用场景。将大模型的能力赋能到产业环节之中，需要多厂商的深度配合。面对生态复杂离散、产业AI落地困难的挑战，浪潮信息提出元脑生态，聚合优质伙伴协同创新，通过"技术支持、方案联合、平台共享"实现不同厂商之间的优势互补。

目前，元脑生态以浪潮信息的AI算力平台、AI资源平台和AI算法平台为支撑，已经对接40多家芯片厂商，400+算法厂商，4000+系统集成商，通过多元的算力供给、全栈的AI Infra软件栈、丰富的大模型经验，实现"百模"与"千行"的对接，助力千行百业加速生成式AI 产业创新，高效释放生产力。

智算力是创新力，AIGC与数字经济、实体经济的深度融合，将会创造出更多颠覆性的社会价值、经济价值，而浪潮信息将秉持开放、共享、共建的发展理念，抓住AIGC市场机遇，共同推进人工智能落地。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30896

浏览量
269108
人工智能

人工智能

+关注

关注
1791

文章
47279

浏览量
238511
数字经济

数字经济

+关注

关注
2

文章
1055

浏览量
18287
算力

算力

+关注

关注
1

文章
977

浏览量
14822
AIGC

AIGC

+关注

关注
1

文章
362

浏览量
1544

浪潮信息与智源研究院达成战略合作协议

近日，浪潮信息与智源研究院达成战略合作协议，双方将紧密协作共建大模型多元算力开源创新生态，提升大模型创新研发的算力效率，降低大模型应用开发的

发表于 12-26 10:25 •121次阅读

浪潮信息AI存储性能测试的领先之道

MLCommons，一个致力于推动全球 AI系统发展的顶级工程联盟，汇聚了包括谷歌、斯坦福大学在内的众多顶尖企业和研究机构。作为该联盟的创始成员之一，浪潮信息自2020年起便积极参与其

发表于 10-29 16:30 •248次阅读

<b class='flag-5'>浪潮信息</b><b class='flag-5'>AI</b>存储性能测试的领先之道

浪潮信息：元脑企智EPAI助力金融大模型快速落地

将浪潮信息在AI算力底座建设、大模型开发领域积累的成熟、成功经验工具化，助力金融机构又快、又稳地部署生成式

发表于 09-20 16:07 •355次阅读

<b class='flag-5'>浪潮信息</b>：元脑企智EPAI助力金融大模型快速落地

开启全新AI时代智能嵌入式系统快速发展——“第六届国产嵌入式操作系统技术与产业发展william hill官网 ”圆满结束

嵌入式系统是电子信息产业的基础，是智能系统的核心。大模型催生AI走入千家万户、唤醒端侧AI的需求

发表于 08-30 17:24

浪潮信息赵帅：开放计算创新应对Scaling Law挑战

Scaling Law带来的AI基础设施Scale up和Scale out的挑战，数据中心需要以开放创新加速算力系统、管理和基础设施的全向Scale进程，推动

发表于 08-15 16:02 •286次阅读

<b class='flag-5'>浪潮信息</b>赵帅：开放计算<b class='flag-5'>创新</b> 应对Scaling Law挑战

浪潮信息携手天府云数据科技推出了42kW智算风冷算力仓

在当今数字化转型的浪潮中，算力作为推动数字经济高质量发展的核心引擎，正以前所未有的速度进化。近日，浪潮信息与四川省天府云数据科技有限责任公司携手，在国内率先推出了42kW智

发表于 07-15 16:18 •665次阅读

浪潮信息推出AIGC存储解决方案

近日，在科技创新的浪潮中，浪潮信息成功举办了“元脑中国行”全国巡展的杭州站活动，此次盛会不仅汇聚了业界的精英与目光，更见证了浪潮信息在AIGC（人工智能

发表于 07-03 11:16 •722次阅读

浪潮信息发布AS13000G7-N系列分布式全闪存储

浪潮信息近日推出了专为大型AI模型优化的AS13000G7-N系列分布式全闪存储。该系列基于浪潮信息自研的分布式文件

发表于 05-14 10:03 •567次阅读

为大模型专门优化浪潮信息发布分布式全闪存储AS13000G7-N系列

北京2024年5月10日 /美通社/ -- 近日，浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息自研分布式文件

发表于 05-10 16:37 •430次阅读

为大模型专门优化 <b class='flag-5'>浪潮信息</b>发布分布<b class='flag-5'>式</b>全闪存储AS13000G7-N系列

浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列

近日，浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息自研分布式文件系统，搭载新一代数据

发表于 05-08 09:38 •566次阅读

<b class='flag-5'>浪潮信息</b>发布为大模型专门优化的分布<b class='flag-5'>式</b>全闪存储AS13000G7-N系列

浪潮信息发布企业大模型开发平台"元脑企智"EPAI，加速AI创新落地

of AI），为企业AI大模型落地应用提供高效、易用、安全的端到端开发平台，提供数据准备、模型训练、知识检索、应用框架等系列工具，支持调度多元算力和多模算法，帮助企业高效开发部署生成

发表于 04-18 21:21 •468次阅读

<b class='flag-5'>浪潮信息</b>发布企业大模型开发平台"元脑企智"EPAI，<b class='flag-5'>加速</b><b class='flag-5'>AI</b><b class='flag-5'>创新</b>落地

浪潮信息IPF24: 发展人工智能+，创新需要激发活力、拓展路径、加速落地

路径、加速创新落地，推动人工智能成为百行千业的生产力。发展人工智能+ 要围绕活力、路径、落地开展创新移动应用发达、数据资源丰富、应用场景多元、人工智能

发表于 04-18 21:19 •331次阅读

<b class='flag-5'>浪潮信息</b>IPF24: <b class='flag-5'>发展</b>人工智能+，<b class='flag-5'>创新</b>需要激发活力、拓展路径、<b class='flag-5'>加速</b>落地

浪潮信息发布企业大模型开发平台“元脑企智”EPAI

4月17日，在2024浪潮信息生态伙伴大会（IPF2024）上，浪潮信息重磅发布企业大模型开发平台“元脑企智”EPAI（Enterprise Platform of AI），为企业AI

发表于 04-18 10:12 •391次阅读

<b class='flag-5'>浪潮信息</b>发布企业大模型开发平台“元脑企智”EPAI

浪潮信息生态伙伴大会IPF2024：发展人工智能+，加速创新落地

4月17日，浪潮信息在北京举办的生态伙伴大会IPF2024上提出，发展人工智能+，要坚持“以应用为导向，以系统为核心”，着重激发创新活力、拓展创新

发表于 04-18 09:12 •628次阅读

潞晨科技Colossal-AI与浪潮信息AIStation完成兼容性互认证

近日，潞晨科技的Colossal-AI大模型开发工具和浪潮信息的AIStation智能业务创新生产平台成功完成了兼容性互认证。这一合作意味着用户可以在AIStation平台上便捷地部署与调度Colossal-

发表于 03-06 10:18 •811次阅读

搜索历史

浪潮信息刘军：智算力系统创新加速生成式AI产业发展

评论