政府及国有企事业单位为国产 CPU 主阵地,PC 芯片已成百亿级市场。党政和重要行业的企业级市场为国产服务器主阵地,2022年服务器芯片市场规模约 130亿美元。根据 IDC 数据,政府需求占服务器总需求比重约 9.1%,重要行业包括金融、电信、公共事业、能源、交通、教育、医疗等需求约占比 38.4%,2022 年合计服务器芯片的销售额约为 130 亿美元。
从芯片制造工艺来看,一方面,CPU 制程进入后摩尔定律时期升级速度趋缓,国产 CPU 性能与国际主流水平逐步缩小;另一方面,先进封装技术成为竞争新赛道。国产 CPU 已经可以通过先进封装技术实现性能提升与应用场景拓展。龙芯中科最新的 3D5000 通过 Chiplet 把两个 3C5000 硅片封装在一起,是一款 32 核 CPU 产品,已经可以面向服务器市场使用,可满足通用计算、大型数据中心、云计算中心的计算需求。
AI 算力、低功耗等对服务器算力芯片提出新的要求,英伟达 GH200 有望加速全球 AI 服务器算力芯片市场变革,中国芯片企业在面临挑战的同时,也有望迎来发展机遇
1、海光信息:国产服务器算力芯片龙头
海光主要从事高端处理器、加速器等计算芯片产品和系统的研究、开发,目标成为中国最重要的计算机芯片设计企业,为中国信息产业的强盛提供核心计算引擎。
海光处理器源于 AMD 的技术授权,采用 X86 架构,支持国内外主流操作系统、数据库、虚拟化平台或云计算平台,能够有效兼容目前存在的数百万款基于 X86 指令集的系统软件和应用软件,具有优异的生态系统优势。目前海光处理器性能参数上与国际同类型主流处理器产品相当,提供从 4 到 32 物理核心,8 到 64 线程,最多 128 路 PCle 扩展,8 通道内存支持,具有国际先进水平的竞争力。
海光拥有 CPU 和 DCU 两类高端处理器产品,覆盖服务器、工作站等计算、存储设备中对高端处理器的功能需求。
CPU 稳步迭代,满足互联网、金融、电信、交通、能源等多行业需求。海光 CPU 系列产品兼容x86 指令集以及国际上主流操作系统和应用软件,性能优异,软硬件生态丰富,安全可靠,可按应用场景划分为 7000,5000,3000 三大产品系列。目前,海光 CPU 系列产品中海光二号为主力销售产品,海光三号已经实现小批量销售,海光四号、海光五号处于研发阶段。
DPU 步入商业化,持续投入研发。海光 DCU 系列产品以 GPGPU 架构为基础,兼容通用的“类CUDA”环境以及国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等应用领域。目前海光 DCU 系列产品中,海光 DCU 系列产品深算一号为公司 GPGPU 主要在售产品,深算二号、深算三号处于研发阶段。
2、寒武纪:领跑中国 AI 芯片市场
寒武纪主要产品包括终端智能处理器 IP、云端智能芯片及加速卡、边缘智能芯片及加速卡以及与上述产品配套的基础系统软件平台。以约每年 1-2 件产品的速度推出了用于终端场景的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列智能处理器;基于思元 220 芯片的边缘智能加速卡及智能模组;基于思元 100、思元 270、思元 290 芯片和思元 370 的云端智能加速卡系列产品。
新一代训练芯片寒武纪 590 训练能力突出。据寒武纪在 2022 年 9 月介绍,思元 590 采用全新的MLUarch05 架构,训练性能较在售产品有了显著提升。思元 590 可提供更大的内存容量和更高的内存带宽,其 PCIe 接口也较上代实现了升级。
借助车云协同与高效开发优势,开拓车载芯片领域。子公司寒武纪行歌借助既有优势布局,满足智能汽车市场不同的算力需求。1)通过车云协同获得的数据迭代 AI 模型,优化用户体验。自动驾驶芯片可以与寒武纪既有的云端训练产品协作,通过车云协同,将车端的数据快速回传,实现AI 模型的快速迭代升级,优化自动驾驶客户体验;2)提供可以在云端开发自动驾驶模型的软件开发平台。
3、龙芯中科:从指令集到架构全自主的 CPU
“龙芯”系列是我国最早研制的通用处理器系列之一,自主研发 LoongArch 指令集,芯片性能追赶国际主流产品。公司自研 IP 和架构分为两步,首先基于开源 MIPS 指令集定义自主指令集系统,然后基于自主指令集推出龙芯架构。
第一步:摒弃直接获取 IP 核授权或指令系统授权,自主定义上百条指令,形成 MIPS 兼容的LoongISA 指令系统。2018 年至 2020 年,公司销售主要产品基于 MIPS 指令系统,但公司区别于国内其他 CPU 设计企业多数采用的 IP 核授权或指令系统授权模式,一直致力于自主研发指令系统,自研发初期即选择基于开放度较高的指令系统并结合自研的模式,在授权体系相对开放的MIPS 指令系统基础上扩展了数百条自定义指令,形成了 MIPS 兼容指令系统 LoongISA,并在多款 CPU 芯片中得到应用。
第二步:推出了自主指令系统 LoongArch(龙芯架构),具备更高运行效率。公司在经过长达十余年的潜心研发之后,于 2020 年推出了自主指令系统龙芯架构 LoongArch。
LoongArch 架构能兼容 X86、ARM,且通过了知识产权评估。该架构可充分融合 X86、ARM 等国际主流指令特性,可实现跨指令平台应用兼容。并通过国内权威第三方机构中国电子信息产业发展研究院的知识产权评估,认定 LoongArch 指令系统与 ALPHA、ARM、MIPS、POWER、RISC-V、X86 为不同的指令系统设计。目前,龙架构已得到国际开源软件界广泛认可与支持,正成为与 X86/ARM 并列的顶层开源生态系统。
基于 LoongArch 架构的芯片产品已上市销售,实现服务器等领域的应用。基于 LoongArch 架构的芯片产品龙芯 3A5000 已于 2020年底流片,并于 2021 年 5 月开始销售,面向服务器市场的 32 核产品 3D5000 已于 2023 年 4 月 8 日发布,集成了 32 个高性能 LA464 处理器核,频率 2.0GHz,支持动态频率及电压调节;片内集成 64MB片上 L3 共享缓存以及 8 个 72 位 DDR 3200 内存控制器,支持 ECC 校验;搭载 5 个 HT3.0 高速接口,支持自研桥片及双路、四路 CPU 扩展。
4、华为:布局五大系列芯片,鲲鹏、昇腾满足服务器和AI需求
华为到目前共有五大系列芯片,逐步实现了全场景布局。五大系列芯片包括手机消费级设备领域的麒麟芯片、服务器领域的鲲鹏芯片、人工智能领域的昇腾芯片、5G 手机基带领域的巴龙芯片以及家用路由器领域的凌霄芯片。
鲲鹏芯片在非 x86 指令集产品中有明显优势。“鲲鹏芯片族”是集合“算、存、传、管、智”功能为一体的处理器。其中,2019 年发布的鲲鹏 920 是华为鲲鹏获得 ARMv8 指令集永久授权后,自主研发设计的最具代表性的产品。鲲鹏 920 处理器是业界第一颗采用 7nm 工艺的数据中心级的 ARM 架构处理器,集成最多 64*自研核,支持 64 核、48 核、32 核等多种型号。通过优化分支预测算法、提升运算单元数量、改进内存子系统架构等一系列微架构设计,大幅提高处理器性能。
典型主频下,SPECint Benchmark 评分超过 930,超出业界标杆 25%,同时,能效比优于业界标杆 30%,在非 x86 指令集产品中算力有明显优势。
在鲲鹏生态建设上,华为与全球生态厂家合作,重点投入了操作系统、编译器、工具链、算法优化库等的开发和维护,同时针对数据中心大数据、分布式存储、云原生应用等场景,开发基于鲲鹏处理器的解决方案产品和参考设计。由于拥有 ARMv8 指令集永久授权,鲲鹏计算产业能兼容全球 ARM 生态,二者共享生态资源,互相促进、共同发展。
鲲鹏处理器在行业数字化转型过程中发挥重要作用。数字化和行业的结合正在向纵深发展。制造业从大规模传统制造走向大规模智能制造;服务业(如金融、电信、医疗)从简单服务走向综合服务,公共事业从被动服务走向主动服务(如政府、交通)。
5、飞腾:从 CPU 研发到全栈式方案
飞腾公司致力于飞腾系列国产高性能、低功耗通用计算微处理器的设计研发和产业化推广。从仿英特尔架构指令集转向应用 ARM 指令集。致力于飞腾系列国产高性能、低功耗通用计算微处理器的设计研发和产业化推广。
前两代飞腾芯片均停留在学术层面,均采用仿英特尔架构及指令集的方法对芯片基础技术进行学习消化。自第三代产品 FT-1000 以来,飞腾芯片转而采用SPARC 指令架构下的 OpenSPARC 指令集。而随着 Sun 公司被 Oracle 收购,SPARC 架构的支持逐步减弱,飞腾芯片逐步转向应用 ARM 指令集,并推出在原有 FT-1500 芯片上改进得来的探索性产品 FT-1500A。2015 年 8 月飞腾已设计出世界上第一款基于 ARM 架构的 64 核 CPU。飞腾CPU 同样像华为鲲鹏一样,基于 ARMV8 架构永久授权,其产出成果中,飞腾 2000+/64 核产品性能已经与英特尔主流 E5 部分产品性能相当。
飞腾公司产品谱系全、性能高、低功耗、生态完善、自主化程度高。目前产品主要包括高性能服务器 CPU(飞腾腾云 S 系列)、高效能桌面 CPU(飞腾腾锐 D 系列)、高端嵌入式 CPU(飞腾腾珑 E 系列)和飞腾套片四大系列,为从端到云的各型设备提供核心算力支撑。其中,飞腾腾云S 系列、飞腾腾锐 D 系列、飞腾腾珑 E 系列均采用飞腾自主研发的处理器核心。
2019 年,飞腾推出的国际 ARM 体系首款 64 核通用 CPU—FT-2000+/64 处理器,填补了国产高端通用 CPU 领域的空白。2022 年,飞腾推出了新一代嵌入式 CPU芯片飞腾腾珑 E2000,采取了“柔性架构”大小核设计,可充分满足云终端、行业平板、电力、轨道交通、服务器 BMC、网络设备等行业领域和场景的多样化需求。成立至今,飞腾从两年研发一代产品,到一年研发 2-3 款新产品,创新速度不断升级,行业赋能效应也愈发凸显。目前飞腾已面向不同的应用领域自主研发十余款量产芯片。
飞腾从信息系统整体规划与建设角度出发,为集成商和最终用户梳理飞腾生态图谱,并面向各行业需求提供一套从端到云的全栈解决方案。目前飞腾与国内伙伴单位展开合作,形成了基于飞腾平台的云计算全栈、边缘计算全栈、终端全栈、嵌入式全栈生态,为集成商和客户提供了更丰富的选择空间。
6、兆芯:行业拓展成果显著
兆芯现如今掌握了自主通用处理器及其系统平台芯片研发设计的核心技术,全面覆盖其微架构与实现技术等关键领域,构建了较为完整的知识产权体系。2023 年 4 月 12 日起从上海兆芯集成威廉希尔官方网站 有限公司变更为上海兆芯集成威廉希尔官方网站 股份有限公司。
产品包括“开先”PC/嵌入式处理器和“开胜”服务器处理器系列。兆芯基于 X86 的 CPU 产品性能优异,生态成熟,具有杰出的软硬件兼容性。根据中国软件评测中心的测试结果,2019 年兆芯推出的开先 KX-6000 系列处理器/开胜 KH-30000 系列处理器单芯片性能已经达到了 7 代 i5 的同等水平。同时开先 KX-6000/开胜 KH-30000 系列处理器均通过了 Windows 硬件认证,对Windows7、Windows10、中科方德、中标麒麟、普华等国内外主流操作系统进行了适配,从多方面保证了产品的稳定性、可靠性和兼容性。
2022 年,开胜KH-40000 系列服务器处理器、开先KX-6000GPC/嵌入式处理器成功发布。与上一代产品相比,开先 KX-6000G 系列处理器能效比提升多达 60%,GPU 性能达到上一代产品的 4 倍,可支持双路 4K 视频解码,芯片空闲功耗降低 50%,能够进一步支撑无风扇 BoxPC、工业平板、电力通讯管理机、OPS 模块等嵌入式计算平台。
在政务、金融、电信、能源等行业领域,兆芯平台 PC 及物联网计算平台的产业化应用也取得了持续性突破,正在以优越、可靠的品质和使用体验,为用户业务的有序开展与数字化创新提供保障和支撑。
7、申威:以自研指令集保障关键领域
申威以“自主创新”“安全可控”为研发首要,成立至今相继推出了一系列基于申威处理器的可控、可信并具有自主知识产权的产品。
依靠 Alpha 指令集起家,自研 SW64 指令集构建基础生态。指令集架构上,申威的 CPU 属于Alpha 指令集阵营,技术来源于美国 DEC 公司的 Alpha21164。Alpha 架构被经转手、收购之后,如今指令集和微结构都已经不再更新,技术专利大多过期或临近过期。而申威是目前 Alpha 阵营中仅存的硕果,拥有自主扩展指令和发展路线的自主权。申威在 Alpha21164 基础上开发出自己的扩展指令、神威睿智编译器以及基于 Linux的神威睿思操作系统。而后申威推出了 100%自研的令,所有功能实现均独立完成。在第二代申威处理器研发过程中,已经不再参考、兼容ALPHA相关指令系统,根据应用需要,自主设计实现指令系统,同时基于此构建了申威自主基础软件生态。
SW64 完全自主,显著降低技术与 IP 依赖性。知识产权评估权威机构工业和信息化部软件与集成威廉希尔官方网站 促进中心(CSIP)对申威指令系统的评估结论是:“申威指令系统是一种与之前常见指令系统(ALPHA、MIPS、ARM、X86、POWER 等指令集)不同的自主指令系统。”申威架构有别于引进 CPU 架构,是完全自主的架构,知识产权和自主研发能力不受限制。申威可自主发展,不会有被断供、制裁或停止授权的风险,可为关键领域提供长远的、可控的供应链和技术支撑。如今国产系统基本都接入了 SW64 指令集,如麒麟操作系统信操作系统,欧拉操作系统。
申威是国内自主设计、拥有完全自主处理器架构的芯片。作为目前唯一国内自主设计、拥有完全自主的处理器架构,申威真正实现了全流程安全可控的国产处理器。申威处理器具有高计算性能、高集成度、高访存带宽、高 I/O 性能的特点。申威芯片覆盖高性能、服务器、桌面和嵌入式 CPU以及配套的外围 IO 桥片,形成“大、中、小”系列化、多品种国产自主芯片。
申威 26010 处理器解决了 260 个核心构成 SoC 芯片带来的各种挑战,具有接近工艺极限的 Die 面积。整个处理器支持乱序执行,频率 1.45GHz,包 括 4 个 MPE(Management Processing Element) 管理 单 元 、4 个 CPE(Computing Processing Element)计算单元及 4 个 MC 内存控制器单元组成,其中 CPE 单元又由 8x8 阵列的64 核心组成,所以总计是 260 个核心(4x64+4=260)。
申威 26010 实现了量产,并在 2016 年部署的“神威·太湖之光”超级计算机系统中应用。“神威·太湖之光”包含 4万多颗“申威 26010”芯片,连续四次在世界超级计算机 TOP500 榜单中排名第一,并荣获多项科技与计算领域顶级荣誉。“神威·太湖之光”是中国超级计算应用领域近年来的重大突破。
审核编辑:黄飞
全部0条评论
快来发表一下你的评论吧 !