亚马逊网络服务公司(Amazon Web Services)不久将拥有一台由英伟达(Nvidia)制造的新型超级计算机,该公司称这是世界上速度最快的人工智能系统之一。
在使用 FP8 数据类型测试时,该系统可提供 65 exaflops 的人工智能性能。Nvidia 负责超大规模和 HPC 的副总裁 Ian Buck 在新闻发布会上说,这也是世界上第一台基于 ARM 的云计算 AI 超级计算机。
新的DGX Cloud Project Ceiba系统围绕Nvidia组件构建,但经过调整后可连接到AWS的Nitro芯片,后者提供底层网络、存储和安全基础设施。
Project Ceiba将于2024年安装完毕,届时可供客户使用。该系统与其他Nvidia DGX Cloud实施系统不同,后者已被克隆到微软的Azure、甲骨文云和谷歌云上。
65 exaflops的性能来自5个Grace Hopper超级芯片,机架由AWS的弹性结构适配器连接,用于超级计算应用程序。
Buck说:"这台新的超级计算机将在 AWS 基础设施中运行,并由 Nvidia 自己的研究和工程团队开发用于开发图形、大型语言模型研究的新人工智能,并用于数字生物学、机器人研究和自动驾驶汽车。
AWS 还发布了搭载英伟达H200、L40S和L4 GPU的新虚拟机。这些产品是在拉斯维加斯举行的 ReInvent 大会上发布的。
AWS 还发布了其最新 CPU Graviton4,它是 Graviton3 的后继产品,将被用于 EC2。不过,亚马逊在一篇博客文章中称,与 Graviton3 芯片相比,该 CPU 的内核增加了 50%,速度提高了 30%,内存带宽增加了 75%。
CCS Insight 首席分析师詹姆斯-桑德斯(James Sanders)说,考虑到 Graviton 处理器与 Arm Neoverse 内核设计发布节奏之间的关系,Graviton4 的发布在意料之中。Graviton4 以 Neoverse V2 为蓝本,而 Graviton 3 则以 Neoverse V1 为蓝本。
"两者在微架构上的主要变化是升级到了Armv9,从而提高了进程隔离和向量扩展。桑德斯说:"前者在云环境中非常有用,也是对 Spectre 和 Meltdown 等侧信道攻击的一种反应,而后者则对人工智能推理非常有用。
最新的CPU是Graviton 3E,它是AWS用于超级计算的最高性能CPU。桑德斯说,Graviton4全面上市后,将有更多不同价位的实例类型可供选择。
相比之下,微软新推出的 Cobalt 100 是基于 Arm 的 Neoverse N2 CSS,也是 Armv9。Neoverse N 系列面向主流数据中心,而 V 系列则面向更高性能的工作负载,这将使 Graviton4 更具优势。
亚马逊也终于发布了名为 Trainium2 的下一代训练芯片,其训练速度是近三年前发布的首款 Trainium 芯片的四倍。
"亚马逊在一篇博文中说:"它将能部署在多达 10 万个芯片的 EC2 UltraClusters 中,使基础模型和大型语言模型(LLM)的训练只需极少的时间,同时能效提高达 2 倍。
AWS 现在拥有两款 ARM CPU,包括 Nvidia 的 Grace 和自己的 Graviton4。Nvidia的Grace提供对GPU的访问,而Graviton4提供对Trainium的访问。Graviton4 目前还不能与 Nvidia GPU 协同工作。
由于模型开发和定制的增加,这方面的需求是存在的,尽管这需要对针对 Nvidia CUDA 环境的项目进行一些工具调整。
"桑德斯说:"奇怪的是,[AWS 首席执行官]亚当-塞利普斯基(Adam Selipsky)指出,当谷歌正在使用第四代 TPU 时,其他云计算公司才在谈论它们的 AI 芯片。
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !