电子发烧友网报道(文/周凯扬)在一年一度的国际超算大会上,新一轮的TOP500超算榜单终于出炉。此次,在芯片制造工艺发展以及计算负载出现剧变的当下,前十的榜单出现了一些新的变动,却也让我们发现了一些新的问题。
TOP500榜单变化
从前十的超算系统看起,我们会发现美国橡树岭国家实验室的Frontier依旧牢牢占据的第一的位置,作为新时代的Exascale级系统,依旧以1.194EFlop/s的性能一骑绝尘。得益于AMD EPYC 64 2GHz的CPU、Instinct MI250X GPU以及HPE的Slingshot-11互联方案,Frontier在实现超高性能的同时,依然做到了22.7MW的功耗。
第二名则是等待多时的Aurora,作为阿贡国家实验室与英特尔深度合作打造的Exascale级系统,集成了Xeon Max 9470 CPU、Max系列GPU以及Slingshot-11,Aurora的成绩倒是出人意料地低,其峰值HPL性能只有585.34PFlop/s,但功耗却还要大于Frontier,达到了24.7MW。
其实这并非Aurora的实际实力,要知道这次提交测试成绩仅仅用到了最终系统规模的一半,但即便如此,在系统功耗(散热、网络)上却是火力全开的,所以即便以完整规模跑一遍测试,功耗也不会因此翻倍的。倒是在峰值性能上,其目标是完整部署后,经过一定的优化达到2EFlop/s的程度,赶超Frontier。
第三名则是微软为Azure打造的Eagle超算系统,从HPL峰值算力上看,其成绩与“半成品”的Aurora接近,达到了561Pflop/s,然而这却可能是市面上最强大的AI超算之一。Eagle作为商用超算,除了用到英特尔的Xeon Platinum 8480C CPU外,还集成了上万块英伟达的H100 GPU。
另外两位新晋TOP10超算系统分别是来自EuroHPC安装于巴塞罗那超算中心的MareNostrum 5 ACC 系统以及英伟达的Eos系统,这两台超算也都同样用上了英特尔Xeon Platinum加英伟达H100 GPU的配置,峰值算力分别为183.2Pflop/s和121.4Pflop/s。
HPC领域迎来了新的改变
尽管这次前十榜单迎来了4个新晋成员,但也确实揭示了HPC领域出现的一些新趋势。首先就是HPC定义已经有了一些变化,我们看到越来越多兼顾AI与混合精度计算的机器也出现在了榜单上,对于常规的HPC研究及应用来说,AI所能贡献的力量也越来越大。
其次HPC系统的更迭和替换速度有了一个整体的下滑,虽说新的TOP10榜单变化比较大,但对于整个TOP500而言,其成绩提交数自2017年以来是一直在下滑的。这也是因为摩尔定律的“终结”导致的,至少在TOP500的榜单上确实如此。成比例提高系统性能变得愈发困难,最终我们发现在2030年之前达成10 Exascale级别的系统已经难以实现了,除非我们把AI算力也统计进去。
当然了,其中也不乏并未公开成绩的超算系统,尤其是云服务厂商。比如微软凭借Eagle系统就达到了第三的成绩,而谷歌的A3超算系统可是集成了26000块H100 GPU,其成绩只会更高。不仅如此,我们也发现中国大陆无论是研究用还是商用超算系统,也不再向TOP500提交新的系统成绩了,只是针对戈登·贝尔奖提交了某个Exascale级系统的相关研究成果。
写在最后
从今年的TOP500榜单可以看出,大家已经对纯粹的HPC计算性能提升放缓了脚步,未来大家更注重的两个榜单很可能是HPL-MxP以及Green500,分别以AI算力和能效作为评选重点,毕竟如今大家在加速扩张AI算力的同时,还是没有忘记高能效与可持续性的重要性。
全部0条评论
快来发表一下你的评论吧 !