国内公司自主研发GPU+：兼容CUDA、性能及能效超竞品

硬件世界 2023-07-17 1447

描述

近日，自称为国内自主创新的通用GPU领军企业的登临科技获得中国互联网投资基金（简称“中网投”）独家投资。

公司称，这将为登临新一代Goldwasser（高凛）规模化量产及商业化落地提供重要保障。

高凛是一款AI加速卡，首款产品2021年量产投入市场，2022年销售过万片。

第二代产品2022年流片，2023年实现量产。根据现有客户测试结果，二代产品针对基于transformer类型的模型提供3-5倍的性能提升，大幅降低类ChatGPT及生成式AI应用的硬件成本。

在官网，登临介绍自己是国内首家完全凭借自主创新，实现规模化商业落地的通用GPU企业，登临科技核心IP完全自主研发，其自主创新的GPU+（基于GPGPU的软件定义的片内异构计算架构），在兼容 CUDA/OpenCL 在内的编程模型和软件生态的基础上，通过架构创新，解决了客户核心关注的通用性和高效率的双重难题。

其表示，经过大量客户产品化验证，针对AI计算，GPU+相比现有主流GPU在性能及能效上有显著提升。

在AI市场上，NVIDIA现在是没有对手的阶段，AI显卡份额估计在90%以上，AMD都很难竞争，现在Intel也加入这个市场了，而且找到了NVIDIA的一个痛点，那就是性价比。

NVIDIA目前受追捧的AI显卡主要是A100、H100，国内有特供的阉割版A800、H800，性能比原版弱20%左右，但即便如此依然供不应求，A800一周时间就从9万元涨到11万元以上，H100价格在25万元以上，H800也要20万出头，而且不同经销商的价格差异很大。

Intel自然也不会放过这个市场，日前在国内举行发布会，也推出了AI显卡Habana Gaudi2，这是去年底发布的AI推理加速芯片，从第一代的16nm工艺升级到7nm工艺，Tensor 处理器核心数量增至 24 个，同时集成了多媒体处理引擎，内存升级至 96GB HBM2E。

国内版的Gaudi2主要是阉割了部分网络接口，但也集成了21路100Gbps网络接口，总体来说性能依然很可观。

Intel还公布了Gaudi2跟H100的AI性能对比，面对要求极为苛刻的、1750亿参数的GPT-3模型，384个Gaudi2加速器上的训练时间仅为311.9分钟，而且从256个加速器到384个加速器，性能扩展幅度达95％。

NVIDIA这边在512块 H100 GPU上的训练时间则为64分钟，论单卡性能的话是Gaudi2的3.6倍多，但是Intel不会跟H100拼极限性能，而是强调性价比。

Habana Labs 首席运营官 Eitan Medina 表示，性价比是影响H100和Gaudi2相对价值的重要考量因素，Gaudi2 服务器的成本要比H100低得多。

更重要的是，目前Gaudi2还没有支持AI常用的FP8运算格式，这种情况下Gaudi2 在性价比上也胜过了H100，今年3季度会升级支持FP8运算，Gaudi2的性能将有明显飞跃，性价比要比H100更高了。

打开APP阅读更多精彩内容