电子发烧友网报道(文/李弯弯)大模型在端侧部署是指将大型神经网络模型部署在移动终端设备上,使这些设备能够直接运行这些模型,从而执行各种人工智能任务,如图像识别、语音识别、自然语言处理等。随着大模型小型化、场景化需求的增加,推理逐步从云端扩展向端侧。这种趋势在PC和手机等终端产品上尤为明显。
大模型在端侧部署加速
大模型在端侧部署的过程通常包括几个阶段,首先是模型训练阶段,在这个阶段,使用大量的标注数据训练出对应的模型文件。训练时需要考虑模型的大小和计算量,以便适应端侧设备的硬件条件。
接着是模型压缩,为了降低模型在端侧设备上的存储和运行压力,通常需要对模型进行压缩。这可以通过剪枝、量化等手段来实现,以减小模型的大小和降低计算复杂度。
再就是模型部署,在这个阶段,将压缩后的模型部署到端侧设备上。这包括将模型文件传输到设备上,在设备上安装必要的推理引擎和运行时环境等步骤。
最后,在模型部署完成后,端侧设备就可以使用这些模型进行推理计算了。这通常包括加载模型、输入数据预处理、模型计算、结果输出等步骤。
在大模型端侧部署过程中,需要考虑一些技术挑战和限制。例如,端侧设备的硬件条件通常比云端服务器要差很多,因此需要在模型设计和压缩阶段充分考虑这些因素。此外,端侧设备的网络带宽和延迟也可能对模型推理的实时性和准确性产生影响。
为了克服这些挑战和限制,一些技术工具和平台被开发出来,如MLflow、Ray Serve、Kubeflow、Seldon Core、BentoML和ONNX Runtime等。这些工具可以帮助用户更方便地构建、部署和管理机器学习模型,从而提高模型在端侧设备上的性能和可用性。
现如今,大模型在端侧的部署正在加速。在PC领域,继英特尔推出首个AI PC处理器后,联想集团、惠普、宏碁等厂商相继发布多款AI PC新品。据报道,已有超过10款笔记本可以本地运行AI大模型,并且还有一批新品将陆续上市。
在手机领域,从2023年下半年开始,小米、OPPO、vivo等手机厂商纷纷在新系统中增加大模型能力。到2024年1月,中国手机市场Top5中,除苹果之外,已经全数发布自有端侧大模型产品。
大模型在端侧部署的优势也日益凸显。一方面,端侧部署可以降低数据传输延迟和带宽限制,提高实时性和响应速度。另一方面,端侧部署可以更好地保护用户隐私和数据安全,因为数据可以在本地进行处理,而无需传输到云端。
国内外厂商推出支持大模型端侧部署芯片
大模型要在端侧部署离不开芯片的支持,英特尔、高通、联发科等都推出了针对大模型在PC、手机等移动端部署所需的芯片。英特尔推出了首款基于Intel 4制程的酷睿Ultra系列处理器第一代产品Meteor Lake,这款处理器首次在客户端CPU中采用了Chiplet(芯粒)设计和自家的Foveros先进封装技术,集成了NPU(神经网络处理单元),可以本地运行200亿参数大模型,无需联网即可秒级生成高质量多模态数据。
高通发布的第三代骁龙8移动平台,是其首个专为生成式AI打造的移动平台。该平台支持在终端侧运行100亿参数的模型,并面向70亿参数大预言模型每秒生成高达20个token,且能够在终端侧通过Stable Diffusion生成图片。
此外,高通还推出了AI Hub,这是一个为开发者提供的AI模型库,包括传统AI模型和生成式AI模型,能够支持在骁龙和高通平台上进行部署。这个模型库支持超过75个AI模型,如Whisper、ControlNet、Stable Diffusion和Baichuan-7B等,开发者可以轻松地获取这些模型并将其集成到应用程序中。
联发科与阿里云展开深度合作,在天玑9300和天玑8300移动平台上实现了通义千问大模型的端侧部署。联发科的天玑系列移动芯片,如天玑9300和天玑8300,都是高性能、高能效的移动计算平台。这些芯片不仅具有强大的处理能力,还支持先进的5G技术和生成式AI技术,为端侧大模型部署提供了坚实的基础。
另外,国内的爱芯元智、芯动力科技等公司也针对大模型在端侧的部署优化产品。爱芯元智的AX650N芯片在大模型端侧部署方面就展现出了显著的优势。
具体来说,AX650N在部署Swin Transformer这类大型视觉模型时,能够保持高精度和高效率。由于大部分端侧AI芯片在架构上对于MHA(Multi-Head Attention)结构没有过多优化,因此部署大型模型时往往需要进行网络结构的修改,这可能导致精度下降和重训的麻烦。然而,AX650N通过其独特的架构和优化,能够直接支持原版Swin Transformer的部署,从测试板到demo复现只需要5分钟,私有模型在私有环境中运行也仅需1小时。
此外,AX650N还具备32路视频解码/视频结构化处理、被动散热、支持低延时编解码、HDMI输出和USB 3.0等特性,这些特性使得它非常适合用于各种视觉感知和边缘计算的应用场景。在大模型端侧部署方面,AX650N不仅提供了强大的计算能力,还通过其易部署和低功耗的特点,为实际应用落地提供了更多的可能性。
芯动力科技是一家清华系的AI芯片创企,他们面向大模型推出了AzureBlade L系列M.2加速卡。这款加速卡具有强大的性能,能够顺利运行大模型系统,并且其大小仅为80mm(长)x22mm(宽),非常适合在PC等端侧设备上部署。
AzureBlade L系列M.2加速卡已经实现了与Llama 2、Stable Diffusion等模型的适配,成为助推大模型在端侧设备上部署的加速器。这种具备体积小、性能强,且有通用接口的M.2加速卡,能够突破端侧设备有限的计算和存储能力,为大模型在端侧的落地提供了机会。
写在最后
大模型在端侧部署是一个复杂的过程,需要考虑多种因素和技术挑战。但是通过合理的模型设计、压缩和优化以及使用适当的工具和平台,就可以让端侧设备具备更强的人工智能能力。如今,在产业链各环节的努力下,大模型在端侧部署的现状呈现出加速的趋势,预计,未来随着技术的不断进步和优化,大模型在端侧部署的应用将会越来越广泛。
-
神经网络
+关注
关注
42文章
4771浏览量
100751 -
大模型
+关注
关注
2文章
2442浏览量
2683
发布评论请先 登录
相关推荐
评论