0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型端侧部署加速,都有哪些芯片可支持?

Carol Li 来源:电子发烧友 作者:李弯弯 2024-05-24 00:14 次阅读

电子发烧友网报道(文/李弯弯)大模型在端侧部署是指将大型神经网络模型部署在移动终端设备上,使这些设备能够直接运行这些模型,从而执行各种人工智能任务,如图像识别、语音识别、自然语言处理等。随着大模型小型化、场景化需求的增加,推理逐步从云端扩展向端侧。这种趋势在PC和手机等终端产品上尤为明显。

大模型在端侧部署加速

大模型在端侧部署的过程通常包括几个阶段,首先是模型训练阶段,在这个阶段,使用大量的标注数据训练出对应的模型文件。训练时需要考虑模型的大小和计算量,以便适应端侧设备的硬件条件。

接着是模型压缩,为了降低模型在端侧设备上的存储和运行压力,通常需要对模型进行压缩。这可以通过剪枝、量化等手段来实现,以减小模型的大小和降低计算复杂度。

再就是模型部署,在这个阶段,将压缩后的模型部署到端侧设备上。这包括将模型文件传输到设备上,在设备上安装必要的推理引擎和运行时环境等步骤。

最后,在模型部署完成后,端侧设备就可以使用这些模型进行推理计算了。这通常包括加载模型、输入数据预处理、模型计算、结果输出等步骤。

在大模型端侧部署过程中,需要考虑一些技术挑战和限制。例如,端侧设备的硬件条件通常比云端服务器要差很多,因此需要在模型设计和压缩阶段充分考虑这些因素。此外,端侧设备的网络带宽和延迟也可能对模型推理的实时性和准确性产生影响。

为了克服这些挑战和限制,一些技术工具和平台被开发出来,如MLflow、Ray Serve、Kubeflow、Seldon Core、BentoML和ONNX Runtime等。这些工具可以帮助用户更方便地构建、部署和管理机器学习模型,从而提高模型在端侧设备上的性能和可用性。

现如今,大模型在端侧的部署正在加速。在PC领域,继英特尔推出首个AI PC处理器后,联想集团、惠普、宏碁等厂商相继发布多款AI PC新品。据报道,已有超过10款笔记本可以本地运行AI大模型,并且还有一批新品将陆续上市。

在手机领域,从2023年下半年开始,小米、OPPO、vivo等手机厂商纷纷在新系统中增加大模型能力。到2024年1月,中国手机市场Top5中,除苹果之外,已经全数发布自有端侧大模型产品。

大模型在端侧部署的优势也日益凸显。一方面,端侧部署可以降低数据传输延迟和带宽限制,提高实时性和响应速度。另一方面,端侧部署可以更好地保护用户隐私和数据安全,因为数据可以在本地进行处理,而无需传输到云端。

国内外厂商推出支持大模型端侧部署芯片

大模型要在端侧部署离不开芯片的支持,英特尔、高通联发科等都推出了针对大模型在PC、手机等移动端部署所需的芯片。英特尔推出了首款基于Intel 4制程的酷睿Ultra系列处理器第一代产品Meteor Lake,这款处理器首次在客户端CPU中采用了Chiplet(芯粒)设计和自家的Foveros先进封装技术,集成了NPU(神经网络处理单元),可以本地运行200亿参数大模型,无需联网即可秒级生成高质量多模态数据。

高通发布的第三代骁龙8移动平台,是其首个专为生成式AI打造的移动平台。该平台支持在终端侧运行100亿参数的模型,并面向70亿参数大预言模型每秒生成高达20个token,且能够在终端侧通过Stable Diffusion生成图片。

此外,高通还推出了AI Hub,这是一个为开发者提供的AI模型库,包括传统AI模型和生成式AI模型,能够支持在骁龙和高通平台上进行部署。这个模型库支持超过75个AI模型,如Whisper、ControlNet、Stable Diffusion和Baichuan-7B等,开发者可以轻松地获取这些模型并将其集成到应用程序中。

联发科与阿里云展开深度合作,在天玑9300和天玑8300移动平台上实现了通义千问大模型的端侧部署。联发科的天玑系列移动芯片,如天玑9300和天玑8300,都是高性能、高能效的移动计算平台。这些芯片不仅具有强大的处理能力,还支持先进的5G技术和生成式AI技术,为端侧大模型部署提供了坚实的基础。

另外,国内的爱芯元智、芯动力科技公司也针对大模型在端侧的部署优化产品。爱芯元智的AX650N芯片在大模型端侧部署方面就展现出了显著的优势。

具体来说,AX650N在部署Swin Transformer这类大型视觉模型时,能够保持高精度和高效率。由于大部分端侧AI芯片在架构上对于MHA(Multi-Head Attention)结构没有过多优化,因此部署大型模型时往往需要进行网络结构的修改,这可能导致精度下降和重训的麻烦。然而,AX650N通过其独特的架构和优化,能够直接支持原版Swin Transformer的部署,从测试板到demo复现只需要5分钟,私有模型在私有环境中运行也仅需1小时。

此外,AX650N还具备32路视频解码/视频结构化处理、被动散热、支持低延时编解码、HDMI输出和USB 3.0等特性,这些特性使得它非常适合用于各种视觉感知和边缘计算的应用场景。在大模型端侧部署方面,AX650N不仅提供了强大的计算能力,还通过其易部署和低功耗的特点,为实际应用落地提供了更多的可能性。

芯动力科技是一家清华系的AI芯片创企,他们面向大模型推出了AzureBlade L系列M.2加速卡。这款加速卡具有强大的性能,能够顺利运行大模型系统,并且其大小仅为80mm(长)x22mm(宽),非常适合在PC等端侧设备上部署。

AzureBlade L系列M.2加速卡已经实现了与Llama 2、Stable Diffusion等模型的适配,成为助推大模型在端侧设备上部署的加速器。这种具备体积小、性能强,且有通用接口的M.2加速卡,能够突破端侧设备有限的计算和存储能力,为大模型在端侧的落地提供了机会。

写在最后

大模型在端侧部署是一个复杂的过程,需要考虑多种因素和技术挑战。但是通过合理的模型设计、压缩和优化以及使用适当的工具和平台,就可以让端侧设备具备更强的人工智能能力。如今,在产业链各环节的努力下,大模型在端侧部署的现状呈现出加速的趋势,预计,未来随着技术的不断进步和优化,大模型在端侧部署的应用将会越来越广泛。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4771

    浏览量

    100751
  • 大模型
    +关注

    关注

    2

    文章

    2442

    浏览量

    2683
收藏 人收藏

    评论

    相关推荐

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    以及边缘计算能力的增强,越来越多的目标检测应用开始直接在靠近数据源的边缘设备上运行。这不仅减少了数据传输延迟,保护了用户隐私,同时也减轻了云端服务器的压力。然而,在边缘部署高效且准确的目标检测模型
    发表于 12-19 14:33

    AI模型部署边缘设备的奇妙之旅:如何实现手写数字识别

    更适合生产环境的框架来部署。此外,许多推理引擎和硬件加速器也支持ONNX格式,从而进一步加快了模型部署的速度。 在凌智视觉模块中
    发表于 12-06 17:20

    黑芝麻智能算法参考模型公布

    黑芝麻智能计划推出支持华山及武当系列芯片算法参考方案。该方案采用One Model架构,并在决策规划单元引入了VLM视觉语言大模型
    的头像 发表于 12-03 12:30 289次阅读
    黑芝麻智能<b class='flag-5'>端</b>到<b class='flag-5'>端</b>算法参考<b class='flag-5'>模型</b>公布

    智谱推出四个全新模型 携英特尔按下AI普及加速

    随着AI的发展,侧AI模型越来越受到广大客户及厂商的关注,业界领先的大模型公司智谱于近日推出了四个全新的模型
    的头像 发表于 12-02 17:13 207次阅读
    智谱推出四个全新<b class='flag-5'>端</b>侧<b class='flag-5'>模型</b> 携英特尔按下AI普及<b class='flag-5'>加速</b>键

    高通与智谱推动多模态生成式AI体验的终端侧部署

    此前,骁龙峰会首日,智谱与高通技术公司宣布合作将GLM-4V侧视觉大模型,面向骁龙8至尊版进行深度适配和推理优化,支持丰富的多模态交互方式,进一步推动多模态生成式AI在终端侧的部署
    的头像 发表于 11-08 09:55 174次阅读

    模型向边侧部署,AI加速卡朝高算力、小体积发展

    电子发烧友网报道(文/李弯弯)AI加速卡是专门用于处理人工智能应用中的大量计算任务的模块。它集成了高性能的计算核心和大量的内存,旨在加速机器学习、深度学习等算法的计算过程。当前,AI加速卡市场呈现出
    的头像 发表于 09-17 00:18 3266次阅读

    基于AX650N/AX630C部署侧大语言模型Qwen2

    本文将分享如何将最新的侧大语言模型部署到超高性价比SoC上,向业界对侧大模型部署的开发者提供
    的头像 发表于 07-06 17:43 3539次阅读
    基于AX650N/AX630C<b class='flag-5'>部署</b><b class='flag-5'>端</b>侧大语言<b class='flag-5'>模型</b>Qwen2

    后摩智能引领AI芯片革命,推出边模型AI芯片M30

    在人工智能(AI)技术飞速发展的今天,AI大模型部署需求正迅速从云端向侧和边缘侧设备迁移。这一转变对AI芯片的性能、功耗和响应速度提出了前所未有的挑战。正是在这样的背景下,后摩智能
    的头像 发表于 06-28 15:13 683次阅读

    支持模型部署和运行的边缘计算SoC芯片

    电子发烧友网报道(文/李弯弯)如今,AI在边缘侧的应用越来越广泛,这其中少不了AI SoC芯片支持,边缘计算AI SoC是一种集成了人工智能(AI)和边缘计算能力的系统级芯片。这种芯片
    的头像 发表于 05-27 08:00 3413次阅读

    联发科旗舰芯片部署阿里云大模型

    全球智能手机芯片出货量领先的半导体公司联发科近日宣布,已成功在天玑9300等旗舰芯片上集成阿里云通义千问大模型,实现了大模型在手机芯片
    的头像 发表于 03-28 13:59 495次阅读

    牵手NVIDIA 元戎启行模型将搭载 DRIVE Thor芯片

    NVIDIA的DRIVE Thor芯片适配公司的智能驾驶模型。据悉,元戎启行是业内首批能用 DRIVE Thor芯片适配
    发表于 03-25 11:49 336次阅读
    牵手NVIDIA 元戎启行<b class='flag-5'>端</b>到<b class='flag-5'>端</b><b class='flag-5'>模型</b>将搭载 DRIVE Thor<b class='flag-5'>芯片</b>

    使用CUBEAI部署tflite模型到STM32F0中,模型创建失败怎么解决?

    看到CUBE_AI已经支持到STM32F0系列芯片,就想拿来入门嵌入式AI。 生成的模型很小,是可以部署到F0上的,但是一直无法创建成功。 查阅CUBE AI文档说在调用create
    发表于 03-15 08:10

    人工智能十大趋势预测:更多多模态、大模型侧部署加速!智能化应用呈爆发式增长

    。   而2024年被认为是大模型的应用之年,不难看到,人工智能将会呈现一些明显趋势。如:无论是在消费级还是垂直行业领域,大模型的应用都会加速;在市场应用的驱动下,无论是算力、数据,还是多模态大
    的头像 发表于 02-18 00:03 3891次阅读

    Meta计划今年部署自研定制芯片,以加速AI研发

    Meta公司近日宣布计划在今年内为其数据中心部署一款自研定制芯片,以支持其人工智能(AI)的研发工作。这一举措旨在提高Meta在AI领域的竞争力,并加速其技术发展。
    的头像 发表于 02-03 10:48 649次阅读

    边缘侧部署模型优势多!模型量化解决边缘设备资源限制问题

    设备上,可以减少数据传输的延迟和带宽需求,提高模型的实时性和响应速度。   边缘部署模型的优势   边缘侧部署
    的头像 发表于 01-05 00:06 3549次阅读