千亿参数多模态大模型，“紫东太初”规模化应用加速-电子发烧友网

电子发烧友网报道（文/李弯弯）过去近一年时间，国内外大模型技术越来越成熟，并逐步在不同场景中实现实现应用。在国内，作为早早布局多模态大模型的科研机构，中国科学院自动化研究所自2019年开始在语音、文本、图像等单模态大模型研究和应用的基础上，向多模态大模型攻关，并于2021年7月正式发布了全球首个千亿参数多模态大模型紫东太初。

2023年6月16日，中国科学院自动化研究所和武汉人工智能研究院发布紫东太初2.0。2023年8月，中科院旗下紫东太初的大模型位列首批通过《生成式人工智能服务管理暂行办法》备案的名单，可正式上线面向公众提供服务。如今，紫东太初已经在不同领域实现应用。

紫东太初多模态大模型的技术进展

紫东太初是全球首个图文音（视觉-文本-语音）三模态预训练模型（OPT-Omni-Perception pre-Trainer），同时具备跨模态理解与跨模态生成能力。

紫东太初2.0在文本、图像、语音三模态的基础上，融入3D点云、视频、信号等更多模态数据，现已支持多轮问答、文本创作、图像生成、3D 理解、信号分析等全面问答任务，拥有更强的认知、理解、创作能力，带来全新互动体验。

紫东太初多模态大模型拥有三大关键技术和六大核心能力。三大关键技术：多模态理解与生成多任务统一建模；面向国产化软硬件的高效训练与部署；多模态预训练模型架构设计与优化。六大核心能力：多模态统一表示与语义关联；预训练模型网络架构合计；模型适配与分布式训练；跨模态内容转化与生成；标注受限自监督模型学习；模型轻量化与推理加速。

近期，为推动数字技术与行业应用深度融合，提供更加先进的新一代人工智能解决方案，助力产业升级和发展，武汉人工智能研究院基于“紫东太初”全模态大模型，搭建全栈国产化“紫东太初”大模型开放服务平台。“紫东太初”跨模态通用人工智能平台以多模态大模型为核心，基于全栈国产化基础软硬件平台，可支撑全场景AI应用。

武汉人工智能研究院院长王金桥不久前表示，武汉人工智能研究院是以科技创新与成果转化双轮驱动的新型研发机构，作为湖北省人工智能产业链“链创”平台，基于“紫东太初”多模态大模型，在智能制造、智慧医疗等多个领域打造了典型示范应用，并搭建全栈国产化自主可控的紫东太初大模型开放服务平台，全力打造湖北省数字经济智能底座。

“紫东太初”大模型正在赋能千行百业

据介绍，目前紫东太初已经在各行各业中实现应用。据武汉人工智能研究院官网介绍，该机构基于“紫东太初”多模态大模型携手长安欧尚，共同引入了元宇宙的概念，创造出YYDS虚拟数字人，可以通过复刻自己或者亲人的形象和声音，捏出专属的语音助手。

携手杭州市文广旅游局、杭州移动，基于“紫东太初”多模态大模型打造文旅场景首个多模态AI数字人“杭小忆”，为杭州文化旅游提供具有亲和力、感染力、吸引力的代言人形象。利用AR/VR技术还原南宋御街历史风貌，包含陶瓷烧制釉变、活字印刷、特色小吃等场景。

在纺织制造领域，该机构与魏桥集团合作了布匹缺陷检测设备，该设备通过接入“紫东太初”大模型的质检摄像头识别70多种布匹瑕疵，能够在较短时间内就满足生产的精度要求，在验布检验环节相比人工实现了质的突破，瑕疵识别检出率高达95%。还能够基于声音发现瑕疵，提升纺织行业织布、验布效率，助力纺织工业质检。

在医疗领域，“紫东太初-火石数智燧石医疗大模型”最新应用成果于近期正式发布，九州通医疗器械集团项目总监徐琳介绍，对于骨科疾病治疗场景来说，按照监管要求，目前很多医院设备科的工作人员，是拿着放大镜一颗一颗地去数骨钉等耗材，统计使用数量、类型，验收器械的批号和实物是否一致，这种核验过程不够高效快捷。

她透露，今年3月起，九州通与武汉人工智能研究院联合进行技术研发，历经半年，完成骨科内植入耗材系统“骨科嫦娥”智慧系统研发。系统利用人工智能、深度神经卷积以及大模型等技术，在一个完整手术治疗周期内，对骨科复杂植入物和工具进行智慧识别、全程追踪、报表统计、能效分析、数据查询、共享协同等闭环式、智慧化高效管理，试行效果良好。

“江城洛神”是基于“紫东太初”大模型打造的人工智能内容创作平台，通过多模态技术实现图像编辑与生成，辅助内容生产，用户无需任何专业技能，只需轻轻一点，便可轻松创造出属于自己的艺术作品，可广泛运用于设计、影视、游戏等多个领域。

以室内装修设计领域为例，只需提供一张户型图，“江城洛神”就可自动生成多种装修设计样式，提示词越多、越精细，生成质量就越高，还能根据不同提示自动对结果进行编辑。

王金桥表示，“紫东太初”大模型正在赋能千行百业，推动数字经济全面发展。“紫东太初”人工智能开放服务平台目前已成功应用于汽车制造质检、媒体信息服务、文化旅游、手语教育、纺织生产质检、医疗器械等10余个领域，形成规模化应用落地。

小结

人工智能未来的10年将是生成式人工智能的10年，如今国内外各大科技巨头及AI企业已经从初期招兵买马启动大模型产品的技术研发，进入到拓展应用场景的阶段。如今市面上已经发布的大模型有几百款。然而，通用大模型就如早期的操作系统一样，最终只会需要一两个或者两三个。未来，就看谁能够真正了解市场需求，最终脱颖而出了。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •175次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言

发表于 12-03 15:18 •127次阅读

一文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>——下

大模型加速赋能行业讯飞星火引领大模型规模化落地时代

经过一年多的探索与调整，2024年的大模型产业开始真正进入到规模化落地应用阶段。在新的时期，模型之间的能力比拼只是基础，各家开始真正进入到是否能为产业带来助力的硬实力比拼上。 10月2

发表于 10-28 14:03 •160次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说

发表于 10-18 09:39 •430次阅读

苹果发布300亿参数多模态AI大模型MM1.5

苹果近日推出了全新的多模态AI大模型MM1.5，该模型拥有高达300亿的参数规模，是在前代MM1

发表于 10-14 15:50 •271次阅读

云知声推出山海多模态大模型

在人工智能技术的浩瀚星海中，多模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心独运的山海多模态大

发表于 08-27 15:20 •392次阅读

IBM陈旭东：携手IBM加速 AI 规模化应用，解锁企业新质生产力

、总经理陈旭东应邀参会，并以"加速 AI 规模化应用，解锁企业新质生产力"为题作主旨演讲。他认为，在企业规模化应用AI的路径中，最关键的是如何把企业数据转化为AI源泉，即用企业的数据去训练大

发表于 07-15 16:13 •319次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

李未可科技多模态 AI 大模型正式发布，积极推进 AI 在终端的场景应用 4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多

发表于 04-18 17:01 •597次阅读

苹果发布300亿参数MM1多模态大模型

近日，科技巨头苹果公司在一篇由多位专家共同撰写的论文中，正式公布了其最新的多模态大模型研究成果——MM1。这款具有高达300亿参数的多

发表于 03-19 11:19 •894次阅读

武汉人工智能研究院即将发布“紫东太初 3.0”，助力千行百业发展

湖北日报透露，该项目的负责人王金桥院长表示：“为了进一步提升自身对各行业的支持力度，我们计划在今年上半年发布‘紫东太初 3.0’版本”。此外，他也提到，该研究所在智能驾驶领域与东风汽车、光庭信息的合作正逐步推进。

发表于 03-05 16:25 •1167次阅读

蚂蚁集团推出20亿参数多模态遥感基础模型SkySense

近日，蚂蚁集团联合武汉大学宣布成功研发出20亿参数多模态遥感基础模型SkySense。这一创新模型由蚂蚁集团的AI创新研发部门NextEvo

发表于 03-04 11:22 •817次阅读

蚂蚁推出20亿参数多模态遥感模型SkySense

据了解，负责开发的百灵团队利用自身拥有的19亿遥感影像数据集进行了预训练，从而生成了具有20.6亿参数的SkySense大模型。官方称其为全球范围内参数规模最大、任务覆盖最全且识别精度

发表于 02-28 15:53 •666次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •414次阅读

什么是多模态？多模态的难题是什么？

单模态大模型，通常大于100M～1B参数。具有较强的通用性，比如对图片中任意物体进行分割，或者生成任意内容的图片或声音。极大降低了场景的定制成本。

发表于 01-17 10:03 •4628次阅读

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

发表于 12-28 11:19 •1271次阅读