哈工大提出Myriad：利用视觉专家进行工业异常检测的大型多模态模型-电子发烧友网

一句话总结

通过应用视觉专家进行工业异常检测，以实现明确的异常检测和高质量的异常描述，还可进行多轮对话，性能表现出色！优于AnomalyGPT等网络，代码即将开源！

Myriad

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

单位：哈工大(左旺孟团队), 琶洲实验室

论文：https://arxiv.org/abs/2310.19070

代码：https://github.com/tzjtatata/Myriad

现有的工业异常检测（IAD）方法可以预测异常检测和定位的异常分数。然而，它们很难对异常区域进行多轮对话和详细描述，例如工业异常的颜色、形状和类别。

最近，大型多模态（即视觉和语言）模型（LMM）在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力，使其成为更易于理解的异常检测的有竞争力的潜在选择。然而，现有的通用 LMM 中缺乏有关异常检测的知识，而训练特定的 LMM 进行异常检测需要大量的注释数据和大量的计算资源。

本文提出了一种新颖的大型多模态模型，通过应用视觉专家进行工业异常检测（称为Myriad），从而实现明确的异常检测和高质量的异常描述。

具体来说，采用 MiniGPT-4 作为基础 LMM，并设计一个专家感知模块，将视觉专家的先验知识嵌入到大型语言模型（LLM）可以理解的标记中。

为了弥补视觉专家的错误和困惑，引入了域适配器来弥合通用图像和工业图像之间的视觉表示差距。此外，提出了一个视觉专家讲师，它使 Q-Former 能够根据视觉专家先验生成 IAD 领域视觉语言标记。

实验结果

在MVTec-AD 和 VisA 基准上的大量实验表明，本文提出的方法不仅在 1-class 和少样本设置下比最先进的方法表现更好，而且还提供了明确的异常预测以及 IAD 中的详细描述领域。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3238

浏览量
48824
视觉

视觉

+关注

关注
1

文章
147

浏览量
23940
大模型

大模型

+关注

关注
2

文章
2439

浏览量
2681

原文标题：工业异常检测大模型来了！哈工大提出Myriad：利用视觉专家进行工业异常检测的大型多模态模型

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •173次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言

发表于 12-03 15:18 •127次阅读

一文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>——下

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说

发表于 10-18 09:39 •426次阅读

华工科技联合哈工大实现国内首台激光智能除草机器人落地

华工科技党委书记、董事长、总裁马新强一行赴哈尔滨对哈尔滨工业大学机器人技术与系统全国重点实验室（后简称哈工大机器人实验室）、爱辉区智能激光除草机器人试点基地进行实地调研，代表华工科技中央研究院同

发表于 09-06 10:45 •802次阅读

云知声推出山海多模态大模型

在人工智能技术的浩瀚星海中，多模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心独运的山海多模态大

发表于 08-27 15:20 •391次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

丰富外设配件配套多模态应用示例，支持快速上手体验大模型语音交互、智能视觉等 AI 应用板载 DAPLINK 调试器，外接一条USB 线即可实现烧录、调试、串口日志查看板载网络模组

发表于 06-18 17:33

智谱AI发布全新多模态开源模型GLM-4-9B

近日，智谱AI在人工智能领域取得重大突破，成功推出全新开源模型GLM-4-9B。这款模型以其卓越的多模态能力，再次刷新了业界对于大型语言

发表于 06-07 09:17 •737次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互，同时多

发表于 04-18 17:01 •597次阅读

苹果发布300亿参数MM1多模态大模型

近日，科技巨头苹果公司在一篇由多位专家共同撰写的论文中，正式公布了其最新的多模态大模型研究成果——MM1。这款具有高达300亿参数的多

发表于 03-19 11:19 •892次阅读

蚂蚁推出20亿参数多模态遥感模型SkySense

据了解，负责开发的百灵团队利用自身拥有的19亿遥感影像数据集进行了预训练，从而生成了具有20.6亿参数的SkySense大模型。官方称其为全球范围内参数规模最大、任务覆盖最全且识别精度最高的多

发表于 02-28 15:53 •666次阅读

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据

发表于 01-19 16:11 •689次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作

发表于 01-19 11:43 •414次阅读

基于DiAD扩散模型的多类异常检测工作

现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近，扩散模型因其强大的生成能力而闻名，因此本文作者希望通

发表于 01-08 14:55 •1398次阅读

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频

发表于 12-28 11:45 •522次阅读

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

发表于 12-28 11:19 •1271次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

哈工大提出Myriad：利用视觉专家进行工业异常检测的大型多模态模型

评论

商汤日日新多模态大模型权威评测第一

一文理解多模态大语言模型——下

利用OpenVINO部署Qwen2多模态模型

华工科技联合哈工大实现国内首台激光智能除草机器人落地

云知声推出山海多模态大模型

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

智谱AI发布全新多模态开源模型GLM-4-9B

李未可科技正式推出WAKE-AI多模态AI大模型

苹果发布300亿参数MM1多模态大模型

蚂蚁推出20亿参数多模态遥感模型SkySense

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

机器人基于开源的多模态语言视觉大模型

基于DiAD扩散模型的多类异常检测工作

自动驾驶和多模态大语言模型的发展历程

从Google多模态大模型看后续大模型应该具备哪些能力