0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

CVer 来源:CVer 2023-11-21 16:08 次阅读

一句话总结

通过应用视觉专家进行工业异常检测,以实现明确的异常检测和高质量的异常描述,还可进行多轮对话,性能表现出色!优于AnomalyGPT等网络,代码即将开源!

Myriad

81612fa6-8842-11ee-939d-92fbcf53809c.png

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

单位:哈工大(左旺孟团队), 琶洲实验室

论文:https://arxiv.org/abs/2310.19070

代码:https://github.com/tzjtatata/Myriad

现有的工业异常检测(IAD)方法可以预测异常检测和定位的异常分数。然而,它们很难对异常区域进行多轮对话和详细描述,例如工业异常的颜色、形状和类别。

最近,大型多模态(即视觉和语言)模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力,使其成为更易于理解的异常检测的有竞争力的潜在选择。然而,现有的通用 LMM 中缺乏有关异常检测的知识,而训练特定的 LMM 进行异常检测需要大量的注释数据和大量的计算资源。

本文提出了一种新颖的大型多模态模型,通过应用视觉专家进行工业异常检测(称为Myriad),从而实现明确的异常检测和高质量的异常描述。

8174db1e-8842-11ee-939d-92fbcf53809c.png

具体来说,采用 MiniGPT-4 作为基础 LMM,并设计一个专家感知模块,将视觉专家的先验知识嵌入到大型语言模型(LLM)可以理解的标记中。

817bd270-8842-11ee-939d-92fbcf53809c.png

为了弥补视觉专家的错误和困惑,引入了域适配器来弥合通用图像和工业图像之间的视觉表示差距。此外,提出了一个视觉专家讲师,它使 Q-Former 能够根据视觉专家先验生成 IAD 领域视觉语言标记。

实验结果

在MVTec-AD 和 VisA 基准上的大量实验表明,本文提出的方法不仅在 1-class 和少样本设置下比最先进的方法表现更好,而且还提供了明确的异常预测以及 IAD 中的详细描述领域。

818720f8-8842-11ee-939d-92fbcf53809c.png

8193e388-8842-11ee-939d-92fbcf53809c.png

81d184e0-8842-11ee-939d-92fbcf53809c.png

81ed7236-8842-11ee-939d-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3238

    浏览量

    48824
  • 视觉
    +关注

    关注

    1

    文章

    147

    浏览量

    23940
  • 大模型
    +关注

    关注

    2

    文章

    2439

    浏览量

    2681

原文标题:工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    商汤日日新模态模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 173次阅读

    一文理解模态大语言模型——下

    /understanding-multimodal-llms   《一文理解模态大语言模型 - 上》介绍了什么是模态大语言
    的头像 发表于 12-03 15:18 127次阅读
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>——下

    利用OpenVINO部署Qwen2模态模型

    模态模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说
    的头像 发表于 10-18 09:39 426次阅读

    华工科技联合哈工大实现国内首台激光智能除草机器人落地

    华工科技党委书记、董事长、总裁马新强一行赴哈尔滨对哈尔滨工业大学机器人技术与系统全国重点实验室(后简称哈工大机器人实验室)、爱辉区智能激光除草机器人试点基地进行实地调研,代表华工科技中央研究院同
    的头像 发表于 09-06 10:45 802次阅读

    云知声推出山海模态模型

    在人工智能技术的浩瀚星海中,模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后,云知声以创新之姿,推出了其匠心独运的山海模态
    的头像 发表于 08-27 15:20 391次阅读

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/模态交互/英语评测SDK合集)

    丰富外设配件 配套模态应用示例,支持快速上手体验大模型语音交互、智能视觉等 AI 应用 板载 DAPLINK 调试器,外接一条USB 线即可实现烧录、调试、串口日志查看 板载网络模组
    发表于 06-18 17:33

    智谱AI发布全新模态开源模型GLM-4-9B

    近日,智谱AI在人工智能领域取得重大突破,成功推出全新开源模型GLM-4-9B。这款模型以其卓越的模态能力,再次刷新了业界对于大型语言
    的头像 发表于 06-07 09:17 737次阅读

    李未可科技正式推出WAKE-AI模态AI大模型

    文本生成、语言理解、图像识别及视频生成等模态交互能力。   该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互,同时
    发表于 04-18 17:01 597次阅读
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大<b class='flag-5'>模型</b>

    苹果发布300亿参数MM1模态模型

    近日,科技巨头苹果公司在一篇由多位专家共同撰写的论文中,正式公布了其最新的模态模型研究成果——MM1。这款具有高达300亿参数的
    的头像 发表于 03-19 11:19 892次阅读

    蚂蚁推出20亿参数模态遥感模型SkySense

    据了解,负责开发的百灵团队利用自身拥有的19亿遥感影像数据集进行了预训练,从而生成了具有20.6亿参数的SkySense大模型。官方称其为全球范围内参数规模最大、任务覆盖最全且识别精度最高的
    的头像 发表于 02-28 15:53 666次阅读

    韩国Kakao宣布开发模态大语言模型“蜜蜂”

    韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据
    的头像 发表于 01-19 16:11 689次阅读

    机器人基于开源的模态语言视觉模型

    ByteDance Research 基于开源的模态语言视觉模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作
    发表于 01-19 11:43 414次阅读
    机器人基于开源的<b class='flag-5'>多</b><b class='flag-5'>模态</b>语言<b class='flag-5'>视觉</b>大<b class='flag-5'>模型</b>

    基于DiAD扩散模型异常检测工作

    现有的基于计算机视觉工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近,扩散模型因其强大的生成能力而闻名,因此本文作者希望通
    的头像 发表于 01-08 14:55 1398次阅读
    基于DiAD扩散<b class='flag-5'>模型</b>的<b class='flag-5'>多</b>类<b class='flag-5'>异常</b><b class='flag-5'>检测</b>工作

    自动驾驶和模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将文本与相应的视频
    发表于 12-28 11:45 522次阅读
    自动驾驶和<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>的发展历程

    从Google模态模型看后续大模型应该具备哪些能力

    前段时间Google推出Gemini模态模型,展示了不凡的对话能力和模态能力,其表现究竟如何呢?
    的头像 发表于 12-28 11:19 1271次阅读
    从Google<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>看后续大<b class='flag-5'>模型</b>应该具备哪些能力