三项SOTA！MasQCLIP：开放词汇通用图像分割新网络-电子发烧友网

1. 效果展示

MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA，涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM：VINS-Fusion原理精讲与源码剖析》。

再来看看开放词汇全景分割的定性效果，图片来源于ADE20k，可以发现MasQCLIP分割出的Mask和类别精度更高。

2. 具体原理是什么？

先介绍一下基础的CLIP模型：ICML-2021的工作，多模态视觉-语言模型代表。主要用来提取zero-shot目标的特征。核心思想是，很多模型需要预定义图像类别，但是文本实际上就已经提供了未见类别的信息，融合文本就可以极大增强模型的泛化性。

而MasQCLIP的思想是，利用稠密特征与预训练的CLIP模型无缝集成，从而避免训练大规模参数。MasQCLIP在使用CLIP模型构建图像分割时侧重两方面：

（1）学生-教师模块，通过从基础（已见）类中提取信息来处理新（未见）类的Mask；

（2）更新CLIP模型中查询的模型参数的微调过程。

具体Pipeline是，MasQCLIP由类无关Mask提议网络和基于CLIP的Mask分类模块组成。在Mask提议网络中，应用渐进蒸馏来分割基类之外的Mask。之后将预测的Mask送入分类模块以获得标签。为了有效利用密集CLIP特征，还提出了MasQ-Tuning策略。

再来看看这个渐进蒸馏，就是从教师模型的分割图中提取和基础类别没有重叠的Mask，用来做辅助训练，将这些额外的标注蒸馏到学生模型中，然后不停的迭代循环来提高泛化性。

3. 再来看看效果如何

开放词汇通用图像分割的定量结果，直接对比了实例分割、语义分割、全景分割三个任务。三大任务涨点都非常明显！

开放词汇实例分割结果，分别对比基类和新类别的定量精度，展示了模型的泛化性。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM：VINS-Fusion原理精讲与源码剖析》。

开放词汇实例分割定性对比，可以发现MasQCLIP分割精度更高！

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像分割

图像分割

+关注

关注
4

文章
182

浏览量
17999
Clip

Clip

+关注

关注
0

文章
31

浏览量
6667

原文标题：北大&清华最新开源 | 三项SOTA！MasQCLIP：开放词汇通用图像分割新网络

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

纳微半导体荣获2024行家极光奖三项大奖

近日，一年一度的行家说三代半年会“2024碳化硅&氮化镓产业高峰william hill官网暨极光奖颁奖典礼”重磅召开。纳微半导体凭借2024年优异的应用和产品表现，荣获三项重磅大奖！

发表于 12-13 17:43 •425次阅读

鸿海荣获2024 IR Magazine三项大奖

与服务商鸿海科技集团（TWSE:2317）宣布荣获全球权威“投资者关系杂志”《IR Magazine》颁发“最佳企业 - 科技业”、“最佳科技应用（包含AI）”以及“最佳投资人关系人员”三项大奖，肯定公司作为科技产业领导者之一，不断结合各种创新模式与投资人沟通。今年鸿海一

发表于 12-07 18:10 •298次阅读

苹果iOS 18.2将推三项备忘录AI功能,提升创作效率

11月6日，据外媒报道，苹果公司正筹备推出第二波Apple Intelligence（苹果智能）功能，并计划在下个月发布的iOS 18.2更新中，为备忘录应用带来三项关键的人工智能改进，旨在提升用户的创作效率和日常记录体验。

发表于 11-06 14:58 •448次阅读

图像语义分割的实用性是什么

图像语义分割是一种重要的计算机视觉任务，它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用，如自动驾驶、医学图像分析、机器人导航等。一、

发表于 07-17 09:56 •427次阅读

图像分割和语义分割的区别与联系

图像分割和语义分割是计算机视觉领域中两个重要的概念，它们在图像处理和分析中发挥着关键作用。 1. 图像分

发表于 07-17 09:55 •930次阅读

图像分割与目标检测的区别是什么

图像分割与目标检测是计算机视觉领域的两个重要任务，它们在许多应用场景中都发挥着关键作用。然而，尽管它们在某些方面有相似之处，但它们的目标、方法和应用场景有很大的不同。本文将介绍图像分割

发表于 07-17 09:53 •1319次阅读

图像分割与语义分割中的CNN模型综述

图像分割与语义分割是计算机视觉领域的重要任务，旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络（CNN）作为深度学习的一种核心

发表于 07-09 11:51 •868次阅读

机器人视觉技术中常见的图像分割方法

机器人视觉技术中的图像分割方法是一个广泛且深入的研究领域。图像分割是将图像划分为多个区域或对象的过程，这些区域或对象具有某种共同的特征，如颜

发表于 07-09 09:31 •691次阅读

机器人视觉技术中图像分割方法有哪些

机器人视觉技术是人工智能领域的一个重要分支，它涉及到图像处理、模式识别、机器学习等多个学科。图像分割是机器人视觉技术中的一个重要环节，它的目标是从一幅图像中将目标物体与背景分离出来，以

发表于 07-04 11:34 •973次阅读

NB81是否支持OneNet SOTA功能？应该如何激活SOTA？

NB81是否支持OneNet SOTA功能？可以支持，应该如何激活SOTA？

发表于 06-04 06:14

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，为什么？

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，用示波器采的输入到MCU端的差分电压是一样的，难道是SOTA使能后影响了MCU芯片内部的等效阻抗吗，有专家

发表于 05-17 08:13

维信诺主导三项柔性显示器件团体标准发布

近日，维信诺昆山公司凭借其深厚的技术积累和行业影响力，主导制定并发布了三项团体标准：T/SOECC 014-2024《柔性显示器件折痕测试方法》、T/SOECC 015-2024《柔性显示器

发表于 03-13 10:37 •950次阅读

中兴通讯荣获GTI Awards 2024三项大奖，展现5G领域硬核实力

近日，在备受瞩目的MWC24巴塞罗那大会上，中兴通讯凭借其卓越的技术创新和应用实力，荣获了三项GTI Awards 2024大奖。这些奖项不仅是对中兴通讯在5G领域的突出贡献的认可，更是对其持续引领行业发展的肯定。

发表于 03-03 15:40 •984次阅读

改进棉花根系图像分割方法

棉花是锦葵科棉属植物，棉花生产的纤维是我国各类衣服、家具布和工业用布的材料，目前我国的棉花产量也非常高，主要以新疆地区为主。根系是植物组成的重要部分，其生长发育至关重要。根系图像分割是根系表型分析

发表于 01-18 16:18 •301次阅读

纳微半导体斩获三项功率器件行业大奖

近日，纳微半导体在第十四届“亚洲电源技术发展william hill官网 ”上大放异彩，不仅展出了多款大小功率的杰出展品，还发表了以电动汽车充电为主题的重磅演讲。更令人瞩目的是，纳微半导体凭借其卓越的技术和产品实力，一举斩获了三项行业重磅大奖！

发表于 01-03 16:01 •617次阅读

搜索历史

三项SOTA！MasQCLIP：开放词汇通用图像分割新网络

评论

纳微半导体荣获2024行家极光奖三项大奖

鸿海荣获2024 IR Magazine三项大奖

苹果iOS 18.2将推三项备忘录AI功能,提升创作效率

图像语义分割的实用性是什么

图像分割和语义分割的区别与联系

图像分割与目标检测的区别是什么

图像分割与语义分割中的CNN模型综述

机器人视觉技术中常见的图像分割方法

机器人视觉技术中图像分割方法有哪些

NB81是否支持OneNet SOTA功能？应该如何激活SOTA？

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，为什么？

维信诺主导三项柔性显示器件团体标准发布

中兴通讯荣获GTI Awards 2024三项大奖，展现5G领域硬核实力

改进棉花根系图像分割方法

纳微半导体斩获三项功率器件行业大奖