「悟道·视界」视觉大模型系列，6项领先成果技术详解-电子发烧友网

日前，智源「悟道·视界」通用视觉大模型系列，带来计算机视觉多任务处理能力方面的6项国际领先技术，迎接通用视觉智能曙光降临，包括：

在多模态序列中补全一切的多模态大模型Emu

最强十亿级视觉基础模型EVA

一通百通、分割一切的视界通用分割模型

首创上下文图像学习技术路径的通用视觉模型Painter

性能最强开源CLIP模型 EVA-CLIP

简单prompt（提示）即可视频编辑的 vid2vid-zero 零样本视频编辑技术

“悟道·视界”

通用视觉大模型系列开源地址：

EVA代码和论文

Github 项目地址

https://github.com/baaivision/EVA

论文地址

https://arxiv.org/abs/2211.07636

EVA-CLIP代码和论文

Github 项目地址

https://github.com/baaivision/EVA/tree/master/EVA-CLIP

论文地址

https://arxiv.org/abs/2303.15389

Painter代码和论文

Github 项目地址

https://github.com/baaivision/Painter

论文地址

https://arxiv.org/abs/2212.02499

「视界通用分割模型」代码和论文

Github 项目地址

https://github.com/baaivision/Painter

论文地址

https://arxiv.org/abs/2304.03284

Demo 地址

https://huggingface.co/spaces/BAAI/SegGPT

vid2vid-zero代码和论文

Github 项目地址

https://github.com/baaivision/vid2vid-zero

论文链接

https://arxiv.org/abs/2303.17599

Demo 地址

https://huggingface.co/spaces/BAAI/vid2vid-zero

Emu：在多模态序列中补全一切的多模态大模型

多模态输入，多模态输出。

Emu作为业界首个多模态-to-多模态的多模态大模型，可以接受和处理不同模态的数据，并输出想要的多模态类别。

基于多模态上下文学习技术路径，从图文、交错图文、交错视频文本等海量多模态序列中学习。训练完成后，Emu能在多模态序列的上下文中补全一切，对图像、文本和视频等多种模态的数据进行感知、推理和生成，实现多轮图文对话、视频理解、精准图像认知、文图生成、多模态上下文学习、视频问答和图图生成等多模态能力。

在零样本COCO图像描述性能方面，Emu超越Flagmingo-80B，取得109分。相比其他多模态模型，可以准确识别出莫奈的日出印象；可以完成少样本图文理解，以两个图文对为例，可自动完成对应任务；还可根据图片或视频进行问答和多轮对话。

在生成能力方面，可以根据任意长度文本生成图像；在图图生成方面，可以自动推理生成新的图片；在多模态上下文生成方面，可以根据文本-图片作为prompt，生成融合了上下文的新图片。

EVA：最强十亿级视觉基础模型

通用性是大模型能力的重要指标，亦是研究难点所在。如何让通用视觉模型，在更高效的同时更简单？语义学习和几何结构学习是解决视觉问题的两大关键点。

将最强十亿级视觉基础模型 EVA 正是将最强语义学习（CLIP）与最强几何结构学习（MIM）结合，再将标准的 ViT 模型扩大规模至 10 亿参数进行训练，一举在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当时最强性能。

视觉预训练模型EVA的命名来源于论文标题“Exploring the Limits of Masked Visual Representation Learning at Scale”相关字母的简化，意为探索遮蔽视觉表征学习的极限。

EVA模型把以“视觉为中心”作为建模思想，将语义学习（CLIP）与几何结构学习（MIM）结合，仅使用标准的 ViT 模型，并将其规模扩大到十亿参数（1-Billion）进行训练。

模型训练方法是使用图像-文本对齐（即CLIP）的视觉特征作为MIM的预测目标，模型设计思路有两个特点：

高效，EVA仅使用开源的纯图像数据即可进行掩码预测任务，不需要预训练阶段重新学习语义以及不需要巨量的成对有标注数据。相比而言，主流标杆性模型（ViT-g、SwinV2、CoCa等）仍依赖于冗长的有监督或弱监督训练，以及不可公开访问的数亿级有标签数据。

简单，EVA不需要特殊设计网络结构。使用简单的网络结构—标准的ViT-g，而无需额外特殊设计的算子，使得其非常容易的迁移到广泛的下游任务，并且可以和其他模态共享。

经过实验，模型在ImageNet分类、COCO检测分割、Kinetics视频分类等广泛的视觉感知任务中取得当前最强性能。

如上图，ImageNet图像分类中取得89.7%的top-1准确率；Kinetics-700视频动作识别取得82.9%的top-1准确率；COCO目标检测取得64.7 mAP、实例分割取得55.5 mAP；LVIS的实例分割取得55.0 mAP；语义分割的COCO-stuff取得53.4 mIoU、ADE-20K取得62.3 mIoU。

Painter通用视觉模型：首创「上下文视觉学习」技术路径

图像理解图像、图像解释图像，图像输出图像。将NLP中的上下文学习概念引入视觉模型，是智源对通用智能的新探索。

通用视觉模型 Painter , 将“以视觉为中心”作为建模核心思想，将图像作为输入和输出，从而获得上下文视觉信息，完成不同的视觉任务。

通用视觉模型Painter的设计思路是将大多数视觉任务看成”图像修复问题“，即给定输入（“缺失”）图像，预测输出是“修复“过的图像。这保持了像素之间的空间关系，确保每个输出图像的像素仍然代表相关任务的输出。

Painter的建模要素可以归纳为三部分：输入、架构以及损失函数。

输入为图像。任务输入和输出都是图像，会随机遮蔽任务输出图像，并训练模型重构缺失（被遮蔽掉）的像素。研究人员发现，遮蔽比例为75%效果最好。

损失函数采用简单的回归损失。研究人员发现，Smooth l1 损失能帮助模型取得最好的性能。

架构采用基本的ViT（vision Transformer）作为编码器。具体来说，神经网络头部（head）由两个线性层（每个是1×1卷积），一个3×3卷积层组成。

模型目前可完成 7 种主流视觉任务，已经在深度估计、语义分割等核心视觉任务中性能“大幅超越同类”，相比同类模型具有 11%~25% 的性能提升，超过了图灵奖得主 Geoffrey Hinton 团队的 Pix2Seqv2，艾伦AI研究所的视觉通用模型 Unified-IO 和谷歌的 UViM。

「视界」通用分割模型：一通百通，分割一切

「视界通用分割模型」基于通用模型Painter开发，是首个利用视觉提示（prompt）完成任意分割任务的通用视觉模型，一通百通、分割一切。

从影像中分割出各种各样的对象，是视觉智能的关键里程碑。今年年初，智源视界分割模型与Meta 的 SAM 模型同时发布，点亮通用视觉曙光。

它将分割任务视为一种通用的视觉感知格式，即通过将它们转化为图像的相同格式来适应不同种类的分割数据；同时，模型训练被构造为一个在上下文中的着色问题，即目标是只根据上下文，来着色相应的区域，而不是依赖特定的颜色，这使得模型更灵活和可泛化。

总的来说「视界通用分割模型」在基础模型Painter做了三点主要创新：

1.上下文随机着色方法。首先随机采样与输入图像“相似”的图像，然后从目标图像中随机抽取一组颜色，并将每种颜色映射到一个随机颜色，如此可得到两对图像，被定义为上下文对。从而打破了原始图像中的颜色关联，迫使模型“放弃”颜色信息依赖，更多依赖依赖上下文信息。

2.上下文集成方法。两种集成方案：空间集成，将多个示例图像拼接在一起，并将它们调整到与单个示例相同的大小；特征集成，将多个示例在批处理维度上进行组合，并独立计算。两种集成方式让模型可以使用多个示例，从而提供更准确和具体的上下文信息。

3.上下文微调方法。冻结整个模型，并初始化一个可学习的图像张量作为输入上下文。在训练过程中，只有这个可学习的图像张量会被更新，其他的训练过程保持不变。从而能以灵活的方式适应特定的任务或数据集。

以上技术让「视界通用分割模型」具备输入任意数量的prompt，以及对特定场景优化专用prompt的能力。即「视界通用分割模型」解锁了上下文推理能力，训练完成后无需微调，只需提供示例即可自动推理并完成对应分割任务。

实验结果也显示了模型强大的能力。例如模型只需少数 prompt 示例，在 COCO 和 PASCAL 数据集上取得最优性能；模型的零样本场景迁移实验中，模型在少样本语义分割测试集 FSS-1000 上，在无需训练的情况下取得最佳性能；另外，无需视频训练数据，模型可直接进行视频物体分割，并取得和专门优化的模型相当的性能。

EVA-CLIP：性能最强开源CLIP模型

零样本学习是指仅通过描述让AI“认出”未见过的物体，是评价模型泛化能力的重要指标。多模态预训练模型CLIP 作为零样本学习基础模型，广受业界认可。

智源视觉团队于2023年初发布的 EVA-CLIP 5B 版本，创造了零样本学习性能新高度：超越此前最强的 OpenCLIP 模型，在 ImageNet1K 零样本 top1 达到最高的 82.0% 准确率。

而去年发布的 EVA-CLIP 1B 版本，今年才被 Meta 发布的 DINOv2 模型追平 ImageNet kNN准确率指标。

EVA-CLIP是一系列模型的总称，集成了当前新兴的几种模型训练技术，包括用EVA预训练模型进行初始化，用LAMB优化器加速模型，用FLIP技术节省训练时间等等。具体而言，模型有两种集成思路：

1.EVA预训练 + LAMB优化器让CLIP模型表现更加强大。

视觉预训练模型 EVA 能将语义学习（CLIP）与几何结构学习（MIM）结合，在标准模型基础上，将规模扩大到十亿参数（1-Billion）进行训练。EVA 模型的输入为有遮盖的图像，但遮盖部分能重构 CLIP 模型对应位置，从而获得高效、简单的可泛化模型。

LAMB优化器专门面向大批量（batch）训练，考虑到它自适应的学习率和动量参数设置的优势，为避免泛化差距难题，研究员认为LAMB优化器比Adam、RMSprop更适合训练大规模CLIP模型。

2，FlashAttention机制+ FLIP加速让CLIP模型训练更迅速。

FlashAttention算法可以在执行更少的内存/访问的基础之上，在加速和节省内存的基础上计算精确注意力。研究员使用该机制训练CLIP时可以提升15%-30%的训练速度。

FLIP旨在通过简单的图像掩蔽提升CLIP的训练速度，带来性能提升。实践中，研究员随机掩蔽了50%的图像标签，减少一半的时间复杂度。

实验结果表现，50亿参数量的EVA-CLIP模型，零样本分类和检索的性能全面提升。在ImageNet1K零样本top1 准确率达到了82.0%，高于此前最佳OpenCLIP的80%；在 MS COCO 上实现了75.0% 的zero-shot图像检索（Recall@5）。

同时，EVA-CLIP兼顾了泛化能力和鲁棒性。例如EVA-CLIP与27个零样本图像分类基准的对比，效果最好的EVA-CLIP达到了平均77.5的Top-1准确率，模型泛化能力业界领先。EVA-02-CLIP-E/14+在ImageNet系列和ObjectNet的所有6个基准测试中获得了平均80.9%的准确率，这充分证实了鲁棒性。

vid2vid-zero：简单prompt（提示）即可视频编辑的零样本视频编辑方法

现有文本驱动的 AIGC 视频编辑方法严重依赖于在大量「文本-视频」数据上调整预训练好的视频扩散模型，需要庞大的计算资源，带来了高昂的人工数据标注成本和计算成本。

智源研究院提出了零样本视频编辑方法「vid2vid-zero」，首次在无需额外视频训练的情况下，利用注意力机制动态运算的特点，结合现有图像扩散模型，实现可指定属性的视频编辑。

这里用两组视频展示了模型的有效性。我们介绍第一组：输入文本“a man is running”。

加入指令：动漫风格。输出结果可以很好的将人物转换成动漫，展示了模型风格编辑能力。

加入指令：一位老人在海滩。输出结果说明模型的属性编辑和背景编辑能力已经过关。

此外，论文中公布了更多的视频案例，更多模型能力，请访问论文。

用户根据「视频质量」、「文本与视频的对齐程度」、「对原始视频的保真度」在 32 段视频上对 vid2vid-zero、TAV、PnP 模型的性能进行了比较。实验结果表明，vid2vid-zero 在上述三项指标上都具有显著优势。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

大模型

大模型

+关注

关注
2

文章
2442

浏览量
2683

CET中电技术电能质量相关科技成果获国际领先、国际先进认定

听取CET中电技术项目总结汇报，经质询、答疑、讨论后一致认为，该项科技成果整体达到国际先进水平，在超高次谐波的同步监测及其在故障诊断中的应用达到国际领先水平，一致同意

发表于 11-30 01:07 •228次阅读

CET中电<b class='flag-5'>技术</b>电能质量相关科技<b class='flag-5'>成果</b>获国际<b class='flag-5'>领先</b>、国际先进认定

阿里通义千问代码模型全系列开源

近日，阿里云通义大模型团队宣布了一项重大决策：将通义千问代码模型全系列正式开源。此次开源的模型系列

发表于 11-14 15:26 •338次阅读

高清视界，尽在掌握——深度解析变焦机芯模组技术

随着科技的飞速发展，变焦机芯模组技术作为影像领域的核心技术之一，正以前所未有的速度改变着我们的视觉体验。这项技术不仅提升了影像的清晰度和动态范围，还极大地丰富了拍摄和观察的方式，让高清

发表于 09-10 15:59 •414次阅读

通义千问发布第二代视觉语言模型Qwen2-VL

阿里巴巴旗下的通义千问近日宣布，其第二代视觉语言模型Qwen2-VL正式问世，并宣布旗舰模型Qwen2-VL-72B的API已顺利接入阿里云百炼平台，标志着这一创新技术成果正式对外开放

发表于 09-03 16:31 •576次阅读

计算机视觉技术的AI算法模型

计算机视觉技术作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像及视频中的信息。为了实现这一目标，计算机视觉技术依赖于多种先进的AI算法

发表于 07-24 12:46 •825次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

本帖最后由 jf_40317719 于 2024-6-18 17:39 编辑视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语

发表于 06-18 17:33

COMPUTEX 2024 | 天马邀您开启视界新篇章

解决方案亮相展会。通过展示一系列具备卓越显示效果的产品与技术，让客户更加深入地体验到天马显示科技带来的无限可能。 IT显示优能护眼全面升级健康护眼显示，守护您的双眼随着“读屏时代”的到来，人们

发表于 06-05 10:59

智芯公司10项QC成果获奖

项QC成果分别获得一等奖（领先级）和二等奖（示范级）各1项，刷新了智芯公司QC成果年度一等奖获奖数量新纪录！获奖证书近年来，QC小组活动

发表于 05-27 18:58 •814次阅读

【大语言模型：原理与工程实践】大语言模型的基础技术

全面剖析大语言模型的核心技术与基础知识。首先，概述自然语言的基本表示，这是理解大语言模型技术的前提。接着，详细介绍自然语言处理预训练的经典结构Transformer，以及其工作原理，

发表于 05-05 12:17

广汽科技全固态电池与无图纯视觉智驾引领智电新时代

4月12日，以“科技视界”为主题的2024广汽科技日（GAC TECH DAY 2024）活动在广州举办。本次科技日聚焦智电前沿技术，推出了国内领先的无图纯视觉智驾系统，以及实现关键

发表于 04-15 10:01 •667次阅读

华润微电子两项产品入选中央企业科技创新成果产品手册

华润微“SiC JBS器件及系列化产品”“SiC MOSFET器件及系列化产品”两项成果入选电子元器件领域科技创新成果

发表于 04-14 09:43 •590次阅读

智芯公司3项专利成果获评第二届能源行业高价值专利（技术）成果

3月21日，中国能源研究会公布2023年第二届能源行业高价值专利及技术成果转化典型案例评选结果，智芯公司共3项专利技术成果成功获评，其中核心型高价值专利（技术）

发表于 03-25 14:04 •813次阅读

Anthropic领先模型Claude 3系列将基于Amazon Bedrock提供服务

亚马逊云科技（Amazon Web Services）近日宣布，将与致力于AI安全和研究的公司Anthropic展开合作，将其领先的Claude 3系列模型基于Amazon Bedrock平台提供

发表于 03-11 10:56 •520次阅读

全球领先微波光子芯片问世，应用广泛

显眼的是，这项研究成果带头开创了全新的研究领域——铌酸锂微波光子学。在这项领域中，微波光子芯片体积更为微小，具备更高的信号真实性和平滑的延迟特性。

发表于 03-07 14:10 •909次阅读

机器视觉缺陷检测是工业自动化领域的一项关键技术

机器视觉缺陷检测是工业自动化领域的一项关键技术，

发表于 02-22 13:59 •530次阅读