5月28日,北京智源人工智能研究院在2023年中关村william hill官网 并行william hill官网 之一的人工智能大规模模型发展william hill官网 上发布了通用分割模型seggpt (segment everything in contex)。这是一种利用prompt(视觉提示)完成任意分割工作的通用视觉模型。
seggpt是一个基于支持通用视觉模型painter的模型,它优化了所有物体的分割。seggpt具有上下文推理功能,即使没有细微的调整,只要提供示例,就可以自动进行推理和相应的分割工作。示例包括示例、类、部件、轮廓、文本、面部、医疗图像等。它灵活的推论能力足以提供许多视觉线索。自动视频分割和追踪功能:seggpt以第一个框架的图片和对象屏蔽为上下文单位,可以自动分割下一个视频框架,并使用屏蔽颜色作为对象id自动追踪。
seggpt与推出ai图像分割基础模型sam的meta不同,sam使用的是通过一个点或边框相互提示预测图像,识别分割画面上的特定物体的“one touch touch”方式。seggpt通过提示一个或多个示例图像和意图面具来掌握用户的意图,并根据意图进行分割等操作。只要用户在画面上表示识别一种物体,无论是现在的画面还是其他画面,都可以定量地识别和分割同类物体。
“一触即通”或“一通百通”意味着视觉模型理解了形象结构。sam的精细脚注功能与seggpt的通用分割脚注功能相结合,可以在像素排列中分析任何图像,以像生物视觉一样理解任何场景。
全部0条评论
快来发表一下你的评论吧 !