共计 3289 个字符,预计需要花费 9 分钟才能阅读完成。
Meta「分割一切」模型新突破:检测、分割、生成三合一
Meta 的 SAM「分割一切」模型一经发布,便引起了广泛关注。紧接着,国内团队在此基础上进行创新,打造出了 Grounded-SAM 这一强大的零样本视觉应用。它不仅能够实现分割一切,还具备检测一切和生成一切的能力。
当 Meta 的「分割一切」模型出现后,在业内引发了巨大轰动,甚至有人惊呼 CV 领域迎来了 GPT- 3 时刻。就在 SAM 发布后的第二天,国内团队就推出了其进化版本「Grounded-SAM」。
Grounded-SAM 将 SAM 与 BLIP、Stable Diffusion 进行集成,把图片的「分割」「检测」和「生成」三种能力融合在一起,成为了最强的 Zero-Shot 视觉应用。众多网友纷纷感叹,如今的竞争实在是太激烈了!谷歌大脑的研究科学家、滑铁卢大学计算机科学助理教授 Wenhu Chen 也表示「这也太快了」。AI 大佬沈向洋也向大家推荐了这一最新项目,并评价 Grounded-Segment-Anything 能够自动检测、分割和生成任何有图像和文本输入的东西,同时指出边缘分割还有进一步改进的空间。截至目前,这个项目在 GitHub 上已经获得了 2k 星,可见其受欢迎程度。
上周,SAM 的发布给 CV 领域带来了重大影响。Meta AI 宣称这是史上首个图像分割基础模型。该模型能够在统一的框架 prompt encoder 内,通过指定一个点、一个边界框或者一句话,直接一键分割出任何物体。SAM 具有广泛的通用性,拥有零样本迁移的能力,可以涵盖各种用例,无需额外训练,就能直接应用于新的图像领域,无论是水下照片还是细胞显微镜图像等。
国内研究者基于 SAM 模型想出了新的创意,将强大的零样本目标检测器 Grounding DINO 与之相结合,这样就能通过文本输入实现检测和分割一切。借助 Grounding DINO 强大的零样本检测能力,Grounded SAM 可以依据文本描述找到图片中的任意物体,再利用 SAM 强大的分割能力,进行细粒度的分割。最后,还能借助 Stable Diffusion 对分割出来的区域进行可控的文图生成。
在 Grounded-SAM 的具体实践中,研究者将 Segment-Anything 与 3 个强大的零样本模型相结合,构建了一个自动标注系统的流程,并取得了令人瞩目的成果。这一项目结合了 BLIP(强大的图像标注模型)、Grounding DINO(最先进的零样本检测器)、Segment-Anything(强大的零样本分割模型)以及 Stable-Diffusion(出色的生成模型)。所有这些模型既可以组合使用,也能够独立使用,从而组建出强大的视觉工作流模型,使整个工作流具备了检测一切、分割一切、生成一切的能力。
该系统具有多种功能。比如,BLIP+Grounded-SAM 可组成自动标注器,利用 BLIP 模型生成标题、提取标签,并通过 Ground-SAM 生成框和掩码。其中包括半自动标注系统,能够检测输入的文本,并提供精确的框标注和掩码标注;还有全自动标注系统,首先使用 BLIP 模型为输入图像生成可靠的标注,接着让 Grounding DINO 检测标注中的实体,然后使用 SAM 在其框提示上进行实例分割。Stable Diffusion+Grounded-SAM 可作为数据工厂,用作数据工厂生成新数据,能够使用扩散修复模型根据掩码生成新数据。Segment Anything+HumanEditing 分支中,作者使用 Segment Anything 来编辑人的头发 / 面部,包括 SAM+ 头发编辑以及 SAM+ 时尚编辑等。
作者还针对 Grounded-SAM 模型提出了一些未来可能的研究方向。例如自动生成图像以构建新的数据集;分割预训练的更强大的基础模型;与 (Chat-)GPT 模型展开合作;构建一个完整的管道,用于自动标注图像(包括边界框和掩码),并生成新图像。
Grounded-SAM 项目的一位研究者是清华大学计算机系的三年级博士生刘世隆。他近日在 GitHub 上介绍了自己和团队共同完成的最新项目,并表示目前仍在完善中。现在,刘世隆是粤港澳大湾区数字经济研究院(IDEA 研究院),计算机视觉与机器人研究中心的实习生,由张磊教授指导,主要研究方向为目标检测、多模态学习。在此之前,他于 2020 年获得了清华大学工业工程系的学士学位,并于 2019 年在旷视实习过一段时间。他的个人主页是 http://www.lsl.zone/。顺便提一下,刘世隆也是今年 3 月份发布的目标检测模型 Grounding DINO 的一作。此外,他还有 4 篇论文被 CVPR 2023 收录,2 篇论文被 ICLR 2023 接收,1 篇论文被 AAAI 2023 接收。
而刘世隆提到的任天和,目前在 IDEA 研究院担任计算机视觉算法工程师,同样由张磊教授指导,主要研究方向为目标检测和多模态。项目的合作者还包括中国科学院大学博士三年级学生黎昆昌,其主要研究方向为视频理解和多模态学习;IDEA 研究院计算机视觉与机器人研究中心实习生曹赫,主要研究方向为生成模型;以及阿里云高级算法工程师陈佳禹。
项目安装运行需要 python 3.8 及以上版本,pytorch 1.7 及以上版本和 torchvision 0.8 及以上版本。此外,作者强烈建议安装支持 CUDA 的 PyTorch 和 TorchVision。安装 Segment Anything 的命令是 python -m pip install -e segment_anything;安装 GroundingDINO 的命令是 python -m pip install -e GroundingDINO;安装 diffusers 的命令是 pip install –upgrade diffusers[torch]。同时,还需要安装掩码后处理、以 COCO 格式保存掩码、example notebook 和以 ONNX 格式导出模型所需的可选依赖,项目运行还需要 jupyter 来运行 example notebook,相关命令是 pip install opencv-python pycocotools matplotlib onnxruntime onnx ipykernel。
关于 Grounding DINO 演示,下载 groundingdino 检查点的步骤为:先进入 Grounded-Segment-Anything 目录,然后执行 wget https://github.com/IDEA-Research/GroundedDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth 命令。运行 demo 后,模型预测可视化将保存在 output_dir 中。
Grounded-Segment-Anything+BLIP 演示中,自动生成伪标签的操作如下:首先使用 BLIP(或其他标注模型)来生成一个标注,接着从标注中提取标签,并使用 ChatGPT 来处理潜在的复杂句子,最后使用 Grounded-Segment-Anything 来生成框和掩码。伪标签和模型预测可视化将保存在 output_dir 中。
Grounded-Segment-Anything+Inpainting 演示中,运行 Grounded-Segment-Anything+Inpainting Gradio APP 的命令是 python gradio_app.py。作者还提供了可视化网页,方便用户尝试各种例子。
对于这个项目的 logo,还有着深层含义。它是一只坐在地上的马赛克风格的熊。坐在地面上是因为 ground 有地面的意思,分割后的图片可看作是一种马赛克风格,而且马塞克谐音 mask,之所以用熊作为 logo 主体,是因为作者主要示例的图片是熊。
看到 Grounded-SAM 后,网友表示,虽然知道会有新进展,但没想到来得这么快。项目作者任天和称,「我们用的 Zero-Shot 检测器是目前来说最好的。」未来,还会有 web demo 上线。最后,作者表示,这个项目未来还可以基于生成模型做更多的拓展应用,比如多领域精细化编辑、高质量可信的数据工厂的构建等等。