【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型—

【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型——Segment Anything Model (SAM)

文章目录

【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型——Segment Anything Model (SAM)
摘要
1. 引言
- 1.1 任务（§2）
- 1.2 模型（§3）
- 1.3 数据引擎（§4）
- 1.4 数据集（§5）
- 1.5 可靠的AI（§6）
- 1.6 实验（§7）
- 1.7 发布

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文：
可访问艾思科蓝官网，浏览即将召开的学术会议列表。会议入口：https://ais.cn/u/mmmiUz

参考链接：https://ai.meta.com/research/publications/segment-anything/

摘要

我们介绍了“Segment Anything (SA)”项目：一个面向图像分割的新任务、模型和数据集。通过使用高效模型进行数据采集，我们构建了迄今为止规模最大的分割数据集，包含超过10亿个掩码，基于1100万张经过授权且尊重隐私的图像。该模型经过设计和训练，可以根据提示进行分割，从而能够零样本适应新的图像分布和任务。我们在多个任务上评估了该模型的性能，发现其零样本表现非常出色——往往与之前的全监督方法相媲美，甚至优于它们。我们将在https://segment-anything.com上发布Segment Anything模型(SAM)和相应的数据集(SA-1B)，其中包含1B个掩码和1100万张图像，以促进对计算机视觉基础模型的研究。

1. 引言

在自然语言处理（NLP）领域，通过对大规模网页数据集进行预训练的语言模型正引发革命性变化，其具备强大的零样本和少样本泛化能力【10】。这些被称为“基础模型”【8】的模型能够泛化至训练中未见的任务和数据分布。通常，这种能力通过提示工程实现，即通过人工设计的文本提示，引导语言模型生成符合任务需求的文本响应。当结合大规模的网络文本语料进行训练时，这些模型的零样本和少样本性能令人惊讶地与经过微调的模型相媲美，甚至在某些情况下达到相同水平【10, 21】。研究表明，随着模型规模、数据集大小和总训练计算量的增加，这种表现趋势会持续提升【56, 10, 21, 51】。

基础模型也在计算机视觉领域得到了一定的探索，尽管程度较小。其中最为突出的是通过对从网络中获取的文本和图像进行对齐。例如，CLIP【82】和ALIGN【55】通过对比学习训练文本和图像编码器，使两种模态相互对齐。经过训练后，通过设计文本提示可以实现对新视觉概念和数据分布的零样本泛化。此外，这类编码器还能够与其他模块有效组合，用于下游任务，如图像生成（例如，DALL·E【83】）。尽管在视觉和语言编码器方面取得了显著进展，计算机视觉问题范围广泛，许多问题仍缺乏充足的训练数据。

本研究的目标是构建一个用于图像分割的基础模型，即开发一个提示式模型，并通过在广泛的数据集上进行预训练，使其具备强大的泛化能力。通过这个模型，我们旨在利用提示工程解决新数据分布上的各种下游分割问题。

该计划的成功依赖于三大要素：任务、模型和数据。为此，我们围绕图像分割提出了以下关键问题：

哪种任务能够实现零样本泛化？
相应的模型架构是什么？
哪些数据可以支持这个任务和模型的发展？

这些问题相互交织，需要一个综合的解决方案。我们首先定义了一个可提示的分割任务，该任务具有足够的通用性，能够作为强大的预训练目标，并支持广泛的下游应用。这个任务要求模型支持灵活的提示操作，并在提示后实时输出分割掩膜，以实现交互式应用。为了训练模型，我们需要一个多样化且大规模的数据源。遗憾的是，目前没有用于分割任务的网页级数据源；为了解决这一问题，我们构建了一个“数据引擎”，通过迭代循环使用高效模型来辅助数据收集，并利用新收集的数据进一步提升模型性能。接下来，我们将介绍每个相互关联的组件，随后是我们创建的数据集以及实验结果，证明了我们方法的有效性。
在这里插入图片描述

1.1 任务（§2）

在自然语言处理（NLP）和最近的计算机视觉领域，基础模型展现出了在新数据集和任务上进行零样本和少样本学习的潜力，这通常通过“提示”技术来实现。受到这些工作的启发，我们提出了可提示的分割任务，其目标是在给定任何分割提示的情况下返回一个有效的分割掩膜（见图1a）。提示用于指定图像中需要分割的对象，例如提示可以包含空间或文本信息来标识某个物体。有效掩膜的要求意味着即使提示不明确，可能指代多个对象（例如，一个点可能表示衬衫或穿着它的人），输出的掩膜也应对其中至少一个对象合理。我们将可提示分割任务同时作为预训练目标，并通过提示工程来解决通用的下游分割任务。

1.2 模型（§3）

可提示的分割任务以及现实世界应用的目标对模型架构提出了约束。具体而言，模型必须支持灵活的提示操作，能够以分摊的实时方式计算掩膜，以支持交互式使用，并且需要具备处理歧义的能力。令人惊讶的是，我们发现一个简单的设计能够满足这三个约束条件：一个强大的图像编码器负责计算图像嵌入，一个提示编码器负责编码提示信息，随后将这两类信息在一个轻量级的掩膜解码器中结合，用以预测分割掩膜。我们将这一模型称为“Segment Anything Model”（SAM，见图1b）。通过将SAM分为图像编码器和快速提示编码器/掩膜解码器，不同的提示可以复用相同的图像嵌入，从而分摊计算成本。在给定图像嵌入的情况下，提示编码器和掩膜解码器能够在网络浏览器中以约50毫秒的速度根据提示预测出一个分割掩膜。我们主要聚焦于点、框和掩膜提示，同时还展示了初步的自由文本提示结果。为了让SAM具备处理歧义的能力，我们设计了其能够为单一提示预测多个掩膜，这样SAM可以自然地处理歧义问题，例如衬衫与人的示例。

1.3 数据引擎（§4）

为了实现对新数据分布的强泛化能力，我们发现有必要让SAM在一个庞大且多样化的掩膜数据集上进行训练，远超现有的任何分割数据集。尽管典型的基础模型往往依赖于在线获取数据【82】，但掩膜数据并不自然丰富，因此我们需要另辟蹊径。我们的解决方案是构建一个“数据引擎”，即通过模型循环参与的数据集标注方式共同开发模型（见图1c）。**数据引擎分为三个阶段：人工辅助、半自动和全自动。**在第一阶段，SAM辅助标注者进行掩膜标注，类似于经典的交互式分割设置。在第二阶段，通过提示可能的目标位置，SAM自动生成部分对象的掩膜，而标注者则专注于标注剩余的对象，从而增加掩膜的多样性。在最后阶段，我们通过前景点的规则网格提示SAM，平均每张图像生成约100个高质量的掩膜。

1.4 数据集（§5）

我们最终的数据集SA-1B包含超过10亿个掩膜，来自1100万张经过授权和隐私保护的图像（见图2）。SA-1B完全通过数据引擎的最终阶段自动采集，拥有现有分割数据集的400倍掩膜数量【66, 44, 117, 60】，并且经过我们广泛验证，掩膜具有高质量和多样性。除了用于训练一个稳健且广泛的SAM，我们还希望SA-1B能够成为构建新型基础模型的宝贵研究资源。

1.5 可靠的AI（§6）

我们研究并报告了使用SA-1B和SAM时潜在的公平性问题和偏差。SA-1B中的图像覆盖了地理和经济多样性较大的国家，我们发现SAM在不同人群中表现类似。我们希望这能让我们的工作在现实应用中更加公平。我们在附录中提供了模型和数据集的说明。

1.6 实验（§7）

我们对SAM进行了广泛评估。**首先，使用23个多样化的新分割数据集，我们发现SAM通过单个前景点生成的掩膜质量高，通常仅略低于手动标注的真实值。其次，在零样本迁移协议下，我们通过提示工程，在各种下游任务（如边缘检测、目标提议生成、实例分割和文本到掩膜的初步探索）中获得了一致的强定量和定性结果。**这些结果表明，SAM可以通过提示工程开箱即用，解决超出其训练数据的各种对象和图像分布任务。然而，仍有改进空间，详见§8。

1.7 发布

我们将SA-1B数据集公开用于研究目的，并通过宽松的开源许可协议（Apache 2.0）提供SAM模型，下载地址为：https://segment-anything.com。同时，我们还通过在线演示展示了SAM的功能。
在这里插入图片描述
欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！