【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型——Segment Anything Model (SAM)

【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型——Segment Anything Model (SAM)

【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型——Segment Anything Model (SAM)


文章目录

  • 【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型——Segment Anything Model (SAM)
  • 摘要
  • 1. 引言
    • 1.1 任务(§2)
    • 1.2 模型(§3)
    • 1.3 数据引擎(§4)
    • 1.4 数据集(§5)
    • 1.5 可靠的AI(§6)
    • 1.6 实验(§7)
    • 1.7 发布


欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

参考链接:https://ai.meta.com/research/publications/segment-anything/

摘要

我们介绍了“Segment Anything (SA)”项目:一个面向图像分割的新任务、模型和数据集。通过使用高效模型进行数据采集,我们构建了迄今为止规模最大的分割数据集,包含超过10亿个掩码,基于1100万张经过授权且尊重隐私的图像。该模型经过设计和训练,可以根据提示进行分割,从而能够零样本适应新的图像分布和任务。我们在多个任务上评估了该模型的性能,发现其零样本表现非常出色——往往与之前的全监督方法相媲美,甚至优于它们。我们将在https://segment-anything.com上发布Segment Anything模型(SAM)和相应的数据集(SA-1B),其中包含1B个掩码和1100万张图像,以促进对计算机视觉基础模型的研究。

1. 引言

在自然语言处理(NLP)领域,通过对大规模网页数据集进行预训练的语言模型正引发革命性变化,其具备强大的零样本和少样本泛化能力【10】。这些被称为“基础模型”【8】的模型能够泛化至训练中未见的任务和数据分布。通常,这种能力通过提示工程实现,即通过人工设计的文本提示,引导语言模型生成符合任务需求的文本响应。当结合大规模的网络文本语料进行训练时,这些模型的零样本和少样本性能令人惊讶地与经过微调的模型相媲美,甚至在某些情况下达到相同水平【10, 21】。研究表明,随着模型规模、数据集大小和总训练计算量的增加,这种表现趋势会持续提升【56, 10, 21, 51】。

基础模型也在计算机视觉领域得到了一定的探索,尽管程度较小。其中最为突出的是通过对从网络中获取的文本和图像进行对齐。例如,CLIP【82】和ALIGN【55】通过对比学习训练文本和图像编码器,使两种模态相互对齐。经过训练后,通过设计文本提示可以实现对新视觉概念和数据分布的零样本泛化。此外,这类编码器还能够与其他模块有效组合,用于下游任务,如图像生成(例如,DALL·E【83】)。尽管在视觉和语言编码器方面取得了显著进展,计算机视觉问题范围广泛,许多问题仍缺乏充足的训练数据

本研究的目标是构建一个用于图像分割的基础模型,即开发一个提示式模型,并通过在广泛的数据集上进行预训练,使其具备强大的泛化能力。通过这个模型,我们旨在利用提示工程解决新数据分布上的各种下游分割问题

该计划的成功依赖于三大要素:任务、模型和数据。为此,我们围绕图像分割提出了以下关键问题:

  • 哪种任务能够实现零样本泛化?
  • 相应的模型架构是什么?
  • 哪些数据可以支持这个任务和模型的发展?

这些问题相互交织,需要一个综合的解决方案。我们首先定义了一个可提示的分割任务,该任务具有足够的通用性,能够作为强大的预训练目标,并支持广泛的下游应用。这个任务要求模型支持灵活的提示操作,并在提示后实时输出分割掩膜,以实现交互式应用。为了训练模型,我们需要一个多样化且大规模的数据源。遗憾的是,目前没有用于分割任务的网页级数据源;为了解决这一问题,我们构建了一个“数据引擎”,通过迭代循环使用高效模型来辅助数据收集,并利用新收集的数据进一步提升模型性能。接下来,我们将介绍每个相互关联的组件,随后是我们创建的数据集以及实验结果,证明了我们方法的有效性
在这里插入图片描述

1.1 任务(§2)

在自然语言处理(NLP)和最近的计算机视觉领域,基础模型展现出了在新数据集和任务上进行零样本和少样本学习的潜力,这通常通过“提示”技术来实现。受到这些工作的启发,我们提出了可提示的分割任务,其目标是在给定任何分割提示的情况下返回一个有效的分割掩膜(见图1a)。提示用于指定图像中需要分割的对象,例如提示可以包含空间或文本信息来标识某个物体。有效掩膜的要求意味着即使提示不明确,可能指代多个对象(例如,一个点可能表示衬衫或穿着它的人),输出的掩膜也应对其中至少一个对象合理。我们将可提示分割任务同时作为预训练目标,并通过提示工程来解决通用的下游分割任务。

1.2 模型(§3)

可提示的分割任务以及现实世界应用的目标对模型架构提出了约束。具体而言,模型必须支持灵活的提示操作,能够以分摊的实时方式计算掩膜,以支持交互式使用,并且需要具备处理歧义的能力。令人惊讶的是,我们发现一个简单的设计能够满足这三个约束条件:一个强大的图像编码器负责计算图像嵌入,一个提示编码器负责编码提示信息,随后将这两类信息在一个轻量级的掩膜解码器中结合,用以预测分割掩膜。我们将这一模型称为“Segment Anything Model”(SAM,见图1b)。通过将SAM分为图像编码器和快速提示编码器/掩膜解码器,不同的提示可以复用相同的图像嵌入,从而分摊计算成本。在给定图像嵌入的情况下,提示编码器和掩膜解码器能够在网络浏览器中以约50毫秒的速度根据提示预测出一个分割掩膜。我们主要聚焦于点、框和掩膜提示,同时还展示了初步的自由文本提示结果。为了让SAM具备处理歧义的能力,我们设计了其能够为单一提示预测多个掩膜,这样SAM可以自然地处理歧义问题,例如衬衫与人的示例。

1.3 数据引擎(§4)

为了实现对新数据分布的强泛化能力,我们发现有必要让SAM在一个庞大且多样化的掩膜数据集上进行训练,远超现有的任何分割数据集。尽管典型的基础模型往往依赖于在线获取数据【82】,但掩膜数据并不自然丰富,因此我们需要另辟蹊径。我们的解决方案是构建一个“数据引擎”,即通过模型循环参与的数据集标注方式共同开发模型(见图1c)。**数据引擎分为三个阶段:人工辅助、半自动和全自动。**在第一阶段,SAM辅助标注者进行掩膜标注,类似于经典的交互式分割设置。在第二阶段,通过提示可能的目标位置,SAM自动生成部分对象的掩膜,而标注者则专注于标注剩余的对象,从而增加掩膜的多样性。在最后阶段,我们通过前景点的规则网格提示SAM,平均每张图像生成约100个高质量的掩膜。

1.4 数据集(§5)

我们最终的数据集SA-1B包含超过10亿个掩膜,来自1100万张经过授权和隐私保护的图像(见图2)。SA-1B完全通过数据引擎的最终阶段自动采集,拥有现有分割数据集的400倍掩膜数量【66, 44, 117, 60】,并且经过我们广泛验证,掩膜具有高质量和多样性。除了用于训练一个稳健且广泛的SAM,我们还希望SA-1B能够成为构建新型基础模型的宝贵研究资源。

1.5 可靠的AI(§6)

我们研究并报告了使用SA-1B和SAM时潜在的公平性问题和偏差。SA-1B中的图像覆盖了地理和经济多样性较大的国家,我们发现SAM在不同人群中表现类似。我们希望这能让我们的工作在现实应用中更加公平。我们在附录中提供了模型和数据集的说明。

1.6 实验(§7)

我们对SAM进行了广泛评估。**首先,使用23个多样化的新分割数据集,我们发现SAM通过单个前景点生成的掩膜质量高,通常仅略低于手动标注的真实值。其次,在零样本迁移协议下,我们通过提示工程,在各种下游任务(如边缘检测、目标提议生成、实例分割和文本到掩膜的初步探索)中获得了一致的强定量和定性结果。**这些结果表明,SAM可以通过提示工程开箱即用,解决超出其训练数据的各种对象和图像分布任务。然而,仍有改进空间,详见§8。

1.7 发布

我们将SA-1B数据集公开用于研究目的,并通过宽松的开源许可协议(Apache 2.0)提供SAM模型,下载地址为:https://segment-anything.com。同时,我们还通过在线演示展示了SAM的功能。
在这里插入图片描述
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1562154.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

全院级、流程化的医院安全不良事件管理系统源码——等级医院评审工作的辅助工具

前言: 冰山理论”指出“每件严重不良事件背后可能隐藏着10件轻微的不良事件”“存在30件未造成伤害的差错可能存在600件引发意外的异常事件”没有一件不良事件应该被忽视! 一项研究也指出95%医生曾目睹错误的发生,61%的医务人员认为医疗错误…

基于Python星载气溶胶数据处理与反演分析技术

MODIS(中分辨率成像光谱仪)和CALIOP(云-气溶胶偏振激光雷达)是两种重要的星载遥感观测平台,它们提供了大量的气溶胶数据。MODIS通过成像光谱技术获取不同波长的遥感数据,从而得到气溶胶的空间分布、光学厚度…

耳夹式耳机哪个最好?2024年五大热门耳夹式耳机品牌分享

耳夹式耳机哪个最好?2024年五大热门耳夹式耳机品牌分享 耳夹式蓝牙耳机怎样才算好、算优质呢?哪款比较好呢?对于第一个问题,我认为耳夹式蓝牙耳机得具备以下几个特征优势才称得上是优质产品。其一,要能提供清晰、平衡…

nuxtjs使用rem 实现自适应窗口的大小

效果图: 步骤 1:安装 PostCSS 和 PostCSS 插件 npm install postcss postcss-pxtorem --save-dev步骤 2:配置 nuxt.config.ts // nuxt.config.ts export default defineNuxtConfig({compatibilityDate: 2024-04-03,devtools: { enabled: …

本地windows文件上传到远程阿里云windows server方法

一.功能简介 在本地windows下开发完成软件后,需要上传到远程阿里云服务器进行发布,可使用该方法,快速实现本地文件上传。 二.方法 在本地windows系统使用快捷键 winR,打开运行对话框,‌通过这个对话框,用…

解决Windows Server 2016本地登录失败但远程登录正常的问题:排查与解决方案

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

2024VDC蓝河分会场:蓝河操作系统2 全栈自研 为AI而生

10月10日, 以“同心同行”为主题的2024vivo开发者大会在深圳成功举办,在同期举办的蓝河分会场上,vivo多位专家及产业界、学术界伙伴分享了在AGI时代下,蓝河操作系统带来的技术创新与实践,vivo希望携各方共建生态&#…

Monad 101 杭州线下活动:解锁创新技术,引领低成本高效 DApp 开发之路!

以太坊等区块链在处理传统金融大规模交易时面临巨大挑战,有限的可扩展性成为阻碍其广泛应用的主要瓶颈。为了解决这一难题,并缩小传统金融与去中心化金融(DeFi)之间的差距,Keone 创立了 Monad。通过显著提升交易速度和…

能效电气发布“四全”欧标直流桩系列产品

2024年10月12日,深圳 分布式充放电全球第一品牌、新型充放电解决方案卓越供应商,电动汽车充放电行业颠覆者、创新者、标准制定者、市场领导者,深圳市能效电气技术有限公司发布面向全球市场的全系列欧标直流充电桩产品,功率范围覆盖22kW-160kW,包括8大系列12种型号:20kW UE20、2…

2024年最新Stable Diffusion模型资源合集!附整合安装包!

(模型资源在ComfyUI、WebUI以及ForgeUI中都通用) 之前的Stable Diffusion笔记受到了不少小伙伴的关注,很感谢大家的建议和支持。有很多小伙伴私信我问我一些AI绘画的模型资源在哪来下载,一般来说有两个网站比较常用,分…

软件测试学习笔记丨Linux三剑客-grep

本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/32506 一、简介 1.1 grep命令 grep是一个全局查找正则表达式,并且打印结果行的命令。grep的输入是一个文件或者一个标准输入(stdin),或者是一…

U盘有盘符却难开启?数据恢复全攻略

一、U盘有盘符但无法打开的现象描述 在日常使用U盘的过程中,我们有时会遇到这样一种情况:将U盘插入电脑后,系统能够正常识别并分配一个盘符,但在双击或右键点击该盘符时,却无法正常打开,甚至会出现错误提示…

图像处理中常用的统计矩

目录 原点矩中心矩常用的统计矩偏度(Skewness)定义解释 峰度(Kurtosis)定义解释 统计矩的应用MATLAB相关函数 原点矩(Moment about the Origin)和中心矩(Central Moment)是概率论和数…

技术发明一等奖!FISCO BCOS研究成果荣获CCF权威认可

近日,中国计算机学会(CCF)正式揭晓了2024年度“CCF科技成果奖”的获奖名单。FISCO BCOS开源工作组组长单位微众银行与清华大学合作的“安全可控高性能区块链基础平台”项目,凭借卓越的技术创新与显著的社会经济效益,荣…

基于Arduino的“鳄鱼嘴”

基于Arduino的“鳄鱼嘴” 一、项目说明二、项目材料三、外壳制作3.1 鳄鱼嘴制作3.2 鳄鱼牙齿制作3.3 眼睛制作 四、电路设计五、舵机连接六、使用方法 一、项目说明 嘿,朋友们,在这篇教程中,我将向你们展示一个万圣节的点子,它将…

AI引起用人格局变动,个人如何应对这一趋势

大家好,我是Shelly,一个专注于输出AI工具和科技前沿内容的AI应用教练,体验过300款以上的AI应用工具。关注科技及大模型领域对社会的影响10年。关注我一起驾驭AI工具,拥抱AI时代的到来。 人工智能的发展带来的就业结构变革&#xf…

AI大模型 向量Embeddings+向量数据库实现文搜文、图搜图

文搜文、图搜图介绍: 文搜文 :即文本搜索文本,是指通过输入关键词或短语,在大量文本数据中检索出与之相关的内容 。 搜 索引擎(百度、谷歌、 360 ) 、 文档管理系统 、 电商搜索 。 图搜图 :即图像搜…

【计算机网络】详解IP协议网段划分路由转发子网掩码网络号

一、IP功能 IP可以实现主机定位和路由选择,提供一种能力,将数据可靠地从A点跨网络送到B点。数据先根据目的IP在局域网之间进行转发,再在局域网内进行内网转发。 二、IP协议报头 4 位版本号(version):指定 IP 协议的版本&#xff…

学习Ultralytics(获取yolov8自带的数据集并开始训练)

今天小编带大家学习一下YOLOv8 配置文件,用来定义不同数据集的参数和配置。这些文件包含了关于每个数据集的路径、类别数、类别标签等信息,帮助模型正确地加载和解析数据集,以便进行训练和推理。 具体来说,这些 YAML 文件的作用如…

品牌渠道价格管控策略

在当今竞争激烈的市场环境中,品牌为提升销量和曝光量,积极拓展线上线下销售渠道。然而,不同渠道的价格管控方式存在显著差异,这对品牌的运营和管理提出了挑战。 一、线上线下渠道价格管控特点 线下门店价格管控主要依赖人工巡查。…