入选ECCV 2024!覆盖5.4w+图像,MIT提出医学图像分割通用模型ScribblePrompt,性能优于SAM

外行看热闹,内行看门道,这句话在医学影像领域可谓是绝对真理。不仅如此,即便身为内行人,要想在复杂的 X 光片、CT 光片或 MRI 等医学影像上准确看出些「门道」来,也并非易事。而医学图像分割则是通过将复杂的医学图像中某些具有特殊含义的部分分割出来,并提取相关特征,从而可以辅助医生为患者提供更为准确的诊疗方案,也可以为科研人员进行病理学研究提供更为可靠的依据。

近年来,受惠于计算机及深度学习技术的发展,医学图像分割的方法正在逐步由手动分割向着自动化分割的方向加速迈进,经过训练的 AI 系统已经成为医生和科研人员的重要辅助。 然而,由于医学图像本身的复杂性和专业性,导致系统训练中仍有大量工作依赖于有经验的专家进行手动分割创建训练数据,其过程耗时耗力。同时,现有基于深度学习的分割方法在实践中也遇到了诸多挑战,如适用性问题、灵活的交互需求等。

为了解决现有交互式分割系统在实际应用中存在的局限性,美国麻省理工学院计算机科学与人工智能实验室 (MIT CSAIL) 团队联合麻省总医院 (Massachusetts General Hospital) 和哈佛医学院 (Harvard Medical School) 的研究人员,提出了一种用于交互式生物医学图像分割的通用模型 ScribblePrompt,这是一种基于神经网络的分割工具,支持注释人员使用涂鸦、点击和边界框等不同的注释方式,灵活地进行生物医学图像的分割任务,甚至是对于未经训练的标签和图像类型。

该研究以「ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image」为题,目前已收录于国际知名学术平台 arXiv,并被国际顶级学术会议 ECCV 2024 接收。

研究亮点:

  • 快速准确地完成任何生物医学图像分割任务,具备相比现有最先进模型更优的能力,特别是对于未经训练的标签和图像类型

  • 提供了灵活多样的注释样式,包括涂鸦、点击以及边界框

  • 计算效率更高,即使在单个 CPU 上也能实现快速推理

  • 在与相关领域专家的用户研究中,该工具与 SAM 相比将注释时间缩短了 28%

在这里插入图片描述

论文地址:
https://arxiv.org/pdf/2312.07381

MedScribble 数据集下载地址:

https://go.hyper.ai/mLjNW

「ScribblePrompt 医学图像分割工具」已上线至 HyperAI超神经教程版块,一键克隆即可启动,教程地址:

https://go.hyper.ai/nCq9M

大体量数据集,全面覆盖模型训练与性能评估

该研究以 MegaMedical 等大型数据集收集工作为基础,汇编了 77 个开放获取的生物医学成像数据集,用于训练和评估,涵盖了 54,000 张扫描图像,16 种图像类型和 711 个标签。

这些数据集图像涵盖各种生物医学领域,包括眼睛、胸腔、脊柱、细胞、皮肤、腹部肌肉、颈部、大脑、骨骼、牙齿以及病变的扫描;图像类型包括了显微镜、CT、X 光片、 MRI、超声波以及照片等。

在训练和评估方面的划分上,研究团队将 77 个数据集分为了 65 个训练数据集和 12 个评估数据集。 其中,在 12 个评估数据集中,9 个评估数据集的数据用于模型开发以及进行模型选择和最终评估,另外 3 个评估数据集的数据仅用于最终评估。

每个数据集按 6:2:2 的比例划分为训练集、验证集和测试集,如下图所示。

在这里插入图片描述

以下两张图分别为「验证和测试数据集」和「训练数据集」, 其中,「验证和测试数据集」在 ScribblePrompt 模型训练期间为不可见状态。

在这里插入图片描述

验证和测试数据集,所标注的3个数据集为完全测试所用的数据集

在这里插入图片描述

训练数据集

对于数据集的相对大小,研究团队保证每个数据集具有唯一扫描次数。

快速推理的高效架构,构建实用型分割工具

研究团队提出的是一种灵活的交互式分割方法,具有很强的实际可用性,可以推广至新的生物医学成像领域和感兴趣区域 (regions of interest)。

研究团队展示了训练中模拟交互分割的连续步骤,如下图所示。其中输入为给定一个图像分割对 (xᵗ,yᵗ)。团队首先模拟一组初始交互 u₁,其中可能包括边界框、点击或涂鸦,之后进入预测第一步,设置初始值为 0。在第二步中,团队在错误区域中模拟先前预测,并通过模拟矫正后添加到初始交互集合中,获得 u₂。由此重复产生一系列预测。

在这里插入图片描述

训练过程中,团队模拟交互分割的连续步骤

为了保障模型的实用性和易用性,研究团队还在训练期间使用算法模拟了实用场景下如何在医学图像的不同区域上涂鸦、点击和边界框输入。

在这里插入图片描述

模拟涂鸦和点击

除了常见的标记区域之外,该团队引入了一种生成合成标签的机制。 通过应用超像素算法来生成潜在合成标签的映射,然后对一个标签进行采样,从而生成图中所示的「Ysynth」,最后再应用随机数据增强来获得最后结果。这种方法通过找到具有相似值的图像部分来然后识别医学研究人员可能感兴趣的新区域,并训练 ScribblePromt 对其进行分割。如下图所示。

在这里插入图片描述

任务采样和增强

本次研究展示主要采用了两种网络架构来演示,一种是使用类似于 UNet 的高效全卷积架构来演示 ScribblePrompt,另一种是演示了使用视觉转换器架构的 ScribblePrompt。

其中,ScribblePrompt-UNet 使用了 8 层 CNN,遵循类似于流行的 UNet 架构的解码器结构,没有批次规范 (Batch Norm)。每个卷积层有 192 个特征,并使用 PReLu 激活。需要解释的是,之所以没有规范化层,是因为在初步实验中,团队发现与不使用规范化层相比,包括规范化并没有改善验证数据的平均骰子,如下图所示。

在这里插入图片描述

不同规范层下训练 ScribblePrompt-UNet

ScribblePrompt-SAM 采用了最小的 SAM 模型 ViT-b,并对其解码器进行微调。SAM 架构可以在单掩码模式或多掩码模式下进行预测,在单掩码模式下,解码器在给定输入图像和用户交互的情况下输出单个预测分割。在多掩码模式下,解码器预测 3 个可能的分割,然后通过 MLP 输出预测 IoU 最高的分割。为了最大限度提高架构的表达能力,研究在多掩码模式下进行训练和评估 ScribblePrompt-SAM。

ScribblePrompt 展现出超越现有方法的优越性

本次研究中,研究团队通过手动涂鸦实验、模拟交互以及和有经验注释的用户研究,将 ScribblePrompt-UNet 和 ScribblePrompt-SAM 与现有最先进的方法进行了比较,包括 SAM、SAM-Med2D、MedSAM 以及 MIDeepSeg。

在手动涂鸦实验中, 结果显示 ScribblePrompt-UNet 和 ScribblePrompt-SAM 在实验的手动涂鸦数据集和 ACDC 涂鸦数据集的单步手动涂鸦中产生最准确的分割,如下表所示。

在这里插入图片描述

手动涂鸦实验对比

SAM 和 SAM-Med 2D 因为没有接受过相关训练,因此无法顺利地推广到涂鸦输入。MedSAM 相比其他使用 SAM 架构的 SAM 基线有更好的预测,但它不能利用负涂鸦,因此经常错过有洞的分割,如下图所示。另外,来自 MIDeepSeg 网络的初始预测较差,但在应用细化过程后有所改善。

在这里插入图片描述

预测示例,顶部为手动涂鸦一步后的预测,底部为模拟交互五步后的预测

在模拟交互实验中, 结果显示对于所有交互次数的所有模拟交互过程,ScribblePrompt 的两个版本都显示出优于基线方法。如下图所示。

在这里插入图片描述

模拟点击和涂鸦,实验按照3种涂鸦协议和3种点击协议模拟交互

为了进一步评估 ScribblePrompt 的实际效用,团队与有经验的注释者进行了一项用户研究。 本轮对比为 ScribblePrompt-UNet 和在上述点击实验中获得最高骰子分数的 SAM (Vit-b)。结果显示,参与者在使用 ScribblePrompt-UNet 时产生出更准确的分割,如下表所示。同时,使用 ScribblePrompt-UNet 平均每次分割花费约 1.5 分钟,相比之下,使用 SAM 的每次分割时间则超过了 2 分钟。

在这里插入图片描述

用户研究实验对比

16 名参与者的实验报告显示,与 SAM 相比,使用 ScribblePrompt 更容易实现目标分割,其中 15 名表示他们更喜欢使用 ScribblePrompt,剩下一位参与者没有偏好。另外,与 SAM 基线相比,93.8% 的参与者更喜欢 ScribblePrompt,因为它可以改善对涂鸦纠正的相应片段,同样有 87.5% 的参与者更喜欢使用 ScribblePrompt 进行基于点击的编辑。

以上结果再次证明了参与者对于 ScribblePrompt 偏好的最常见原因 —— 自我纠正和丰富的交互功能。这是其他方法所无法实现的,比如在视网膜静脉分割中,SAM 即使进行多次更正也很难做到准确的预测。

在这里插入图片描述

性能对比

除此之外,ScribblePrompt 同样展示出低成本和易部署的一面。研究发现,在单个 CPU 上,ScribblePrompt-UNet 每次预测仅需 0.27 秒,误差在 0.04 秒以内。如上图所示,其中 GPU 为 Nvidia Quatro RTX8000 GPU。而 SAM (Vit-h) 在 CPU 上每次预测需要超过 2 分钟,SAM (Vit-b) 每次预测用时为 14 秒左右。这无疑是展示了该模型在极低资源环境下的适用能力。

让医护及科研人员从耗时耗力的工作中解脱出来

人工智能在图像分析和处理其他高维数据方面早已经显示出巨大的潜力,而医学图像分割作为生物医学图像分析和处理中最常见的任务,自然也早成为了人工智能赋能的重要试验田之一。

除本文研究之外,如文中所提到的 SAM,同样是近年最受相关科研团队关注的主要工具之一。 此前 HyperAI超神经曾就相关研究进行跟进,比如在「SAM 2 最新应用落地!牛津大学团队发布 Medical SAM 2,刷新医学图像分割 SOTA 榜」中,分享了牛津大学团队对 SAM 在医学图像分割方面潜力的发掘。

该研究展示了牛津大学团队所开发的一款名为Medical SAM 2 的医学图像分割模型,基于 SAM 2 框架设计,通过将医学图像视作视频,不仅在 3D 医学图像分割任务上表现卓越,同时还解锁了一种新的单次提示分割的能力。用户只需为一种新的特定对象提供一个提示,后续图像中同类对象的分割就可以由模型自动完成,而无需进一步输入。

当然,除了 SAM 之外,其他基于深度学习的医学图像分割的方法研究也不在少数。 比如一篇收录于国际知名期刊和杂志 IEEE Transactions on Medical Imaging 中,题为「Scribformer: Transformer Makes CNN Work Better for Scribble-based Medical Image Segmentation」的研究。

在这里插入图片描述

该研究由包括厦门大学、北京大学、香港中文大学、上海科技大学以及英国赫尔大学在内的多所院校的研究人员组成的团队发布。研究提出了一种新的 CNN-Transformer 混合解决方案,用于涂鸦监督医学图像分割,称为 ScribFormer。

总而言之,无论是 MIT 所研究的成果,还是基于 SAM 的创新,亦或者是其他新的方法,从目的上都是相同的。正所谓条条大路通罗马,人工智能在医学领域的应用无不是为了造福医学,造福社会。

也正如上述关于 ScribblePrompt 论文的主要作者,麻省理工学院博士生 Hallee E Wong 所说,「我们希望通过一个交互式系统来增强而不是取代医务工作者的努力。」

参考资料:
1.https://news.mit.edu/2024/scribbleprompt-helping-doctors-annotate-medical-scans-0909
2.https://arxiv.org/pdf/2312.0738

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1548063.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

学习记录:js算法(四十七):相同的树

文章目录 相同的树我的思路网上思路队列序列化方法 总结 相同的树 给你两棵二叉树的根节点 p 和 q ,编写一个函数来检验这两棵树是否相同。 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。 图一: 图二&…

基于SSM的“在线汽车交易系统”的设计与实现(源码+数据库+文档+开题报告)

基于SSM的“在线汽车交易系统”的设计与实现(源码数据库文档开题报告) 开发语言:Java 数据库:MySQL 技术:SSM 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统总体设计图 首页 新闻信息 用户注册 后台登录界面…

Llama 3.2:轻量级设计与多模态能力

前沿科技速递🚀 9月26日Meta 推出了 Llama 3.2,这是一个前沿的多模态大语言模型系列。该系列包括轻量级文本模型(1B 和 3B)以及视觉模型(11B 和 90B),专为在边缘和移动设备上的高效应用而设计。…

学习之什么是生成器

什么是生成器(Generator) 1、是一种数据类型能源源不断地生成数据 2、"惰性"特点:一次生成一个值,而不是生成一个序列 3、生成器一定是迭代器比迭代器更简洁使用生成器表达式创建生成器 from typing import Generator, Iterator,…

OCR识别系统 YOLOv8 +Paddle 方案落地

YOLOv8 PaddleOCR 技术方案落地 Yolov8相关文档Step 1 证件模型的训练Step 2 Yolov8进行图片推理Step 3 PaddleOCR进行识别Step 4 整合Yolov8 PaddleOCR 进行OCR Yolov8相关文档 《yolov8 官方网站》 《Yolov8 保姆级别安装》 Ultralytics YOLOv8 是一款尖端的、最先进的 (S…

深入探索与实战:高效利用苏宁商品详情API实现精准数据抓取与解析技术

在电商平台的开发中,获取商品详情是构建用户购物体验的重要一环。苏宁作为国内领先的电商平台,提供了丰富的商品信息和API接口供开发者使用。本文将介绍如何通过苏宁的商品详情接口获取特定商品的详细信息,并给出Python代码示例。 点击获取ke…

DreamBench++:由清华大学和西安交通大学等联合创建:一种人机交互的个性化图像生成基准测试

2024-07-10,由清华大学和西安交通大学等机构联合创建的DreamBench,这个任务目的是通过使用先进的多模态GPT模型来自动化评估,实现与人类评估一致的结果,从而提高个性化图像生成的可靠性和准确性。 一、引言: 个性化图…

Maven项目常见各类 QA

一、pom.xml文件 1.1 there is no POM in this directory [ERROR] The goal you specified requires a project to execute but there is no POM in this directory (/home/cys/SEtesting/example/smartut-report). Please verify you invoked Maven from the correct directo…

消费类摄像头热销海内外,萤石出货量全球排名第一

随着消费者对家庭安全、便捷生活的需求日益增长,智能摄像头作为智能家居的重要组成部分,其市场需求将持续扩大。 IDC《全球智能家居设备市场季度跟踪报告,2024年第二季度》显示,二季度全球智能摄像头市场(包含消费级室…

Vue2项目中vuex如何简化程序代码,提升代码质量和开发效率

Vuex为Vue中提供了集中式存储 库,其主要分为state、getter、mutation、action四个模块,它们每个担任了不同角色,分工不同;Vuex允许所有的组件共享状态抽取出来,以一个全局单例模式管理,状态集中存储在同一…

AniJS:无需编程的动画解决方案

前言 在网页设计中,动画效果能够显著提升用户体验,但传统的动画实现往往需要复杂的 JavaScript 代码。 AniJS 库的出现,为设计师和开发者带来了一种全新的动画实现方式,它通过简单的 HTML 属性就能创建出令人惊叹的动画效果。 介…

文档解析与向量化技术加速 RAG 应用落地

在不久前举办的 AICon 全球人工智能开发与应用大会上,合合信息智能创新事业部研发总监,复旦博士常扬从 RAG 应用落地时常见问题与需求(文档解析、检索精度)出发,分享了针对性的高精度、高泛化性、多版面多元素识别支持…

LeetCode[中等] 138. 随机链表的复制

给你一个长度为 n 的链表,每个节点包含一个额外增加的随机指针 random ,该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节点组成,其中每个新节点的值都设为其对应的原节点的值。新节点的 n…

贴片式TF卡(SD NAND)参考设计

【MK 方德】贴片 TF 卡参考设计 一、电路设计 1、 参考电路: R1~R5 (10K-100 kΩ)是上拉电阻,当 SD NAND 处于高阻抗模式时,保护 CMD 和 DAT 线免受总线浮动。 即使主机使用 SD NAND SD 模式下的 1 位模式,主机也应通过上拉电阻…

SpringBoot 流式输出时,正常输出后为何突然报错?

一个 SpringBoot 项目同时使用了 Tomcat 的过滤器和 Spring 的拦截器&#xff0c;一些线程变量在过滤器中初始化并在拦截器中使用。 该项目需要调用大语言模型进行流式输出。 项目中&#xff0c;笔者使用 SpringBoot 的 ResponseEntity<StreamingResponseBody> 将流式输…

照片压缩方法分享,掌握这些小技巧轻松压缩

照片已成为我们记录生活、分享美好的重要方式。然而&#xff0c;随着手机像素的不断提升&#xff0c;照片文件体积也越来越大&#xff0c;给存储和传输带来了不小的挑战。今天&#xff0c;就为大家介绍几种高效的照片压缩方法&#xff0c;掌握这些方法就能够轻易对图片进行压缩…

寻找右区间

题目链接 寻找右区间 题目描述 注意点 -10^6 < starti < endi < 10^6每个间隔的起点都 不相同如果某个区间 i 不存在对应的 右侧区间 &#xff0c;则下标 i 处的值设为 -1 解答思路 因为本题需要找到每个interval大于interval对应end的最小start值&#xff0c;所…

vue-i18n在使用$t时提示类型错误

1. 问题描述 Vue3项目中&#xff0c;使用vue-i18n&#xff0c;在模版中使用$t时&#xff0c;页面可以正常渲染&#xff0c;但是类型报错。 相关依赖版本如下&#xff1a; "dependencies": {"vue": "^3.4.29","vue-i18n": "^9.1…

红绿灯倒计时读秒数字识别系统源码分享

红绿灯倒计时读秒数字识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of …

小程序开发平台源码系统 各行各业适用的小程序开的平台 带完整的安装代码包以及搭建部署教程

系统概述 本系统采用模块化设计&#xff0c;包含前端展示层、后端逻辑处理层、数据库存储层以及管理后台等多个核心组件。前端展示层负责小程序的界面设计与交互体验&#xff1b;后端逻辑处理层则负责数据处理、业务逻辑实现及与第三方服务的对接&#xff1b;数据库存储层用于…