【论文阅读】医学SAM适配器:适应医学图像分割的任意分割模型

【论文阅读】医学SAM适配器:适应医学图像分割的任意分割模型

文章目录

  • 【论文阅读】医学SAM适配器:适应医学图像分割的任意分割模型
    • 一、介绍
    • 二、联系工作
    • 三、方法
    • 四、实验

Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation

由于SAM在各种分割任务中的出色能力和基于提示的界面,SAM模型最近在图像分割领域获得了广泛的应用

  

我们提出了医学SAM适配器(Med-SA),而不是对SAM模型进行微调,该适配器使用轻而有效的自适应技术将特定领域的医学知识整合到分割模型中

Med-SA中,我们提出了空间深度转置(SD-Trans)来使2D SAM适应3D医学图像

超提示适配器(hyper - prompt Adapter)来实现提示条件适应

  

17种医学图像分割任务进行了综合评价实验

Med-SA优于几种最先进的(SOTA)医学图像分割方法,同时仅更新2%的参数

  

一、介绍

分割任意模型(SAM)作为一种强大而通用的视觉分割模型获得了极大的关注

它可以根据用户提示生成各种详细的分段掩码

认为它在医学图像分割上的表现欠佳。使医学图像分割具有交互性,例如采用SAM等技术,具有巨大的临床价值

交互式分割可以极大地帮助临床医生有效地从这些复杂的结构中区分目标组织

  

采用像SAM这样的基础交互模型进行临床应用变得至关重要

  

解决这个问题的最先进(SOTA)方法是完全微调香草SAM模型,

  

专门针对医疗数据(Ma和Wang 2023)

预训练的视觉模型对医学图像具有很强的可移植性
  

试图以最小的努力使训练良好的SAM适应医学图像分割

选择使用一种称为自适应的参数有效微调(PEFT)技术对预训练的SAM进行微调
  

Adaption的主要思想是将带有部分参数的Adapter模块插入到原始模型中,只更新少量额外的Adapter参数

自然图像不同,许多医学图像是3D的,比如CT和MRI扫描

  

虽然adaptive在NLP中取得了成功,但将其应用于视觉模型,特别是SAM等交互式视觉模型的研究还很有限

我们提出了一种新的适应框架,称为医学SAM适配器(MedSA)

  

Med-SA仅通过更新总SAM参数的2%的额外参数来实现这种优越的性能。

  
贡献:

  • 以实现高维(3D)医疗数据的分割,解决医学图像模式带来的挑战
  • 提出HyP-Adpt以促进即时条件适应,承认用户提供提示在医疗领域的重要性。(可能需要提示信息)
  • 对17种不同图像模式的医学图像分割任务进行了广泛的实验,清楚地确立了Med-SA优于SAM和以前最先进的方法
      

二、联系工作

交互式分割

  • 交互式分割有着悠久的历史,最初被研究者视为一种优化技术
  • DIOS的开创性工作(Xu et al . 2016)通过集成深度学习并将积极和消极点击作为距离地图
  • Li, Chen,at al.专注于通过预测多种潜在结果并使选择网络或用户从中选择来解决不确定性
  • RITM (2022)和AccuracyNet (Forte et al 2020)引入了使用以前的掩模作为输入
      

然而,尽管交互式医学图像分割在临床实践中起着至关重要的作用,但人们对其的关注却有限

  

Parameter-Efficient重要性

PEFT已被证明是针对特定用途微调大型基本模型的有效策略

  

PEFT方法比完全微调效果更好,因为它们避免了灾难性的遗忘

所有PEFT策略中,Adaption(Hu et al . 2021)不仅在NLP中,而且在计算机视觉中,作为对下游任务的大型基本视觉模型进行微调的有效工具而脱颖而出

Adaption是将SAM带入医学领域的最合适的技术
  

三、方法

SAM架构 提供SAM体系结构的概述

SAM包括三个主要组件:

  • 图像编码器
  • 提示编码器
  • 掩码解码器

  

我们使用了ViT-H/16变体,它采用14×14窗口关注和四个等间隔的全局关注块

如图(a)所示。图像编码器的输出是输入图像的16倍下采样嵌入。

提示编码器可以是稀疏的(点,框)或密集的(掩码)
  

在这里插入图片描述

它将点和框表示为每个提示类型的位置编码和学习嵌入

解码器使用双向交叉注意来学习提示和图像嵌入之间的交互

SAM对图像嵌入进行上采样,MLP将输出标记映射到动态线性分类器,该分类器预测给定目标掩码

  

Med-SA架构

目标是通过微调来增强SAM架构在医学图像分割任务中的医学能力

而不是完全调整所有参数,我们保持预先训练的SAM参数冻结

向下投影使用简单的MLP层将给定的嵌入压缩到较低的维度,而向上投影使用另一个MLP层将压缩的嵌入扩展回其原始维度。

  

在SAM编码器中,我们为每个ViT块使用两个适配器。对于标准ViT块

  • 第一个适配器位于多头注意之后,剩余连接之前
  • 第二个适配器被放置在MLP层的剩余路径中,跟随多头注意
      

第一个适配器用于集成提示嵌入,为了实现这一目标,我们引入了一种新的结构,称为HyPAdpt

第二个适配器以与编码器完全相同的方式部署,以适应mlp增强的嵌入

  

SD-Trans

我们提出了SD-Trans,灵感来自图像到视频的改编

在每个块中,我们将注意力操作分为两个分支:空间分支和深度分支

D对应于操作的数量,允许在N × L上应用交互,捕获和抽象空间相关性作为嵌入

在这里插入图片描述

  

在深度分支中,我们将输入矩阵转置以获得N×D×L,并随后将其馈送到相同的多头注意力中

交互现在发生在D × L上

将深度分支的结果转置回其原始形状,并将其添加到空间分支的结果中,合并深度信息
  

HyP-Adpt

适应在交互式视觉模型中的应用仍然很大程度上未被探索

源任务和下游任务之间的交互行为可能表现出显著差异

在这方面,我们提出了一种名为HyPAdpt的解决方案,旨在实现即时条件适应

  

操作:

  • 仅利用投影和重塑操作从提示嵌入中生成一系列权重映射
  • 权重映射(矩阵乘积)直接应用于适配器嵌入
  • 实现广泛而深入的特征级交互
  • 显著减少了所需参数的数量
      

在这里插入图片描述

减少的适配器嵌入上执行超提示

被连接并缩减为提示嵌入提示。然后我们使用e提示符生成一个权重序列

  
在这里插入图片描述

HyP-Adpt有助于将参数以提示信息为条件,更灵活地适应不同的模式和下游任务。

  

Training Strategy

对于交互式分割,我们在模型训练过程中使用点击提示和边界框(BBox)提示

生成BBox提示,我们采用与SAM相同的方法。但是,由于原始的SAM论文提供了有限的关于单击提示符生成的细节
  

点击提示生成过程背后的基本概念包括使用

  • 积极的点击来指示前景区域
  • 消极的点击来指示背景

  

我们结合随机和迭代的点击采样策略,用这些提示训练模型

我们使用迭代抽样过程合并一些单击。这种迭代采样策略模拟了与真实用户的交互

因为每次新的点击都被放置在由网络使用以前的点击集生成的预测的错误区域中

  

四、实验

在五种不同的医学图像分割数据集上进行了实验

  

ISIC 2019数据集(Milton 2019)上进行了实验。所有的数据集都是公开的

3D医学图像训练,我们使用了16个较小的批处理大小

REFUGE2、TNMIX和ISIC数据集,我们训练了40个epoch的模型

BTCV和BraTs数据集,我们将训练扩展到60个epoch

  • 随机1个正点,记为“1点”
  • 3个正点,记为“3点”
  • 与目标重叠50%的边界框,记为“BBox 0.5”
  • 与目标重叠75%的边界框,记为“BBox 0.75”

  

Comparing with SOTA on Abdominal Multi-organ Segmentation

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=C%3A%5CUsers%5Cisipa%5CAppData%5CRoaming%5CTypora%5Ctypora-user-images%5Cimage-20241111211344746.png&pos_id=img-tQTpC1ga-173133117601
  
![在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/12298.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

caozha-ip(IP地址查询源码)

caozha-ip,是基于原生PHP写的一套完整的IP转地址模块源码,支持自动获取IP,也支持查询指定IP,同时支持输出json、jsonp、text、xml、js等多种IP和地址格式,还可以细分为国家、省、市、地区,方便在各种系统里…

【Android、IOS、Flutter、鸿蒙、ReactNative 】文本Text显示

XML布局 参考 android:text <TextViewandroid:id"id/textview"android:layout_width"wrap_content"android:layout_height"wrap_content"android:text"Android Java TextView"app:layout_constraintBottom_toBottomOf"paren…

FPGA学习笔记#7 Vitis HLS 数组优化和函数优化

本笔记使用的Vitis HLS版本为2022.2&#xff0c;在windows11下运行&#xff0c;仿真part为xcku15p_CIV-ffva1156-2LV-e&#xff0c;主要根据教程&#xff1a;跟Xilinx SAE 学HLS系列视频讲座-高亚军进行学习 学习笔记&#xff1a;《FPGA学习笔记》索引 FPGA学习笔记#1 HLS简介及…

深入浅出JUC常用同步器

文章目录 1.JUC下同步器1.1 CountdownLatch 倒计数锁存器1.2 CyclicBarrier回环屏障1.3 Semephone 信号量 2.小结 1.JUC下同步器 日常开发会遇到主线程开启多个子线程去并行执行任务&#xff0c;并且主线程需要等待所有子线程执行完后在进行汇总的场景。 同步器出现之前&…

工位管理新策略:Spring Boot企业级应用

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统&#xff0c;它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等&#xff0c;非常…

CAN总线物理层特性详细分析

目录 1. 简介 2. CAN总线拓扑图 3. CAN硬件电路 4. CAN电平标准 5. CAN收发器-TJA1050&#xff08;高速CAN&#xff09; 6. CAN物理层特性 1. 简介 CAN总线&#xff08;Controller Area Network Bus&#xff09;控制器局域网总线&#xff0c;是由BOSCH公司开发的一…

2024AAAI | DiffRAW: 利用扩散模型从手机RAW图生成单反相机质量的RGB图像

文章标题&#xff1a;《DiffRAW: Leveraging Diffusion Model to Generate DSLR-Comparable Perceptual Quality sRGB from Smartphone RAW Images》 原文链接&#xff1a;DiffRAW 本文是清华大学深圳研究院联合华为发表在AAAI-2024上的论文&#xff08;小声bb&#xff1a;华…

idea出现的问题

1.idea正常的运行,但是debug失败 原因&#xff1a;debug模式中使用的jdk和你在环境变量中配置的不是同一个jdk。或者说三处地方修改一致即可 1.File/Project Structure/Project Settings/Modules中的SDK 2.File/Project Structure/Platform Settings 中的SDKS 3.Run/Debug Conf…

uni-app之数据驱动的picker选择器( uni-data-picker)之可以选择到任意级别

背景说明 uni-app 官方的插件市场有数据驱动选择器&#xff0c;可以用作多级分类的场景。本人引入插件后&#xff0c;发现&#xff0c;在h5和微信小程序都只能选择到叶子级。而在给出的官方组件示例中确并非如此。 以选择年级&#xff0c;而不选择班级。然后&#xff0c;想试试…

vue3如何修改element ui input中type属性为textarea的高度

效果&#xff1a; 方法一&#xff1a;直接使用autosize <el-input:maxlength"500":autosize"{ minRows: 5, maxRows: 5 }"type"textarea"v-model"form.description"placeholder"请输入描述"></el-input> 方法二…

紫光展锐携手上赞随身Wi-Fi,让5G触手可及

近年来&#xff0c;随着各类移动应用层出不穷&#xff0c;人们对随时随地上网的需求日益增强&#xff0c;随身 Wi-Fi 设备以其便捷性、灵活性和相对较低的成本&#xff0c;成为用户满足办公、社交、娱乐等多元化需求的重要工具。5G技术的逐步普及为随身Wi-Fi市场注入了新的活力…

第四十三章 Vue之mapMutations简化mutations操作

目录 一、引言 二、完整代码 2.1. App.vue 2.2. main.js 2.3. Son1.vue 2.4. Son2.vue 2.5. index.js 一、引言 本章节我们通过掌握辅助函数mapMutations&#xff0c;来简化前面章节中调用mutations函数的繁琐方式。mapMutations 和 mapState很像&#xff0c;它是把位于…

C++编程语言:抽象机制:派生类(Bjarne Stroustrup)

第20章 派生类(Dirived Classes) 目录 20.1 引言 20.2 派生类 20.2.1 类成员函数 20.2.2 类构造函数和析构函数 20.3 派层次结构 20.3.1 类型域(Type Fields) 20.3.2 虚函数(Virtual Functions) 20.3.3 显式修饰(Explicit Qualification) 20.3.4 覆盖控制(O…

Qt--命令行终端程序开发

提示&#xff1a;本文为学习记录&#xff0c;若有错误&#xff0c;请联系作者&#xff0c;谦虚受教。 文章目录 前言一、头文件二、cpp文件三、使用流程如图所示 总结 前言 Constant dropping wears the stone. 一、头文件 #ifndef TERMINALWIDGET_H #define TERMINALWIDGET_…

一文了解珈和科技在农业遥感领域的服务内容和能力

2020年&#xff0c;农业农村部、中央网信办联合印发了《数字农业农村发展规划&#xff08;2019-2025年&#xff09;》&#xff0c;对数字农业农村建设作出了具体部署。其中&#xff0c;农业遥感作为推进数字农业农村的重要力量贯穿《规划》始终。 今年10月&#xff0c;农业农村…

D65【python 接口自动化学习】- python基础之数据库

day65 SQL-DQL-分组聚合 学习日期&#xff1a;20241111 学习目标&#xff1a;MySQL数据库-- 133 SQL-DQL-分组聚合 学习笔记&#xff1a; 分组聚合 总结 分组聚合的语法 分组聚合的注意事项 group by 中出现了哪个列&#xff0c;哪个列才能出现在select中的非聚合中

初学mongoDB

MongoDB 是一个开源的 NoSQL 数据库&#xff0c;由 C 语言编写。它与传统的关系型数据库不同&#xff0c;MongoDB 使用的是一种基于文档的存储模型&#xff0c;不需要定义固定的表结构&#xff0c;可以灵活地存储和管理大量的非结构化数据。下面是 MongoDB 的一些核心特性&…

DAY59||并查集理论基础 |寻找存在的路径

并查集理论基础 并查集主要有两个功能&#xff1a; 将两个元素添加到一个集合中。判断两个元素在不在同一个集合 代码模板 int n 1005; // n根据题目中节点数量而定&#xff0c;一般比节点数量大一点就好 vector<int> father vector<int> (n, 0); // C里的一…

基于Spring Boot的乡政府管理系统设计与实现,LW+源码+讲解

摘 要 传统办法管理信息首先需要花费的时间比较多&#xff0c;其次数据出错率比较高&#xff0c;而且对错误的数据进行更改也比较困难&#xff0c;最后&#xff0c;检索数据费事费力。因此&#xff0c;在计算机上安装乡政府管理系统软件来发挥其高效地信息处理的作用&#xf…

【NLP】使用 PyTorch 从头构建自己的大型语言模型 (LLM)

读完这篇文章后&#xff0c;你会取得什么成就&#xff1f;你将能够自己构建和训练大型语言模型 (LLM)&#xff0c;同时与我一起编写代码。虽然我们正在构建一个将任何给定文本从英语翻译成马来语的 LLM&#xff0c;但你可以轻松地修改此 LLM 架构以用于其他语言翻译任务。 LLM…