Vision Mamba UNet:一种新型医学图像分割网络

人工智能咨询培训老师叶梓 转载标明出处

在医学图像分割的研究中,卷积神经网络(CNN)与变换器(Transformer)模型各有其优势和局限。CNN由于其有限的局部感受野,在捕获长距离信息时能力较弱;而尽管Transformer在全局信息建模上具有显著优势,但其自注意力机制随着图像尺寸的增加,计算复杂度会以二次方的速度增长,这使得其在处理大规模图像数据时面临较大的计算压力。针对这些问题,上海交通大学的研究者提出了一种基于状态空间模型(State Space Models, SSMs)的新型U型网络架构——Vision Mamba UNet(VM-UNet)。该模型不仅在长距离依赖关系的建模上表现出色,而且保持了线性的计算复杂度。

方法


图 1(a) 展示了VM-UNet的整体架构。VM-UNet包括一个Patch Embedding层、一个编码器、一个解码器、一个Final Projection层和跳跃连接。与之前的方法不同,采用了非对称设计。

Patch Embedding层
该层将输入图像x划分为不重叠的4×4大小的块,然后将图像的维度映射到C维,其中C默认为96。这个过程产生了嵌入后的图像x',尺寸为R H4 × W4 × C。在将x'送入编码器进行特征提取之前,使用Layer Normalization对其进行了归一化。

编码器
编码器由四个阶段组成,在前三个阶段的末尾应用了patch merging操作,以减少输入特征的高和宽,同时增加通道数。在四个阶段中分别使用了**[2, 2, 2, 2] VSS块**,每个阶段的通道数分别为[C, 2C, 4C, 8C]**。

解码器
解码器同样分为四个阶段。在最后三个阶段的开始,使用patch expanding操作来减少特征通道的数量并增加高度和宽度。在四个阶段中,使用了**[2, 2, 2, 1] VSS块**,每个阶段的通道数分别为[8C, 4C, 2C, C]。

Final Projection层
解码器之后是一个Final Projection层,用于将特征的大小恢复到与分割目标匹配。具体来说,通过patch expanding进行4倍上采样以恢复特征的高和宽,然后通过一个投影层来恢复通道数。

跳跃连接
对于跳跃连接,采用了简单的加法操作,没有引入任何额外的参数。

VSS块是VM-UNet的核心模块,源自VMamaba。在经过Layer Normalization后,输入被分成两个分支。第一个分支通过一个线性层后接一个激活函数;第二个分支则通过一个线性层、一个深度可分离卷积和一个激活函数处理后,送入2D-Selective-Scan (SS2D)模块进行进一步的特征提取。然后,使用Layer Normalization对特征进行归一化,接着执行元素间乘法操作,将两个分支的输出合并。最后,使用一个线性层混合特征,并通过与残差连接的组合形成VSS块的输出。默认使用SiLU作为激活函数。

SS2D由三个组件组成:scan expanding操作、S6块和scan merging操作。如图2(a)所示,scan expanding操作将输入图像沿四个方向(从左上到右下、从右下到左上、从右上到左下、从左下到右上)展开成序列。然后,这些序列由S6块处理以提取特征,确保从各个方向的信息都被彻底扫描,从而捕获多样化的特征。如图2(b)所示,scan merging操作将四个方向的序列求和并合并,恢复输出图像到与输入相同的尺寸。S6块在S4的基础上引入了选择性机制,通过根据输入调整SSM的参数,使模型能够区分并保留相关信息,同时过滤掉不相关的信息。算法 1展示了S6块的伪代码。

VM-UNet的引入旨在验证基于纯SSM模型在医学图像分割任务中的应用潜力。因此,专门使用了最基本的二元交叉熵和Dice损失(BceDice loss)以及交叉熵和Dice损失(CeDice loss)作为二元和多类分割任务的损失函数。公式5和6分别表示这两种损失函数:

其中,N表示样本总数,C代表类别总数。y_i和ŷ_i分别表示真实标签和预测。y_i,c是一个指示器,如果样本i属于类别c,则为1,否则为0。ŷ_i,c是模型预测样本i属于类别c的概率。|X|和|Y|分别代表真实值和预测值。λ_1和λ_2指的是损失函数的权重,这里默认都设置为1。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

实验

实验部分在ISIC17、ISIC18和Synapse数据集上评估了VM-UNet在医学图像分割任务上的性能。

ISIC17和ISIC18数据集:国际皮肤成像协作2017年和2018年挑战数据集(ISIC17和ISIC18)包含2,150张和2,694张皮肤病变分割数据集,分别带有分割掩码标签。按照之前的工作,数据集按照7:3的比例划分为训练集和测试集。对于ISIC17数据集,训练集包括1,500张图像,测试集包括650张图像。对于ISIC18数据集,训练集包括1,886张图像,测试集包含808张图像。对于这两个数据集,提供了包括平均交并比(mIoU)、Dice相似系数(DSC)、准确率(Acc)、敏感性(Sen)和特异性(Spe)在内的多个指标的详细评估。

Synapse多器官分割数据集:Synapse数据集包含30个腹部CT病例,共3,779张腹部临床CT图像,涵盖8种腹部器官(主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾脏、胃)。按照之前工作的设置,使用18个病例进行训练,12个病例进行测试。对于这个数据集,报告了Dice相似系数(DSC)和95% Hausdorff距离(HD95)作为评估指标。

ISIC17和ISIC18数据集中的图像调整为256×256大小,而Synapse数据集中的图像调整为224×224大小。为了防止过拟合,采用了包括随机翻转和随机旋转在内的数据增强技术。对于ISIC17和ISIC18数据集,使用了BceDice损失函数,而对于Synapse数据集,则采用了CeDice损失函数。批量大小设置为32,并采用AdamW优化器,初始学习率设置为1e-3。使用CosineAnnealingLR作为调度器,最大迭代次数设为50次,最小学习率设为1e-5。训练周期设置为300。对于VM-UNet,使用在ImageNet-1k上预训练的VMamba-S的权重初始化编码器和解码器。所有实验都在单个NVIDIA RTX A6000 GPU上进行。

表1展示了ISIC17和ISIC18数据集上的比较实验结果。表2展示了Synapse数据集上的比较实验结果,其中也报告了每个类别的DSC。对于ISIC17和ISIC18数据集,VM-UNet在mIoU、DSC和Acc指标上优于其他模型。对于Synapse数据集,VM-UNet也取得了有竞争力的性能。例如,在DSC和HD95指标上,该模型超过了Swin-UNet(首个纯Transformer基模型)1.95%和2.34mm。结果证明了基于SSM模型在医学图像分割任务上的优越性。

使用ISIC17和ISIC18数据集对VM-UNet的初始化进行了消融实验。分别使用VMamba-T和VMamba-S的预训练权重初始化VM-UNet。表3中的实验结果表明,更强大的预训练权重显著提高了VM-UNet的下游性能,表明VM-UNet在很大程度上受到预训练权重的影响。

实验结果显示,VM-UNet在多个评价指标上均优于其他模型,包括平均交并比(mIoU)、Dice相似系数(DSC)和准确率(Acc)。

代码已经开源,感兴趣的读者可以通过以下链接访问项目:

VM-UNet GitHub

论文链接:https://arxiv.org/pdf/2402.02491 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1550092.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

深入理解 Nuxt.js 中的 app:data:refresh 钩子

title: 深入理解 Nuxt.js 中的 app:data:refresh 钩子 date: 2024/9/29 updated: 2024/9/29 author: cmdragon excerpt: 摘要:本文详细介绍了 Nuxt.js框架中的app:data:refresh钩子,包括其定义、用途、使用方法及实际应用案例。该钩子用于在数据刷新时执行额外处理,支持…

这几个高含金量证书,网工真的该拿

在这个技术日新月异的行业中,不断学习新技能和知识是保持竞争力的关键。 而证书,作为一种专业能力的认证,不仅能够证明你的技术实力,还能为你打开更多的职业发展大门。 在众多的IT认证中,有些证书因其高含金量而备受推…

推动国产化软件飞跃:三品软件与麒麟完成兼容性验证 共筑数字强国梦

近日,三品软件产品全生命周期管理系统(PLM)V1.0与麒麟软件成功完成了兼容性适配认证,这标志着我司在推进国产化创新发展进程中取得实质性的进展。 三品软件的PLMV1.0是一款全面的产品生命周期管理平台软件产品,集成设计、研发、生产管理等环…

Python编码系列—Python状态模式:轻松管理对象状态的变化

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中…

帮儿女带孩子的老人,都有以下几种共性

在现代社会中,随着生活节奏的加快,许多年轻父母需要在繁忙的工作中平衡家庭和事业,老人们自然成为了带孙辈的重要力量。 放眼望去,不少家庭的老人主动承担起了带孙子的责任,为子女分担了育儿的重担。 随着时代的变化…

以太网交换安全:端口安全

一、端口安全介绍 端口安全是一种网络设备防护措施,通过将接口学习到的动态MAC地址转换为安全MAC地址(包括安全动态MAC和Sticky MAC),阻止除安全MAC和静态MAC之外的主机通过本接口和设备通信,从而增强设备的安全性。以…

YOLOv5改进:Shuffle Attention注意力机制【注意力系列篇】(附详细的修改步骤,以及代码)

如果实验环境尚未搭建成功,可以参考这篇文章 ->【YOLOv5超详细环境搭建以及模型训练(GPU版本)】 文章链接为:http://t.csdnimg.cn/Ke0bb ---------------------------------------------------------------------------​ 1…

C++第五讲(1):STL--string--各个函数的使用方法

C第五讲:STL--string 1.STL简介2.string类2.1string类的常见构造2.1.1重点1: string()2.1.2重点2:string(const string& str)2.1.3使用3:string(const string& str, size_t pos, size_t len npos)…

svg图片怎么转成高清png?五款软件一键解决!

在这个视觉为王的时代,无论是设计师还是内容创作者,都渴望拥有清晰、高质量的图像来提升作品的吸引力。而SVG(可缩放矢量图形)以其无损放大、文件小巧的优势,在图标、图形设计中备受欢迎。但有时候,我们也需…

空间随心而变:气膜场馆的无限可能—轻空间

在气膜场馆内,空间的定义绝不仅限于传统的固定形式。无论是运动场、会议厅,还是展览馆,气膜场馆都能灵活应对各种需求,随时变换使用功能。这种灵活的空间配置为各类活动提供了更多可能性,让每个角落都能充分发挥其作用…

SpringMVC源码-SpringMVC源码请求执行流程及重点方法doDispatch讲解

一、开始请求 在浏览器访问http://localhost:8080/spring_mymvc/userlist这个接口,是个get请求。 FrameworkServlet类的service方法会被请求到: 调用路径如下: service:945, FrameworkServlet (org.springframework.web.servlet) service:764, HttpSer…

视频美颜SDK与直播美颜工具API的架构设计与实现

视频美颜SDK的出现,不仅大大提升了用户体验,还为开发者提供了实现实时美颜功能的技术支持。接下来,小编将与大家深入探讨视频美颜SDK与直播美颜工具API的架构设计与实现方案,帮助开发者更好地理解这一技术的核心原理。 一、视频美…

完美解决Idea中如何对Java Agent进行断点调试的方式

1、前言 在日常开发中,可能会存在写一个Java Agent到项目中去,Agent的实现可能是复杂的,有时候会出现attach到进程上后,发现没效果,也不知道怎么调试,只能通过打日志的方式实现,效率实在是太低…

开放式蓝牙耳机哪个品牌更靠谱?5款高性价比开放式耳机推荐

谈到开放式蓝牙耳机哪个品牌更靠谱,市场上有许多优秀的选择。以前也经常使用入耳式耳机,但总是会感觉耳机插在耳朵里不舒服,戴久了耳朵很疼,跑步的时候还总掉。还有在过马路的时候接电话、听音乐,几乎感知不到周围环境…

CHARLS数据库系列教程(4)--多模型效应分析、Per SD、P for trend及限制立方样条图绘制

CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维度的信息,以满足老龄科学研究的需要。 为利用国际上最佳的数据采集方式,并确保研究…

TiDB 性能测试的几个优化点

作者: 数据源的TiDB学习之路 原文来源: https://tidb.net/blog/513a4eef 背景 前段时间参与了一个 TiDB 的性能测试,具体是在三台海光服务器(512G内存、128 core 分8个NUMA、4块3.5T SSD)搭建一个混合部署的 TiDB …

Arthas tt(方法执行数据的时空隧道,记录下指定方法每次调用的入参和返回信息,并能对这些不同的时间下调用进行观测)

文章目录 二、命令列表2.3 monitor/watch/trace/stack/tt 相关2.3.4 tt(方法执行数据的时空隧道,记录下指定方法每次调用的入参和返回信息,并能对这些不同的时间下调用进行观测)举例1:记录调用举例2:显示所…

系统集成项目管理工程师难度如何?

软考中级职称系统集成项目管理工程师是中级各专业资格中考试难度较小的,考试相对比较容易,通过率一般在20%左右,适合零基础考生或基础薄弱考生报考。但是考生还是需要认真进行备考,系统集成项目管理工程师综合知识考察的范围比较广…

【AI学习】DDPM 无条件去噪扩散概率模型实现(pytorch)

这里主要使用pytorch实现基本的无条件去噪扩散模型,理论上面的推导这里不重点介绍。 原文理论参考: 前向和反向过程示意图 前向过程和后向过程 扩散过程包括正向过程和反向过程。前向过程是基于噪声调度的预定马尔可夫链。噪声表是一组方差 &#xff0…

物理学基础精解【40】

文章目录 矢量积矢量积(又称叉积、外积)的几何意义一、面积表示二、垂直性三、方向性四、应用实例五、数学表达 矢量积(叉积)的坐标表示法矢量积的坐标表示法的几何意义矢量积的性质矢量积的应用 矢量积(又称叉积、外积…