【Diffusion分割】MedSegDiff-v2:Diffusion模型进行医学图像分割

MedSegDiff-V2: Diffusion-Based Medical Image Segmentation with Transformer

摘要: 

       最近的研究揭示了 DPM 在医学图像分析领域的实用性,医学图像分割模型在各种任务中表现出的出色性能就证明了这一点。尽管这些模型最初是以 UNet 架构为基础的,但通过整合视觉Transformer机制,仍有可能提高其性能。然而,我们发现,简单地将这两个模型结合在一起会导致性能不佳。为了将这两种尖端技术有效地整合到医学图像分割中,我们提出了一种新颖的基于变换器的扩散框架,称为 MedSegDiffV2。我们在 20 个不同图像模式的医学图像分割任务中验证了它的有效性。通过综合评估,我们的方法证明优于先前的最先进(SOTA)方法。

Introduction

        我们为医学图像分割设计了一种新颖的基于变换器的扩散框架,称为 MedSegDiff-V2。在扩散过程中,我们在原始图像的主干上采用了两种调节技术。一种是锚定条件(Anchor Condition),它将条件分割特征整合到扩散模型编码器中,以减少扩散方差我们设计了一种新颖的 "确定空间注意力"(U -SA),一种是整合机制,它放宽了具有更多不确定性的条件分割特征,从而为扩散提供了更大的灵活性,以进一步校准预测结果另一种是将条件嵌入整合到扩散嵌入中的语义条件。为了有效弥合这两种嵌入之间的差距,我们提出了一种新颖的转换机制,称为频谱-空间转换器(SS-Former),用于嵌入整合。SSFormer 是一个频域交叉注意链,每次都有一个时间步长自适应神经带通滤波器(NBP-Filter)来对齐噪声和语义特征

        -我们首次将变换器集成到基于扩散的模型中,用于普通医学图像分割。

        -我们提出了一种带有 U-SA 的锚条件,以减轻扩散方差。

        -我们提出了语义条件与 SS-Former 模型,以模拟分割噪声和语义特征的相互作用。

Related Work

Diffusion Model for Medical Segmentation

        最近,扩散模型在包括医学图像在内的各种分割任务中展现出巨大潜力(Armato III 等人,2011 年;Caron 等人,2021 年;Cao 等人,2022 年;Chen、Ma 和 Zheng,2019 年)。事实上,这些模型利用随机抽样过程生成隐含的分割集合,从而提高了分割性能(Zhai 等人,2022 年)。然而,如果不对多样性进行有效控制,集合往往难以收敛,导致多次耗时的采样迭代。此外,这些分歧样本不仅无法达到预期目标,还会引入噪声,影响分割质量。因此,提高每次采样迭代的采样精度至关重要。

Method

Diffusion Process of MedSegDiff-V2 

        我们的模型是根据(Ho、Jain 和 Abbeel,2020 年)中提到的扩散模型设计的。扩散模型是一种生成模型,由两个阶段组成:正向扩散阶段和反向扩散阶段。通过一系列步骤 T,高斯噪声被逐渐添加到分割标签 x0 中。在反向过程中,神经网络经过训练,通过逆转噪声添加过程来恢复原始数据。这可以用数学方法表示如下:

 

        按照 DPM 的标准实现方法,我们利用编码器-解码器网络进行学习。为了实现分割,我们根据原始图像的先验信息对阶跃估计函数ε进行调节。这个条件可以表示为:

 

这里,T ransF 表示基于变换器的注意力机制。EI t 表示条件特征嵌入,在我们的例子中,它对应于原始图像的嵌入。Ex t 表示当前步骤的分割图特征嵌入。这两个部分通过变换器整合在一起,并通过 UNet 解码器 D 进行重构步骤索引 t 与嵌入和解码器的组合特征整合在一起,每个步骤索引按照(Ho、Jain 和 Abbeel,2020 年)中描述的方法,使用共享学习的查找表进行嵌入

Overall Architecture 

        MedSegDiff-V2 的整体流程如图 1 所示。 为了介绍该流程,请考虑扩散流程的单步 t。首先将噪声掩膜 xt 输入一个称为扩散模型的 UNet扩散模型由从原始图像中提取的分割特征通过另一个标准 UNet(称为条件模型)进行调节。扩散模型采用两种不同的调节方式:锚点条件和语义条件。按照输入流程,锚点条件首先施加到扩散模型的编码器上。它将锚分段特征(即条件模型的解码分段特征)整合到扩散模型的编码特征中。这样,扩散模型就可以通过一个粗略但静态的参考来初始化,从而有助于减少扩散差异然后将语义条件强加给扩散模型的嵌入,从而将条件模型的语义分割嵌入整合到扩散模型的嵌入中。这种有条件的整合是通过 SS 变压器实现的,它在噪声嵌入和语义嵌入之间架起了一座桥梁,并利用变压器的全局和动态特性优势抽象出了一种更强的表示方法。

 

        MedSegDiff-V2 采用标准噪声预测损失 Ln(DPM,Ho、Jain 和 Abbeel,2020 年)和监督条件模型的锚损失 Lanc 进行训练。Lanc 是软骰子损失 Ldice 和交叉熵损失 Lce 的组合。具体来说,总损失函数表示为 :

其中,t ≡ 0 (mod α) 通过超参数 α 控制对条件模型的监督次数,交叉熵损失通过超参数 β 加权,分别设为 5 和 10。

Anchor Condition with U -SA

        没有卷积层的感应偏差,变压器块具有更强的表示能力,但在训练数据有限的情况下,对输入方差也更加敏感(Naseer 等,2021 年)。在扩散模型中直接添加变换器块会导致每次输出的方差过大。为了克服这一负面影响,我们对 MedSegDiff(Wu 等,2022e)的结构进行了调整,并在扩散模型中引入了锚定条件操作

        锚定条件提供了条件模型中的粗略锚定特征,并将其整合到扩散模型中这为扩散模型提供了一个正确的预测范围,同时也允许它进一步完善结果。具体来说,我们将条件模型的解码分割特征整合到扩散模型的编码器特征中。我们为特征融合提出了 U-SA 机制,以表示给定条件特征的不确定性。从形式上看,我们将最后一个条件特征 f -1 c 融合到第一个扩散特征 f0 d 中。U -SA 可以表示为:

其中,∗ 表示滑动窗口核操作,- 表示一般元素操作。在等式中,我们首先在 f -1 c 上应用可学习的高斯核 kG 来平滑激活,因为 f -1 c 可作为锚点,但可能并不完全准确。然后,我们选择平滑图与原始特征图之间的最大值,以保留最相关的信息,从而得到平滑锚特征 fanc然后,我们将 fanc 整合到 f0 d 中,得到增强特征 f ′0 d。具体来说,我们首先应用 1 × 1 卷积 k1×1conv 将锚特征通道还原为 1,并与 Sigmoid 激活后的 f 0 d 相乘,然后将其添加到 f 0 d 的每个通道中,类似于空间注意力的实现(Woo 等人,2018 年)。 

Semantic Condition with SS-Former

         扩散模型预测了来自噪声掩码输入的冗余噪声,导致其嵌入与条件分割语义嵌入之间存在域差距。在使用矩阵操作(stranded transformer)时,这种差距会影响性能。我们提出了一种新颖的频谱空间变换器(SS-Former)。我们的主要想法是学习条件语义特征和扩散噪声特征在频域中的相互作用。我们使用一种名为神经带通滤波器(NBP-Filter)的滤波器将它们调整到统一的频率范围,即频谱。神经带通滤波器在限制其他频谱的同时,学会通过特定的频谱。我们根据扩散时间步骤自适应地学习该频谱,因为噪音水平(频率范围)对每个步骤都是特定的。这样就可以根据频率亲和性混合特征,并根据扩散步骤对其进行调整

        SS-Former 的鸟瞰图如图 1 (b)所示,它由 N 个共享相同架构的区块组成。本文设定 N = 4。每个区块由两个类似交叉注意的模块组成。第一个模块将扩散噪声嵌入编码为条件语义嵌入,下一个对称模块将最后一个语义嵌入编码为扩散噪声嵌入。这样,模型就能学习噪声和语义特征之间的相互作用,从而获得更强的表示能力。从形式上看,c0 是条件模型的最深特征嵌入e 是扩散模型的最深特征嵌入。我们首先将 c0 和 e 转移到傅立叶空间,分别表示为 F (c0) 和 F (e)。请注意,特征图都是按照标准的视觉变换器方法进行修补和衬垫投影的。然后,我们以 e 为查询,以 c0 为关键,在傅立叶空间上计算亲和权重图,可表示为 M = (F (c0)Wq)(F (e)Wk)T其中 Wq 和 Wk 是傅立叶空间中可学习的查询权重和关键权重

        然后,我们应用 NBP 过滤器来调整频率的表示。我们注意到,M 中的每个点现在都代表一个特定的频率,由于我们需要控制一个连续的频率范围,因此直观的做法是建立一个从特征图位置到频率大小的平滑投影。为此,我们使用神经网络从坐标图中学习权重图。通过这种方法,网络的归纳偏差将促进平滑投影的学习,因为相似的输入自然会产生相似的输出(Sitzmann 等,2020 年;Wu 和 Fu,2019 年)。这一想法被广泛应用于三维视觉任务中,并被称为神经辐射场(NeRF)(Mildenhall 等,2020 年)。但与最初的 NeRF 不同的是,我们进一步用时间步长信息对其进行调节。具体来说,该网络将坐标图作为输入,并生成一个注意力图作为滤波器,两者的大小相同,都是 M。为了用时间步信息对网络进行调节,我们使用扩散模型的时间步嵌入对归一化特征进行缩放和移动。我们使用两个 MLP 层将当前的时间步嵌入投影到代表均值和方差的两个值上,这两个值分别用于缩放和移动。我们总共堆叠了 R = 6 个这样的块和一个 Sigmoid 函数,以生成最终的滤波器。最后,滤波器与管道中的亲和图 M 按元素顺序相乘。NBP-Filter 是通过整个流水线以端到端的方式进行训练的。

        滤波后的亲和力图 M′通过反快速傅立叶变换(IFFT)转回到欧几里得空间,并应用于值条件特征:f = F -1(M ′)(c0wv),其中 W v 是可学习的值权重。我们还使用 MLP 进一步完善注意力结果,得到最终特征 ̃ c0。下面的注意力模块与第一个模块对称,但使用综合特征̃ c0 作为查询,并使用噪声嵌入 e 作为键和值,以便将分割特征转换到噪声域。转换后的特征 c1 将作为下一个区块的条件嵌入。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1551418.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

opencv实战项目(三十):使用傅里叶变换进行图像边缘检测

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一,什么是傅立叶变换?二,图像处理中的傅立叶变换:三,傅里叶变换进行边缘检测: 一&#xff0c…

13个大V出文需要准确把握的重要因素

推文作为全球最大的社交平台之一,吸引了很多大V(即具有巨大粉丝团的影响力和的账户)的关注。那些大V常常运用推文发布相关各种各样热点的营销推广信息,以吸引更多人的关注参与。推文的发布时间段是V在宣传推广过程中需要准确把握的…

【真实访问】那些选择土木专业的学生,后来怎么样了?

“你会让孩子报土木专业吗?” 7月15日,澎湃新闻在微博上发起线上调研,截至16日12时,8000多人参与了投票,结果显示近7000人选择“不会,天坑专业”。短短几年时间,土木工程专业的报考从“香饽饽”…

CAN总线的错误类型

前言 CAN总线的错误类型主要包括:位错误、填充错误、格式错误、ACK错误和CRC错误。这里一定要做好CAN总线的错误类型、错误帧类型、节点状态之间的区别。 错误类型是帧传输出错的原因类型;错误帧类型(主动错误帧、被动错误帧)是帧…

基于IntraWeb的数据表格的多选实现

基于IntraWeb的数据表格的多选实现 既可以单条操作,也可以多选操作。 delphi源代码。 BS开发Web网站开发,不需要安装服务器,Apache和IIS都不需要,自带企业级服务器。 运行exe服务器就架好了,直接打开手机浏览器或者…

Zombie Slaughter 写实30个僵尸丧尸带动画角色模型

包含30个操纵的僵尸(15个男性和15个女性角色)+动画 所有僵尸都有分离的身体部位,以获得更好的射击/砍杀体验:) PBR材质包含4种纹理(基色、法线、粗糙度、AO),分辨率为4096x4096。 动画包括: -闲置 -步行 - 走回去 - 向右转 - 向左转 -担心 -尖叫 - 走路惹 -快跑 -阿格罗…

人工智能与伦理:如何确保AI应用中的隐私保护

引言 随着人工智能技术的飞速发展,AI已经渗透到我们生活的各个领域,从智能助手到个性化推荐系统,再到医疗诊断和金融服务,人工智能正在为我们带来前所未有的便利。然而,伴随着AI的广泛应用,隐私保护问题日益…

优选驾考系统小程序的设计

管理员账户功能包括:系统首页,个人中心,驾校管理,驾考文章管理,驾照类型管理,报名入口管理,学员报名管理,练车预约管理,考试场地管理 微信端账号功能包括:系统…

加油卡APP系统:省时、优惠、安心!

在汽车加油的刚需下,如何更加优惠的“加油”成为了大众关心的重点,而以优惠为主的加油卡系统也成为了大众的主要选择。 加油卡系统是汽车加油线上的服务系统,拥有全国各地的加油站权限,能够让车主在手机上进行充值,同…

VMware虚拟机连接公网,和WindTerm

一、项目名称 vmware虚拟机连接公网和windterm 二、项目背景 需求1:windows物理机,安装了vmware虚拟机,需要访问公网资源,比如云服务商的yum仓库,国内镜像加速站的容器镜像,http/https资源。 需求2&#xf…

【git】git分支之谜-十分钟给你讲透彻

这里写自定义目录标题 引子分支的直观模型在 git 中,分支是完整的提交记录分支用commit ID存储人们的直觉通常并没有那么错rebase 使用“直观”的分支概念merge也使用“直观”的分支概念github pull request 也使用直观的想法直觉很好,但它也有一些局限性…

前端编程艺术(1)---HTML

目录 1.HTML 2.注释 3.标题标签 4.段落标签 5.换行与水平分隔线 6.文本格式化标签 7.图像标签和属性 8.超链接 8.列表标签 9.表格标签 10.表单标签 11.HTML5 1.HTML HTML(HyperText Markup Language,超文本标记语言)是一种用于创建…

【JAVA开源】基于Vue和SpringBoot的新闻推荐系统

本文项目编号 T 056 ,文末自助获取源码 \color{red}{T056,文末自助获取源码} T056,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

Node-RED系列教程-23node-red获取OPCDAServer数据(DCOM配置)

准备了一个干净的windows 2016虚拟机: administrator wong@123 以管理员身份进入系统: 准备好如下软件: 使用的nodejs版本为: 设置淘宝镜像源: npm config set registry https://registry.npmmirror.com 安装nodered: npm install -g --unsafe-perm node-red@2.2.2

如何组织鼠标的默认的事件

如何组织鼠标的默认的事件 我原先的代码是 dblclick"checkNode(data)"设置了一个双击的事件,我如果双击的话就会导致这个内容被选中。 选中内容的同时会触发浏览器默认的操作,导致出现复制的框这些东西。 解决的方法。加一句。 mousedown.pr…

Power apps:一次提交多项申请

1、添加一个Form,导入sharepoint列表,添加确认,继续,取消按钮 2、在页面的onvisible属性中添加 Set(applynumber,Last(付款申请表).申请编号1); #定义一个申请编号变量,每次申请,就将列表最后一个…

2024上海网站建设公司哪家比较好TOP3

判断一家网建公司的好坏,第一是看公司背景,包括成立时间,工商注册信息等,第二可以去看看建站公司做的案例,例如,网站开发、设计、引流等等的以往案例,了解清楚具体的业务流程。 一、公司背景 …

让小脚本成为自己高效测试的工具

测试中会遇到的工具 软件测试如果仅仅靠手工去执行会发现在很多地方力不从心,虽然市面上已经有大牛开源了一些测试工具可以供我们使用但是在一些公司特有的业务方面则需要我们借助开源或重新做一个自己的测试工具。 测试常用的开源工具 死链接检测工具 Xenu home…

【羊毛资源】华为云开发者云主机免费申请使用指南

本文内容均来自个人笔记并重新梳理,如有错误欢迎指正! 如果对您有帮助,烦请点赞、关注、转发、订阅专栏! 专栏订阅入口 | 精选文章 | Kubernetes | Docker | Linux | 羊毛资源 | 工具推荐 | 往期精彩文章 【Docker】(全…

SpringAOP实现的两种方式-JDK动态代理和CGLIB动态代理

前言 想要了解SpringAOP的实现方式,需要先了解什么是AOP OOP和AOP的区别 OOP 面向对象,允许开发者定义纵向的关系,但并适用于定义横向的关系,导致了大量代码的重复,而不利于各个模块的重用。 AOP,一般称为…