基于深度残差网络迁移学习的浸润性导管癌检测

1. 引言

        癌症是一种异常细胞不受控制地分裂损害健康组织的疾病。皮肤或覆盖我们内脏的组织中的癌细胞被称为癌。乳房中的大多数癌是导管癌。侵袭性导管癌(Invasive Ductal Carcinoma, IDC)始于乳管,侵犯乳房周围纤维组织,晚期可通过血液扩散至淋巴结或身体其他部位,威胁患者生命。这种恶性肿瘤的治疗取决于它的分期、严重程度和它所属的亚型。事实证明,早期诊断有助于减少治疗过程中的并发症,从而提高患者的生存几率。

        IDC癌的诊断可基于病理任务,包括显微镜观察和多片载玻片检查。但是这种测试方法既耗时又容易出错。因此,为了辅助测试过程,可以采用计算机辅助诊断(CAD)测试方案,主要涉及基于深度学习(DL)的方法。对组织病理学图像进行图像分析是鉴别和识别癌症亚型的一种有效方法。

        组织病理学图像是在特定放大倍数(x10, x20或x40)下染色活检样本的WSI数字化扫描。研究了IDC阳性病例的组织病理切片图像。深度学习模型可以根据从组织病理学图像中提取的代表乳腺癌组织成分的特征来学习对阳性样本进行分类。本文中,提出了一种由基于ResNet的特征提取器组成的深度学习模型,该模型可以有效地提取组织特征,分类器头部使用这些特征对IDC组织病理图像样本进行准确分类。

1.1 机器学习(ML)方案

        预处理的重要性:ML算法通常需要在预处理后的数据集上进行训练。预处理的方式和性质对ML模型的性能有重要影响。

        线性回归与ANN:Turgay等人[8]比较了线性回归和人工神经网络(ANN)在癌症样本分类中的应用。

        SVM与图像增强:M.A.Awasthy等人[9]提出了一种基于支持向量机(SVM)的模型,其中使用图像增强技术对组织病理学图像进行增强,并通过分割在预处理步骤中提取关键特征。这些特征随后被输入到分类器中。通过分割进行特征提取的预处理步骤有助于提高模型性能,与其他ML模型(如KNN和ANN)相比。

        Catboost模型:S.D.Roy等人[10]提出了一种Catboost模型,该模型在通过堆叠各种文本特征并应用皮尔逊相关性而提取的782个特征上进行训练时,取得了高准确性。

1.2 深度学习(DL)方案

        大数据集与计算成本:组织病理学图像数据集通常非常大,预处理这样的数据集是一个计算成本高昂的任务。

        CNN的应用:为了应对这一挑战,基于DL的模型发挥了显著作用,因为它们即使在基本预处理后也能表现出色。卷积神经网络(CNN)因其从空间相邻特征中学习的能力而成为医学图像处理应用领域中最有效的模型之一。

        CNN架构:A.C. Roa等人[11]提出了一种具有3层CNN架构的模型,该模型在考虑到数据巨大规模的情况下,对样本图像进行了16:1的缩小训练。

        残差网络:C. C. Chatterjee等人[12]提出了一种具有4个残差块的残差网络,每个残差块由2D卷积层构成。该模型的限制是它从未在整个数据集上进行训练,而是仅在数据集的一个子集(即代表性数据集)上进行了实施。

3. 提出的方法

        带有跳跃连接的残差网络作为最优解决方案,尽管神经网络的维数很大,但跳跃连接传播损失却没有太大的退化。跳跃连接通过在卷积层之间具有中间连接来促进输出层和输入层之间的梯度流动。

3.1 数据集预处理

        由于IDC数据集的规模非常大,直接在整个数据集上训练模型是一项计算密集型的任务。这意味着训练过程可能需要很长时间,并且需要强大的计算资源。为了解决这个问题,研究者们选择了使用k-fold交叉验证的方法来训练和优化模型。这种方法将数据集分成k个部分(或“折”),然后多次进行训练和测试,每次使用不同的折作为训练集和测试集。

        在特定的例子中,数据集被分为9折,其中7折用于训练数据集,2折用于测试训练好的模型。这样,每个样本都有机会被用作测试集的一部分,这有助于更准确地评估模型的性能。测试集由数据集的2折组成,总共包含大约59,462个样本。这意味着训练集和测试集之间的比例大约是80:20,用于在机器学习项目中评估模型的性能。

        每个折中IDC正样本(即存在浸润性导管癌的样本)和IDC负样本(即不存在浸润性导管癌的样本)的比例是不均等的,这导致数据分布出现偏斜。这种不平衡的数据分布可能会挑战模型的学习能力和性能,因为模型可能更偏向于预测数量更多的类别(在这种情况下是IDC负样本)。

        为了解决样本不平衡的问题,研究者们采取了一种称为“随机采样”的策略。随机选择IDC负样本以形成一个新的样本集,这个新样本集中的IDC负样本数量与IDC正样本数量相同。通过这样做,每个折的IDC正样本和IDC负样本数量变得相等,从而解决了数据分布不平衡的问题

3.2 模型开发

        残差网络是由多层卷积网络通过跳跃连接相互连接而成的。对于特征提取,使用一个预训练的CNN编码器ResNet152。ResNet152返回一个具有2048个特征的特征向量。这些提取的特征被输入到全连接层以生成输出。

        1)预训练特征提取器:ResNet是一个由多个CNN层组成的深度学习模型。残差学习的概念形成了联系。考虑需要学习的映射为H(x),当拟合多个非线性层时,模型F(x)学习到的映射可以定义为:

F(x)=H(x)-x 

x是模型没有学习到的残差。因此,原始映射可以推导为: H(x)=F(x)+x

ResNet152架构

由152个CNN层堆叠并通过跳跃连接连接。 

        利用预训练的ResNet152模型从组织病理学图像中提取重要特征。从组织病理学图像中提取特征是预训练模型的下游任务。利用或嵌入预训练模型作为下游任务整体架构的组成部分的方法称为迁移学习。使用Imagenet分类任务训练后更新的最优权值从组织病理图像中提取特征,用于IDC分类下游任务。

        2)分类器头(Classifier head):从残差网络中提取的特征作为全连接层的输入,最终的Time分布致密层作为分类器头,通过预测给定样本的类概率来进行二值分类。

        3)激活函数:激活函数在输出中引入非线性,使非凸状态变为凸,从而使凸函数的优化(通过梯度下降)变得可行。

4. 实验结果

        数据集被划分为 f_k折(folds),其中 是一个整数。训练集由\{f_1,f_2,...f_{k-m}\}组成,而测试集由\{f_{k-m+1},......,f_k\}组成。在这个例子中,训练集包含了 k-m 折数据,而测试集包含了剩下的    折数据。

        对于训练集中的每一折 f_i,模型都会进行训练。由于数据集体积庞大,每次训练完一折数据后,都会保存模型的检查点(checkpoint),以便保存优化后的权重,这些权重将被用于下一折f_{i+1} 的训练。这个过程会持续到所有训练折都被训练完毕。

        当模型对所有训练折都进行了训练后,最终优化后的权重将被用于在测试集的所有折上进行验证。如果测试集包含多折数据(即n(testset)>1fold),那么将在每一折上进行测试,并将每个折上的性能指标进行加权平均,以得出最终的评估结果。例如,如果测试集包含两折\{f_1,f_2\},那么平均准确率将是mean\_accuracy=\frac{(acc_{f_1}*n(f_1))+(acc_{f_2}*n(f_2))}{n(f_1)+n(f_2)}

实验设置

        实验使用了Keras框架来实现提出的模型架构。优化器选择了Adam,学习率设置为0.001。损失函数是二元交叉熵损失函数。性能评估指标考虑了准确率、召回率和AUC。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1483707.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】线程——线程池、线程池的实现、线程安全的线程池、单例模式的概念、饿汉和懒汉模式、互斥锁、条件变量、信号量、自旋锁、读写锁

文章目录 Linux线程7. 线程池7.1 线程池介绍7.2 线程池的实现7.3 线程安全的线程池7.3.1 单例模式的概念7.3.2 饿汉和懒汉模式 8. 常见锁使用汇总8.1 互斥锁(Mutex)8.2 条件变量(Condition Variable)8.3 信号量(Semaph…

华为云GaussDB部署指南:主备架构的常见问题与解决方案

文章目录 华为云GaussDB部署指南:主备架构的常见问题与解决方案背景介绍部署步骤1.修改主机名2.软件安装检查3.禁用交换内存4.创建数据目录并挂载5.配置NTP时钟同步6.添加资源限制参数7.修改网卡的MTU8.上传安装工具包9.编辑集群配置文件10.修改集群安装模板11.安装…

ROS、pix4、gazebo、qgc仿真ubuntu20.04

一、ubuntu、ros安装教程比较多,此文章不做详细讲解。该文章基于ubuntu20.04系统。 pix4参考地址:https://docs.px4.io/main/zh/index.html 二、安装pix4 1. git clone https://github.com/PX4/PX4-Autopilot.git --recursive 2. bash ./PX4-Autopilot…

可视化剪辑,账号矩阵,视频分发,聚合私信一体化营销工具 源----代码开发部署方案

可视化剪辑: 为了实现可视化剪辑功能,可以使用流行的视频编辑软件或者开发自己的视频编辑工具。其中,通过设计用户友好的界面,用户可以简单地拖拽和放大缩小视频片段,剪辑出满足需求的视频。在开发过程中,可…

SpringBoot框架学习笔记(四):yaml 介绍及其使用

1 yaml 介绍 百度百科:YAML 是 “YAML Aint a Markup Language”(YAML 不是一种标记语言)的递归缩写。在开发这种语言时,YAML 的意思其实是:“Yet Another Markup Language”(仍是一种标记语言&#xff09…

电流测量分流电阻

电流测量分流电阻 测量电流的设备称为安培计。大多数现代安培计测量已知电阻的精密电阻上的电压降。电流的计算使用欧姆定律:我五R 大多数电流表都内置电阻器来测量电流。但是,当电流对于电流表来说太高时,需要不同的设置。解决方案是将电流…

使用 Flask 3 搭建问答平台(三):注册页面模板渲染

前言 前端文件下载 链接https://pan.baidu.com/s/1Ju5hhhhy5pcUMM7VS3S5YA?pwd6666%C2%A0 知识点 1. 在路由中渲染前端页面 2. 使用 JinJa 2 模板实现前端代码复用 一、auth.py from flask import render_templatebp.route(/register, methods[GET]) def register():re…

= null 和 is null;SQL中关于NULL处理的4个陷阱;三值逻辑

一、概述 1、NULL参与的所有的比较和算术运算符(>,,<,<>,<,>,,-,*,/) 结果为unknown&#xff1b; 2、unknown的逻辑运算(AND、OR、NOT&#xff09;遵循三值运算的真值表&#xff1b; 3、如果运算结果直接返回用户&#xff0c;使用NULL来标识unknown 4、如…

IAR嵌入式开发解决方案已全面支持芯科集成CX3288系列车规RISC-V MCU,共同推动汽车高品质应用的安全开发

中国上海&#xff0c;2024年7月16日 — 全球领先的嵌入式系统开发软件解决方案供应商IAR与芯科集成电路&#xff08;以下简称“芯科集成”&#xff09;联合宣布&#xff0c;最新版本IAR Embedded Workbench for RISC-V 3.30.2功能安全版已全面支持芯科集成CX3288系列车规RISC-V…

目标检测IOU和NMS详解

1. 目标检测中两个重要的概念:IOU和NMS 1, 具体来说&#xff0c;它是两边界框相交部分面积与相并部分面积之比&#xff0c;如下所示&#xff1a; 2.原理 这里详细解释一下计算的原理&#xff1a; 一般来说我们给定框的坐标有两种形式&#xff1a; [x,y,w,h] (或者说是[x,y,h,…

windows 11 PC查询连接过的wlan密码

1:管理员打开cmd 2:输入netsh wlan show profiles 3:netsh wlan show profiles Shw2024-5G keyclear 密码关键内容&#xff1a;12345678

全时守护,无死角监测:重点海域渔港视频AI智能监管方案

一、方案背景 随着海洋经济的快速发展和海洋资源的日益紧缺&#xff0c;对重点海域渔港进行有效监控和管理显得尤为重要。视频监控作为一种高效、实时的管理手段&#xff0c;已成为渔港管理中不可或缺的一部分。当前&#xff0c;我国海域面积广阔&#xff0c;渔港众多&#xf…

Token Labeling(NeurIPS 2021, ByteDance)论文解读

paper&#xff1a;All Tokens Matter: Token Labeling for Training Better Vision Transformers official implementation&#xff1a;https://github.com/zihangJiang/TokenLabeling 出发点 ViTs的局限性&#xff1a;尽管ViTs在捕捉长距离依赖方面表现出色&#xff0c; 但…

Postman导出excel文件

0 写在前面 在我们后端写接口的时候&#xff0c;前端页面还没有出来&#xff0c;我们就得先接口测试&#xff0c;在此记录下如何使用postman测试导出excel接口。 如果不会使用接口传参可以看我这篇博客如何使用Postman 1 方法一 2 方法二 3 写在末尾 虽然在代码中写入文件名…

Linux 推出 Redis 分支 Valkey

Valkey——一个开源高性能键值存储 Redis 公司宣布更改开源许可之后&#xff0c;社区里出现了多个 Redis 分支&#xff0c;如 Redict、Valkey 等 2024 年 3 月 21 日&#xff0c;Redis 背后企业 Redis 的 CEO Rowan Trollope 宣布&#xff0c;该项目的许可证类型将从原本的 BS…

VLAN 划分案例详解

vlan 的应用在网络项目中是非常广泛的&#xff0c;基本上大部分的项目都需要划分 vlan&#xff0c;这里从基础的 vlan 的知识开始&#xff0c;了解 vlan 的划分原理。 为什么需要 vlan&#xff1a; 1、什么是 VLAN&#xff1f; VLAN&#xff08;Virtual LAN&#xff09;&…

SpringCloud------Sentinel(微服务保护)

目录 雪崩问题 处理方式!!!技术选型 Sentinel 启动命令使用步骤引入依赖配置控制台地址 访问微服务触发监控 限流规则------故障预防流控模式流控效果 FeignClient整合Sentinel线程隔离-------故障处理线程池隔离和信号量隔离​编辑 两种方式优缺点设置方式 熔断降级-----…

【JavaEE-多线程背景-线程等待-线程的六种状态-线程安全问题-详解】

&#x1f308;个人主页&#xff1a;SKY-30 ⛅个人推荐&#xff1a;基于java提供的ArrayList实现的扑克牌游戏 |C贪吃蛇详解 ⚡学好数据结构&#xff0c;刷题刻不容缓&#xff1a;点击一起刷题 &#x1f319;心灵鸡汤&#xff1a;总有人要赢&#xff0c;为什么不能是我呢 &…

高性能、安全、低碳绿色的趋势下,锐捷网络发布三擎云办公解决方案 3.0

桌面虚拟化作为云时代的主流和热门技术&#xff0c;已经取得了广泛应用。随着生成式 AI 爆炸式发展&#xff0c;CSDN 看到&#xff0c;人工智能正在引发计算、开发、交互三大范式的全面升级&#xff0c;技术开发或将迎来一次全新的科技变革周期&#xff0c;因此 VDI 云桌面随之…

20分钟迁移完阿里云ECS跨区域迁移,用老操作系统作为新服务操作系统

由于特殊原因或者数据备份需要迁移ecs服务器 跨区域复制 镜像复制 由于特殊原因或者数据备份需要迁移ecs服务器 1.老服务快照 选择ecs实例&#xff0c;点开实例 进入云盘 https://ecs.console.aliyun.com/disk 在云盘上点击建立快照 https://oss.console.aliyun.com/bu…