传知代码-多示例AI模型实现病理图像分类

代码以及视频讲解

本文所涉及所有资源均在传知代码平台可获取

概述

本文将基于多示例深度学习EPLA模型实现对乳腺癌数据集BreaKHis_v1的分类。EPLA模型是处理组织病理学图像的经典之作。EPLA模型是基于多示例学习来进行了,那么多示例学习模型对处理病理学图像具有天然的优势,因为多示例学习(Multiple Instance Learning 简称 MIL)是由监督型学习算法演变出的一种方法,定义“”为多个示例的集合,具有广泛的应用。学习者不是接收一组单独标记的实例,而是接收一组带标签的包,每个包拥有多个实例。在多实例二进制分类的简单情况下,如果包中的所有实例都是否定的,则可以将包标记为否定。另一方面,如果包中只要至少有一个是正面的,则包被标记为阳性。所以这与将组织病理学图像WSI就可以认为是一个包;而从WSI切分下来的patch就可以认为是一个个示例
在这里插入图片描述

EPLA框架解读

EPLA原文是用来预测结直肠癌微卫星不稳定性MSI的,但是在摘要部分明确说明了可以用来预测其他数据集,这也得益于多示例模型处理病理学图像的天然优势。下面就来看一下论文整体的框架结构图
在这里插入图片描述

数据预处理

在原文中拿到组织病理学图像WSI后,首先要对WSI中的肿瘤区域进行标注,然后进行切成小patch,这是因为:

聚焦关键区域:病理图像通常非常大,包含大量的背景信息(如正常组织、脂肪组织等),这些信息对肿瘤检测和分类没有帮助。通过对肿瘤区域进行标注,可以引导模型关注关键的病变区域,从而提高模型的训练效率和性能。
减小计算复杂度:病理学图像(特别是全切片图像,WSI)通常非常大,直接处理整张图像需要消耗大量的计算资源和内存。将大图像切片成小块(patch)不仅降低了计算的复杂性,还能有效利用现有的计算资源进行模型训练。
数据增强和多样性:通过将图像切成多个patch,可以大大增加可用于训练的数据量。这些patch代表了同一图像中的不同局部区域,能够让模型在学习时看到更多的变异性,提升模型的泛化能力。
平衡正负样本比例:在病理图像中,肿瘤区域通常占比较小。通过切片成patch并对肿瘤区域进行标注,能够更好地平衡肿瘤区域(正样本)和非肿瘤区域(负样本)的比例,防止模型过拟合于背景信息。
捕捉局部细节:病理图像中有许多重要的微观结构,例如细胞形态、细胞核大小、密度等。切成patch后,模型可以更专注于局部特征的学习,从而更好地捕捉与疾病相关的细节。
提高训练效率:小尺寸的patch在计算上更快,易于并行处理。这样不仅能够加快模型的训练速度,还能更好地利用硬件资源(如GPU)。

在patch级别的预测中,使用残差卷积神经网络(ResNet-18)进行训练,通过MIL框架计算patch的预测概率,其中每个patch被分配了WSI的标签。网络的优化采用了二元交叉熵(BCE)损失函数,使用小批量梯度下降法进行训练。

词袋模型

BoW方法中,每个patch被映射为一个TF-IDF浮点变量,并计算TF-IDF特征向量来表示WSI。然后使用传统机器学习分类器对这些特征向量进行训练,以预测每个WSI的MS状态。具体可以理解为:

在BoW方法中,首先把大图像切成小块(patch),然后通过一种叫做TF-IDF的技术,把每个小块的特征转化为数值。TF-IDF原本是用在文本分析中的,可以帮助我们理解哪些词在一篇文章里更重要。这里,我们用类似的方法来判断每个小块图像的重要性
接着,把这些数值组合成一个特征向量,用来代表整张大图像。然后,使用传统的机器学习算法,比如朴素贝叶斯,来对这些特征进行训练,最终的目标是预测这张大图像的微卫星状态(即判断图像是否有微卫星不稳定性,和癌症相关)。

PALHI模型

在PALHI方法中,先对大图像(WSI)进行分割成小块(patch),然后为每个小块进行预测,得出这些小块的预测概率。接着,将这些小块的预测概率用直方图的形式汇总,直方图记录了每种概率值出现的频率,从而形成一个特征表示,这个特征就用来表示整个大图像(WSI)。
之后,利用一种叫做极端梯度提升(xgboost)的机器学习分类器,来处理这些直方图特征,并通过训练预测该大图像的微卫星状态(即判断图像是否表现出微卫星不稳定性)。xgboost是一种非常强大的分类器,它通过结合多个决策树模型来提高分类性能。

聚合

最后通过一定的比例将BoW模型和PALHI模型按照一定的比例进行聚合,从而做出最终的预测。

论文复现

数据集介绍

Spanhol等人(2016)发布BreakHis (breast cancer histopathological database )数据集包含了来自82位患者7909幅乳腺组织病理图像。BreakHis对乳腺的病变给出了细粒度的临床分型标注信息包括良性病变中的乳腺病(adenosis, A)、纤维腺瘤(fibroadenoma, F)、叶状瘤( phyllodes tumor, PT)管状腺瘤(tubular adenoma, TA) ,以及恶性病变中的导管癌(ductal carcinoma, DC)、小叶癌(lobular carcinoma, LC),黏液癌(mucinous carcinoma, MC)和乳头状癌(papillary carcinoma, PC)。这让BreakHis数据集不仅能推进良恶性二分类算法研究,还可以推进临床意义更重大的病理分型算法(多分类)研究。本文只针对良性和恶行进行二分类。
在这里插入图片描述
在这里插入图片描述

数据集处理

由于整张WSI的处理过程中涉及到肿瘤区域的标注,但是在实际情况中难以找到专业的病理学家为我们标注数据,因此,我们选用了已经数据预处理好的BreaKHis_v1数据集进行复现。
除此之外需要将切分好的数据集处理成csv文件:路径和标签两列。如下图:
在这里插入图片描述

以上是patch级别的标签,它继承了WSI的标签,为了获取WSI级别的预测结果也需要wsi级别的标签,如下:
在这里插入图片描述

环境配置

* torch 1.1.0
* torchvision 0.2.1
* numpy 1.15.2
* pandas 1.0.3
* xgboost 0.90
* pillow 5.3.0
* sklearn 0.23.1
* logging 0.5.1.2
* joblib 0.15.1
* pickle 4.0

运行步骤

  1. 特征提取
python dnnPatchClser_rst.py  # dnnPatchClser_rst.py为**附件**中的脚本,主要作用是**提取图像特征**。
def build_model_on(device):model_ft = models.resnet18(pretrained=True)#model_ft = torch.load(model_path,map_location=device)#num_ftrs = model_ft.fc.in_features#model_ft.fc = nn.Linear(num_ftrs, 2)#model_ft = model_ft.to(device)return model_ft

这里可以使用经过该数据集训练过的模型进行提取特征会更准确。比如使用ResNet网络对该数据集提取特征后保存的权重文件,重新加载到这个脚本中。这个脚本运行完成后会产生两个特征文件,train和test
2. PALHI模型

python PALHI.py     # PALHI.py 为**附件**中的脚本,主要作用是**得到patch的重要性**。

该脚本会加载 dnnPatchClser_rst.py产生的两个文件。

  1. BoW模型
python BoW.py  #  BoW.py 为**附件**中的脚本,主要作用是**WSI级别的概率**。

该脚本同样会加载 dnnPatchClser_rst.py产生的两个文件。

  1. 模型聚合
python ensemble.py       #  ensemble.py 为**附件**中的脚本,主要作用是**聚合上述两个结果**。

该脚本同样会加载 PALHI和BoW模型产生的两个文件。从而产生最终的预测结果

模型特点与改进建议

该模型能够从最基础的提取图像特征,得到每一个patch的特征值,然后将这些patch的预测概率用直方图的形式汇总,直方图记录了每种概率值出现的频率,从而形成一个特征表示。改进建议是可以采用其他的汇总方式得到的结果来表征WSI。接着使用词袋模型将每个patch被映射为一个TF-IDF浮点变量,并计算TF-IDF特征向量来表示WSI,然后使用传统机器学习分类器对这些特征向量进行训练,以预测每个WSI的MS状态。改进建议那么这里可以使用具有针对性的分类器,也可以进行相应的分类器的调参,提高预测准确率。

源码下载

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1540944.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

滚动条指定距离滚动

/*** scroller 滚动条元素* to 滚动到位置* duration 滚动时间*/ function scrollLeftTo (scroller, to, duration) {let rafIdlet count 0const from scroller.scrollLeftconst frames duration 0 ? 1 : Math.round((duration * 1000) / 16)function cancel () {cancelAn…

中间件知识点-消息中间件(Kafka)二

Kafka 一、Kafka介绍及基本原理 kafka是一个分布式的、支持分区的、多副本、基于zookeeper的分布式消息系统/中间件。 kafka一般不会删除消息,不管这些消息有没有被消费。只会根据配置的日志保留时间(log.retention.hours)确认消息多久被删除,默认保留…

Navicat数据库管理工具实现Excel、CSV文件导入到MySQL数据库

1.所需要的工具和环境 navicat等第三方数据库管理工具云服务器中安装了 1Panel面板搭建的mysql数据库 2.基于 1Panel启动mysql容器 2.1 环境要求 安装前请确保您的系统符合安装条件: 操作系统:支持主流 Linux 发行版本(基于 Debian / Re…

【Python机器学习】NLP信息提取——提取人物/事物关系

目录 词性标注 实体名称标准化 实体关系标准化和提取 单词模式 文本分割 断句 断句的方式 使用正则表达式进行断句 词性标注 词性(POS)标注可以使用语言模型来完成,这个语言模型包含词及其所有可能词性组成的字典。然后,该…

Jboss Administration Console弱⼝令

漏洞描述 Administration Console管理⻚⾯存在弱⼝令,admin:admin,登陆后台上传war包 , getshell 影响版本 全版本 环境搭建 因为这⾥⽤的环境是CVE-2017-12149的靶机 cd vulhub-master/jboss/CVE-2017-12149 docker-compose up -d 密码⽂件 /j…

开发易忽视的问题:InnoDB 行锁设计与实现

开发易忽视的问题:InnoDB 行锁设计与实现 存储模型和锁机制 存储结构 数据页: InnoDB 将表的数据存储在数据页中,每个页默认大小为 16KB。数据页中存储多个行记录,行记录按照主键顺序存放。 行格式: InnoDB 支持多种…

VSCode开发ros程序无法智能提示的解决方法(二)

VSCode开发ros程序无法智能提示的解决方法(二) 说明解决 说明 在Ubuntu下使用vscode开发ros程序,无法进行智能提示。 解决 将C/C更换为v1.20.5版本,如下图

sheng的学习笔记-AI-强化学习(Reinforcement Learning, RL)

AI目录:sheng的学习笔记-AI目录-CSDN博客 基础知识 什么是强化学习 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体&#…

Trainer API训练属于自己行业的本地大语言模型 医疗本地问答大模型示例

Trainer API 是 Hugging Face transformers 库中强大而灵活的工具,简化了深度学习模型的训练和评估过程。通过提供高层次的接口和多种功能,Trainer API 使研究人员和开发者能够更快地构建和优化自然语言处理模型 文章目录 前言一、Trainer API它能做什么…

RNN的反向传播

目录 1.RNN网络:通过时间反向传播(through time back propagate TTBP) 2.RNN梯度分析 2.1隐藏状态和输出 2.2正向传播: 2.3反向传播: 2.4问题瓶颈: 3.截断时间步分类: 4.截断策略比较 5.反向传播的细节 ​编辑…

达梦数据库踩坑

提示:第一次接触达梦,是真的不好用,各种报错不提示详细信息,吐槽归吐槽,还是需要学习使用的。 前言 题主刚接触达梦数据库时,本来是想下载官网的连接工具进行数据库连接的,但是谁曾想&#xff…

监控易监测对象及指标之:全面监控GBase数据库

在数字化时代,数据库作为企业核心数据资产的管理中心,其稳定性和性能直接关系到业务的连续性和企业的运营效率。GBase数据库作为高性能的分布式数据库系统,广泛应用于各类业务场景。为了确保GBase数据库的稳定运行和高效性能,对其…

git安装包夸克网盘下载

git安装包夸克网盘下载 git夸克网盘 git网站上的安装包下载速度有点慢,因此为了方便以后下载就将文件保存到夸克网盘上,链接:我用夸克网盘分享了「git」,点击链接即可保存。 链接:https://pan.quark.cn/s/07c73c4a30…

C++速通LeetCode中等第12题-矩阵置零(空间O(1)含注释)

class Solution { public:void setZeroes(vector<vector<int>>& matrix) {int m matrix.size();int n matrix[0].size();int flag_col0 false, flag_row0 false;//先记录第一行和第一列是否有零for (int i 0; i < m; i) {if (!matrix[i][0]) {flag_col…

基于单片机的智能健康水杯设计

摘要&#xff1a;随着时代的发展&#xff0c;单片机领域不断扩张。人工智能产品的出现改变了人们的生活方式。智能产品不仅加快了人们的生活节奏&#xff0c;还为人们的安全提供了保障。在快节奏生活的同时&#xff0c;人们开始越来越关注自己的身体健康&#xff0c;基于 52 单…

高级java每日一道面试题-2024年9月20日-分布式篇-什么是CAP理论?

如果有遗漏,评论区告诉我进行补充 面试官: 什么是CAP理论&#xff1f; 我回答: 在Java高级面试中&#xff0c;CAP理论是一个经常被提及的重要概念&#xff0c;它对于理解分布式系统的设计和优化至关重要。CAP理论是分布式系统理论中的一个重要概念&#xff0c;它描述了一个分…

c++11右值引用和移动语义

一.左值引用和右值引用 什么是左值引用&#xff0c;什么是右值引用 左值是一个表示数据的表达式&#xff08;变量名解引用的指针&#xff09;&#xff0c;我们可以获取到它的地址&#xff0c;可以对它赋值&#xff0c;左值可以出现在符号的左边。使用const修饰后&#xff0c;…

通威股份半年报业绩巨降:销售费用大增,近一年股价跌四成

《港湾商业观察》施子夫 王璐 光伏领域龙头企业通威股份&#xff08;600438.SH&#xff09;交出的半年报延续了2023年营收和净利润双下滑趋势&#xff0c;幅度显得更大。 即便受行业波动影响&#xff0c;但如何重整及提升盈利能力&#xff0c;通威股份还需要给出解决方案。​…

vue项目关闭浏览器中的全屏错误提示

vue.config.js module.exports {devServer: {client: {overlay: false }} }

c++优先级队列自定义排序实现方式

1、使用常规方法实现 使用结构体实现自定义排序函数 2、使用lambda表达式实现 使用lambda表达式实现自定义排序函数 3、具体实现如下&#xff1a; #include <iostream> #include <queue> #include <vector>using namespace std; using Pair pair<in…