【每天一篇深度学习论文】轻量化自适应提取模块LAE

目录

  • 论文介绍
    • 题目:
    • 论文地址:
  • 创新点
  • 方法
    • 模型总体架构
    • 核心模块描述
      • 1. 轻量级自适应提取(LAE)模块:
      • 2. 多路径旁路特征匹配(MSFM)模块:
      • 3. RFABlock(感受野注意力卷积)模块:
  • 即插即用模块作用
  • 消融实验结果
  • 核心代码

论文介绍

题目:

LSM-YOLO: A Compact and Effective ROI Detector for Medical Detection

论文地址:

链接: https://arxiv.org/pdf/2408.14087

创新点

  1. 轻量级模型设计:提出了一种新型的模型,名为 Lightweight Shunt Matching-YOLO (LSM-YOLO),它结合了 Lightweight Adaptive Extraction (LAE) 和 Multipath Shunt Feature Matching (MSFM),旨在提高医学图像中感兴趣区域(ROI)的检测性能,同时保持模型的轻量化。

  2. 多尺度特征提取:通过 LAE 模块,模型能够在多尺度特征图上提取更多的上下文信息和高分辨率细节,减少噪声的影响,同时提取医学图像中 ROI 的详细特征。

  3. 特征融合机制:MSFM 模块用于进一步优化高级语义特征和低级视觉特征的融合,使得 ROI 特征与邻近特征之间的融合更好,从而提高检测率,辅助诊断。

  4. 改进的检测性能:实验结果表明,LSM-YOLO 在胰腺肿瘤私有数据集上达到了 48.6% 的 AP,BCCD 血细胞检测公共数据集上达到了 65.1% 的 AP,以及 Br35h 脑肿瘤检测公共数据集上达到了 73.0% 的 AP,均优于现有技术。

  5. 参数和计算成本的最小化:LSM-YOLO 在上述三个数据集上实现了最先进的性能,同时参数成本最小。

  6. 针对小目标检测的优化:为了解决医学成像中众多小目标的问题,LSM-YOLO 优化了输出头,扩展了 Path Aggregation-Feature Pyramid Network (PA-FPN) 结构,以提高对小目标的检测能力。

  7. 注意力机制的引入:通过引入 RFABlock(Receptive-Field Attention Convolutional operation),模型在特征提取的初始阶段学习对象区域与其周围环境之间的相似性和差异性。

  8. 多尺度特征的平衡:LSM-YOLO 通过平衡高级语义信息和低级视觉信息,解决了仅依赖单尺度特征时可能遗漏的细节信息问题。

方法

模型总体架构

LSM-YOLO模型的总体架构包含一个用于特征提取的骨干网络,一个用于特征整合的头部结构,以及四个输出头用于最终的检测输出。该模型通过轻量级自适应提取(LAE)模块来获取多尺度的特征图,并利用多路径旁路特征匹配(MSFM)模块来精细融合高低层次的语义和视觉特征。此外,模型中还引入了RFABlock来扩大感受野,通过将注意力机制整合到卷积过程中,增强模型对对象区域及其周围环境特征的学习能力。这样的设计使得LSM-YOLO在保持模型轻量化的同时,能够有效提升医学图像中感兴趣区域的检测性能。

在这里插入图片描述

核心模块描述

LSM-YOLO模型的核心模块包括:

1. 轻量级自适应提取(LAE)模块:

这个模块负责从医学图像中提取多尺度的特征图。它通过智能地减少参数数量和计算量,同时保留尽可能多的信息丰富的特征,来增强模型对感兴趣区域的细节特征的捕捉能力。LAE模块通过两个并行的分支工作,一个分支集中于将图像的高度和宽度信息映射到通道上,另一个分支计算相应的信息权重,从而在下采样过程中减少边缘信息的丢失。
在这里插入图片描述

2. 多路径旁路特征匹配(MSFM)模块:

该模块用于进一步优化高级语义特征和低级视觉特征的融合。它通过分析输入特征张量在高度、宽度和通道维度上的信息,来增强模型对不同尺度目标的捕获能力。MSFM模块采用旁路结构,通过分割操作保留原始特征,并通过空间和通道信息的交互,提升模型对感兴趣区域及其周围环境特征的学习能力。
在这里插入图片描述

3. RFABlock(感受野注意力卷积)模块:

这个模块通过引入空间注意力机制到卷积操作中,增强模型在特征提取初期对对象区域与其周围环境之间相似性和差异性的学习。它有助于模型在早期阶段就识别出对象区域,为后续的特征融合和目标检测提供更准确的特征表示。

即插即用模块作用

LAE 作为一个即插即用模块

任务

  • 目标检测:识别图像中的一个或多个目标,如医学图像中的肿瘤、交通监控中的车辆和行人。
  • 图像分割:将图像分割成不同的区域或对象,如在医学图像中分割出不同的组织和器官。
  • 特征提取:从图像中提取有用的特征,用于后续的分类、识别或其他分析任务。

LAE模块因其轻量化和高效的特征提取能力,特别适合于需要实时或近实时处理的应用场景,以及计算资源受限的环境。

消融实验结果

在这里插入图片描述

  • 通过对 RFABlock、LAE 和 MSFM 三个核心模块的独立及联合测试,展示了它们对模型性能的显著影响。单独使用每个模块均能提升检测性能,其中 MSFM 贡献最大,而三者协同使用时达到最佳效果,AP50:95 提升至 48.6%。这表明三个模块在特征提取、融合和上下文理解中的作用互补且设计合理。
  • 表5 针对 LAE 模块内部的轻量化提取(LE)、自适应提取(AE)和维度映射(DM)三个组件进行了测试,发现每个组件单独启用均能提升检测性能,联合使用时效果更优,其中 DM 的加入进一步强化了上下文特征的整合能力,使 AP50:95 达到 48.6%。这验证了 LAE 模块在高效提取多尺度特征上的设计优势。
  • 表6 测试了 MSFM 模块中空间信息处理和通道信息处理的独立及联合效果,发现两者单独启用时各自提高了检测性能,而同时启用时 AP50:95 提升至最高的 48.6%。这表明空间与通道信息处理在特征融合上具有显著的互补性,有助于增强 ROI 区域与邻域特征的交互,提升检测精度和鲁棒性。

核心代码

import torch
import torch.nn as nn
from einops import rearrange
# 论文地址:https://arxiv.org/pdf/2408.14087
# 论文:LSM-YOLO: A Compact and Effective ROI Detector for Medical Detectiondef autopad(k, p=None, d=1):  # kernel, padding, dilation"""Pad to 'same' shape outputs."""if d > 1:k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k] # actual kernel-sizeif p is None:p = k // 2 if isinstance(k, int) else [x // 2 for x in k] # auto-padreturn pclass Conv(nn.Module):"""Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation)."""default_act = nn.SiLU() # default activationdef __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):"""Initialize Conv layer with given arguments including activation."""super().__init__()self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)self.bn = nn.BatchNorm2d(c2)self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()def forward(self, x):"""Apply convolution, batch normalization and activation to input tensor."""return self.act(self.bn(self.conv(x)))def forward_fuse(self, x):"""Perform transposed convolution of 2D data."""return self.act(self.conv(x))class LAE(nn.Module):# Light-weight Adaptive Extractiondef __init__(self, ch, group=16) -> None:super().__init__()self.softmax = nn.Softmax(dim=-1)self.attention = nn.Sequential(nn.AvgPool2d(kernel_size=3, stride=1, padding=1),Conv(ch, ch, k=1))self.ds_conv = Conv(ch, ch * 4, k=3, s=2, g=(ch // group))def forward(self, x):# bs, ch, 2*h, 2*w => bs, ch, h, w, 4att = rearrange(self.attention(x), 'bs ch (s1 h) (s2 w) -> bs ch h w (s1 s2)', s1=2, s2=2)att = self.softmax(att)# bs, 4 * ch, h, w => bs, ch, h, w, 4x = rearrange(self.ds_conv(x), 'bs (s ch) h w -> bs ch h w s', s=4)x = torch.sum(x * att, dim=-1)return xif __name__ == '__main__':input = torch.randn(1, 16, 64, 64) # B C H Wblock = LAE(ch=16)output = block(input)print(input.size())    print(output.size())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/35103.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Linux中文件操作

文件由文件内容和文件属性构成,因此对文件的操作就是对文件内容或文件属性的操作。所谓的“打开一个文件”就是将文件的属性或内容加载到内存中,而没有被打开的文件存在于磁盘上。打开的文件称作“内存文件”,未被打开的文件称作“磁盘文件”…

hhdb数据库介绍(10-42)

安全 SQL防火墙 管理平台提供的SQL防火墙功能可为用户拦截高危SQL、误操作SQL等,提升系统安全性。 同时防火墙提供观测功能,可在开启新规则前,通过开启观测状态,判断新规则对业务的影响程度。开启观测状态后,计算节…

白嫖VMware ESXi 8.0 U3新功能Live Patch、无需重启零中断修复漏洞

哈喽大家好,欢迎来到虚拟化时代君(XNHCYL),收不到通知请将我点击星标!“ 大家好,我是虚拟化时代君,一位潜心于互联网的技术宅男。这里每天为你分享各种你感兴趣的技术、教程、软件、资源、福利…

JavaSE学习心得(API与算法篇)

常用API和常见算法 前言 常用API Math System Runtime Object ​编辑浅克隆 深克隆 Objects Biginteger 构造方法 成员方法 底层存储方式 Bigdecimal 构造方法 Bigdecimal的使用 底层存储方式 ​编辑正则表达式 两个判断练习 两个爬取练习 贪婪爬取和非贪…

如何开发高效的企业内训APP?教育培训系统源码搭建实战详解

本篇文章,小编将从教育培训系统的源码搭建、功能设计以及技术实现等方面,详细探讨如何开发一款高效的企业内训APP。 一、企业内训APP的需求分析 在开发企业内训APP之前,首先需要明确其基本需求。一个高效的企业内训APP应该具备以下几个核心…

解释器模式的理解和实践

引言 解释器模式(Interpreter Pattern)是一种行为型设计模式,它在软件工程中用得相对较少,但在某些特定场景下非常有用。解释器模式提供了一种解释语言的语法或表达式的方式,它定义了一个表达式接口,并通过…

Z029 PHP+MYSQL+LW+饭店预订管理系统的设计与实现 源代码 配置 文档

饭店预订管理系统 1.项目描述2. 开发背景与意义3.项目功能结构4.界面展示5.源码获取 1.项目描述 近几年来,我国计算机信息技术发展迅速,各种各样的信息管理系统层出不穷。互联网电子商务的热潮,改变了人们生活习惯,而作为城市经济…

【力扣热题100】—— Day5.回文链表

正视自己的懦弱和无能,克服自己的嫉妒与不甘 —— 24.12.3 234. 回文链表 给你一个单链表的头节点 head ,请你判断该链表是否为 回文链表 。如果是,返回 true ;否则,返回 false 。 示例 1: 输入&#xff1a…

什么是大数据、有什么用以及学习内容

目录 1.什么是大数据? 1.1大数据的类型 1.2大数据的来源 1.3大数据处理的挑战 1.4大数据的核心技术 2.大数据有什么用? 2.1商业与营销: 2.2医疗与健康: 2.3金融服务: 2.4政府与公共服务: 2.5交通…

Docker 安装 中文版 GitLab

Docker 安装系列 安装GitLab、解决服务器内存不足问题、使用域名/IP地址访问项目 1、拉取 [rootTseng ~]# docker pull twang2218/gitlab-ce-zh:latest latest: Pulling from twang2218/gitlab-ce-zh 8ee29e426c26: Pull complete 6e83b260b73b: Pull complete e26b65fd11…

分布式数据库环境(HBase分布式数据库)的搭建与配置

分布式数据库环境(HBase分布式数据库)的搭建与配置 1. VMWare安装CentOS7.9.20091.1 下载 CentOS7.9.2009 映像文件1.2启动 VMware WorkstationPro,点击“创建新的虚拟机”1.3在新建虚拟机向导界面选择“典型(推荐)”1…

ssh连接工具

我们未来接触到的linux系统一般情况下是没有界面(桌面环境),我们一般会在自己工作的电脑上,通过相关ssh工具,利用网络连接到远程的你的服务器上。连接工具有很多:mobaxterm、xshell/xftp、putty等等 mobaxt…

苹果 ATS 配置SSL证书

Apple的App Transport Security (ATS) 是一项安全机制,旨在确保iOS和macOS应用的网络通信使用HTTPS加密。自iOS 9和OS X 10.11以来,默认情况下所有网络请求都必须使用HTTPS,除非明确允许非HTTPS连接。 在2017年1月1日之前,开发者可…

安卓逆向之对抗Anti-Frida学习

基础补充 什么是 Anti-Frida 保护? Anti-Frida保护是指在移动应用或程序中采用的一种安全技术或防护机制,旨在防止或干扰Frida等动态分析工具的注入与使用。 Anti-Frida保护常见技术 有哪些? 检测frida-agent.so的注入 : Fr…

安全架构评审

安全架构评审 1.概述2.安全设计原则3.美团安全架构评审模型安全需求分析架构review攻击面分析和威胁建模攻击面分析威胁列表 1.概述 完整的安全评审会包含安全架构评审、安全代码审核和安全测试三个手段 安全架构评审聚焦于探寻安全设计中的漏洞,以宏观视野全面考…

迎接国庆,我上线了第一款小程序

最近花了些时间,写了一个 “国庆头像” 小程序。正好快国庆节了,于是分享一下我的这个 “Starstick星点贴纸” 小程序,顺便简单讲讲以及其中的设计、开发、上线过程。 小程序的界面是这样的: 🔮背景 今年中秋前夕&am…

房产销售系统

文末获取源码和万字论文,制作不易,感谢点赞支持。 摘 要 随着科学技术的飞速发展,各行各业都在努力与现代先进技术接轨,通过科技手段提高自身的优势;对于房产销售系统当然也不能排除在外,随着网络技术的不…

开发一套ERP 第二个生产版本

库存管理第一个生产版本 Okay 进入测试 嘿嘿,搞完了,剩下的就是细测慢调了 下一版本可以内置sqlite 数据库来操作这些数据表,sqlite 也支持 trigger 的功能

Weiss 机器人电动夹爪,重塑工业自动化精密操作

在当今的自动化进程里,Weiss高精密电动夹爪扮演着重要的角色。Weiss公司位于德国,其精心研制的高精密电动夹爪专为工业机器人与协作机器人打造。 Weiss 高精密电动夹爪的控制方式独具特色,与传统的一些夹爪相比,Weiss电动夹爪在处…

【JVM虚拟机】面试经典八股文(应届生必看)

目录 1.JDK、JRE、JVM三者关系? 2.谈谈JVM的理解? 3.JVM执行字节码的过程?(执行方式) 4.JVM的组成是什么? 5.什么是类加载机制? 6.什么是双亲委派模型? 7.JVM内存模型 8.堆区的…