YOLO11改进|SPPF篇|引入YOLOv9提出的SPPELAN模块

在这里插入图片描述

一、【SPPELAN】模块

1.1【SPPELAN】模块介绍

在这里插入图片描述

下图是【SPPELAN】的结构图，让我们简单分析一下运行过程和优势

处理过程：

分割与传递（Transition and Split）：
首先，输入经过 Transition 模块，进行数据的转换和处理。接着，特征会被 Split（分割），将特征图分成多个部分进行独立处理。这一步将大的计算任务分散到多个独立的分支中进行处理，提升并行处理能力。
并行块（Parallel Blocks）：
分割后的每个特征部分被送入不同的 Block 模块进行处理。每个 block 可以表示任意的计算模块（如卷积、注意力模块等），通过并行计算提高处理效率。图中显示了多个重复的 block，并且可以将特征多次传递给下一个 block 以提升特征提取的深度。
拼接（Concatenation）：
多个 block 处理后的特征经过一个 Concatenation（拼接）操作，将所有的并行分支的特征重新整合起来。这一步将之前独立处理的特征重新组合成统一的特征图，使得各个 block 提取到的信息能够相互补充。
最终传递（Final Transition）：
最后，经过另一个 Transition 模块，将拼接后的特征进行最终处理，生成输出。这一步可以进行进一步的特征处理或降维操作，以便于后续网络层使用。
优势：
并行计算加速：
GELAN 模块通过将输入特征分割成多个部分并行处理，显著减少了计算时间，尤其在处理大规模数据时。这种分布式计算方式提高了整体效率，使得网络在计算复杂度上得到了优化。
增强特征表达：
不同的并行 block 可以处理特征的不同方面，使得模型能够从多维度、多尺度捕捉信息。通过整合这些特征，模型对输入数据的理解更加全面，有助于提升任务的准确性。
模块化设计的灵活性：
由于每个 block 可以是任意的计算模块，GELAN 具有很大的灵活性，可以适应不同的任务需求。例如，block 可以是卷积模块、注意力模块或其他特征提取单元，网络架构的可配置性大大提高。
特征信息的充分利用：
拼接操作确保了每个分支提取到的特征不会丢失，各个并行分支提取的特征能够相互补充和结合，从而充分利用了每个部分的信息。这一设计有助于提升模型的性能，特别是处理复杂场景或多类别任务时。

1.2【SPPELAN】核心代码

import torch
import torch.nn as nn
def autopad(k, p=None, d=1):  # kernel, padding, dilation"""Pad to 'same' shape outputs."""if d > 1:k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k]  # actual kernel-sizeif p is None:p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-padreturn pclass Conv(nn.Module):"""Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation)."""default_act = nn.SiLU()  # default activationdef __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):"""Initialize Conv layer with given arguments including activation."""super().__init__()self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)self.bn = nn.BatchNorm2d(c2)self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()def forward(self, x):"""Apply convolution, batch normalization and activation to input tensor."""return self.act(self.bn(self.conv(x)))def forward_fuse(self, x):"""Perform transposed convolution of 2D data."""return self.act(self.conv(x))class SP(nn.Module):def __init__(self, k=3, s=1):super(SP, self).__init__()self.m = nn.MaxPool2d(kernel_size=k, stride=s, padding=k // 2)def forward(self, x):return self.m(x)class SPPELAN(nn.Module):# spp-elandef __init__(self, c1, c2, c3):  # ch_in, ch_out, number, shortcut, groups, expansionsuper().__init__()self.c = c3self.cv1 = Conv(c1, c3, 1, 1)self.cv2 = SP(5)self.cv3 = SP(5)self.cv4 = SP(5)self.cv5 = Conv(4 * c3, c2, 1, 1)def forward(self, x):y = [self.cv1(x)]y.extend(m(y[-1]) for m in [self.cv2, self.cv3, self.cv4])return self.cv5(torch.cat(y, 1))

二、添加【SPPELAN】模块

2.1STEP1

首先找到ultralytics/nn文件路径下新建一个Add-module的python文件包【这里注意一定是python文件包，新建后会自动生成_init_.py】，如果已经跟着我的教程建立过一次了可以省略此步骤，随后新建一个SPPELAN.py文件并将上文中提到的注意力机制的代码全部粘贴到此文件中，如下图所示在这里插入图片描述

2.2STEP2

在STEP1中新建的_init_.py文件中导入增加改进模块的代码包如下图所示在这里插入图片描述

2.3STEP3

找到ultralytics/nn文件夹中的task.py文件，在其中按照下图添加在这里插入图片描述

2.4STEP4

定位到ultralytics/nn文件夹中的task.py文件中的def parse_model(d, ch, verbose=True): # model_dict, input_channels(3)函数添加如图代码,【如果不好定位可以直接ctrl+f搜索定位】

在这里插入图片描述

三、yaml文件与运行

3.1yaml文件

以下是添加【SPPELAN】模块替换SPPF的yaml文件

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLO11 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolo11n.yaml' will call yolo11.yaml with scale 'n'# [depth, width, max_channels]n: [0.50, 0.25, 1024] # summary: 319 layers, 2624080 parameters, 2624064 gradients, 6.6 GFLOPss: [0.50, 0.50, 1024] # summary: 319 layers, 9458752 parameters, 9458736 gradients, 21.7 GFLOPsm: [0.50, 1.00, 512] # summary: 409 layers, 20114688 parameters, 20114672 gradients, 68.5 GFLOPsl: [1.00, 1.00, 512] # summary: 631 layers, 25372160 parameters, 25372144 gradients, 87.6 GFLOPsx: [1.00, 1.50, 512] # summary: 631 layers, 56966176 parameters, 56966160 gradients, 196.0 GFLOPs# YOLO11n backbone
backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]] # 0-P1/2- [-1, 1, Conv, [128,3,2]] # 1-P2/4- [-1, 2, C3k2, [256, False, 0.25]]- [-1, 1, Conv, [256,3,2]] # 3-P3/8- [-1, 2, C3k2, [512, False, 0.25]]- [-1, 1, Conv, [512,3,2]] # 5-P4/16- [-1, 2, C3k2, [512, True]]- [-1, 1, Conv, [1024,3,2]] # 7-P5/32- [-1, 2, C3k2, [1024, True]]- [-1, 1, SPPELAN, [1024, 5]] # 9- [-1, 2, C2PSA, [1024]] # 10# YOLO11n head
head:- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 6], 1, Concat, [1]] # cat backbone P4- [-1, 2, C3k2, [512, False]] # 13- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 4], 1, Concat, [1]] # cat backbone P3- [-1, 2, C3k2, [256, False]] # 16 (P3/8-small)- [-1, 1, Conv, [256, 3, 2]]- [[-1, 13], 1, Concat, [1]] # cat head P4- [-1, 2, C3k2, [512, False]] # 19 (P4/16-medium)- [-1, 1, Conv, [512, 3, 2]]- [[-1, 10], 1, Concat, [1]] # cat head P5- [-1, 2, C3k2, [1024, True]] # 22 (P5/32-large)- [[16, 19, 22], 1, Detect, [nc]] # Detect(P3, P4, P5)