《深度学习》卷积神经网络CNN 实现手写数字识别

目录

一、卷积神经网络CNN

1、什么是CNN

2、核心

3、构造

二、案例实现

1、下载训练集、测试集

代码实现如下:

2、展示部分图片

运行结果:

3、图片打包

运行结果:

4、判断当前使用的CPU还是GPU

5、定义卷积神经网络

运行结果:

6、训练、测试模型

运行结果:


以下代码类似于前面所说的神经网络实现手写数字识别,可参考下列博客。

《深度学习》PyTorch 手写数字识别 案例解析及实现 <下>icon-default.png?t=O83Ahttps://blog.csdn.net/qq_64603703/article/details/142282105?fromshare=blogdetail&sharetype=blogdetail&sharerId=142282105&sharerefer=PC&sharesource=qq_64603703&sharefrom=from_link

一、卷积神经网络CNN

1、什么是CNN

        卷积神经网络是一种深度学习模型,主要应用于图像和视频处理任务。它的设计灵感来源于生物视觉系统的工作原理。

2、核心

        核心是卷积层,这是一种通过在输入数据上应用滤波器(也称为卷积核)来提取特征的操作。卷积层的输出是一系列的特征图每个特征图表示一种特定的图像特征,例如边缘、纹理等。这种特征提取的方式可以捕捉到图像中的局部模式,并且在不同位置共享参数,从而提高了模型的效率和泛化能力。

3、构造

        CNN还包括池化层,用于减小特征图的尺寸降低计算复杂度,增加模型的平移不变性。

        卷积神经网络还可以包含多个卷积层和池化层的堆叠,以及全连接层(Fully Connected Layer)用于进行分类或回归等任务。

二、案例实现

1、下载训练集、测试集

        通过现有的库调用其用法直接去下载现成的手写数字的数据集,这些手写数字集共有70000张图片,这些图片都有其对应的标签,大小为28*28,灰度图,数字居中,直接使用即可。

        将这70000张图片,60000张当做训练集,10000张当做测试集。

代码实现如下:
import torch
print(torch.__version__)"""MNIST包含70,000张手写数字图像:60,000张用于训练,10,000张用于测试。
图像是灰度的,28x28像素的,并且居中的,以减少预处理和加快运行。"""from torch import nn  # 导入神经网络模块
from torch.utils.data import DataLoader  # 数据包管理工具,打包数据,
from torchvision import datasets   # 封装了很多与图像相关的模型,数据集
from torchvision.transforms import ToTensor   # 数据转换,张量,将其他类型的数据转换为tensor张量,numpy arrgy,"""下载训练数据集,图片+标签"""
training_data = datasets.MNIST(   # 跳转到函数的内部源代码,pycharm 按下ctrl +鼠标点击root='data',   # 表述下载的数据存放的根目录train=True,   # 表示下载的是训练数据集,如果要下载测试集,更改为False即可download=True,   # 表示如果根目录有该数据,则不再下载,如果没有则下载transform=ToTensor()   # 张量,图片是不能直接传入神经网络模型# 表示制定一个数据转换操作,将下载的图片转换为pytorch张量,因为pytorch只能处理张量tensor类型的数据
)test_data = datasets.MNIST(root='data',train=False,download=True,transform=ToTensor()  # Tensor是在深度学习中提出并广泛应用的数据类型,它与深度学习框架(如 PyTorch、TensorFlo
)  # NumPy 数组只能在CPU上运行。Tensor可以在GPU上运行,这在深度学习应用中可以显著提高计算速度。print(len(training_data))
print(len(test_data))

        实现结果就是当前代码的目录多出了一个data文件,里面存放的就是下载好的手写数字的图片,打印内容为下载的图片个数。

2、展示部分图片

        取出9张图片,将其展示在画布上

from matplotlib import pyplot as plt   # 导入绘图库
figure = plt.figure()   # 设置一个空白画布
for i in range(9):img,label = training_data[i+59000]   # 提取第59000张图片开始,共9张,返回图片及其对应的标签值figure.add_subplot(3,3,i+1)   # 在画布创建3行3列的小窗口,通过遍历的值i来确定每个画布展示的图片plt.title(label)   # 设置每个窗口的标题,设置标签为上述返回的标签值plt.axis('off')   # 取消画布中的坐标轴的图像plt.imshow(img.squeeze(),cmap='gray')   # plt.imshow()将NumPy数组data中的数据显示为图像,并在图形窗口中,a = img.squeeze()   # img.squeeze()从张量img中去掉维度为1的。如果该维度的大小不为1,则张量不会改变。
plt.show()
运行结果:

3、图片打包

        因为图片的数量太多,将其一张一张的放入GPU进行计算太耗费时间,而且还浪费资源,所以将64张图片打包成一份,将这一整个数据包传入GPU使其计算,这样大大增加了运行的效率。

train_dataloader = DataLoader(training_data,batch_size=64)  # 调用上述定义的DataLoader打包库,将训练集的图片和标签,64张图片为一个包,
test_dataloader = DataLoader(test_data,batch_size=64)   # 将测试集的图片和标签,每64张打包成一份
for x,y in test_dataloader:# x是表示打包好的每一个数据包,其形状为[64,1,28,28],64表示批次大小,1表示通道数为1,即灰度图,28表示图像的宽高像素值# y表示每个图片标签print(f"shape of x[N,C,H,W]:{x.shape}")   # 打印图片形状print(f"shape of y:{y.shape}{y.dtype}")   # 打印标签的形状和数据类型break  # 跳出并终止循环,表示只遍历一个包的数据情况
运行结果:

4、判断当前使用的CPU还是GPU

"""判断当前设备是否支持GPU,其中mps是苹果m系列芯片的GPU"""  # 返回cuda,mps,cpu, m1,m2集显CPU+GPU RTX3060
device = "cuda" if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else "cpu"
print(f"Using {device} device")  # 字符串的格式化。CUDA驱动软件的功能:pytorch能够去执行cuda的命令,cuda通过GPU指令集
# 神经网络的模型也需要传入到GPU,1个batchsize的数据集也需要传入到GPU,才可以进行训练。

5、定义卷积神经网络

"""定义神经网络"""
class CNN(nn.Module):   # 继承nn算法中的Moduledef __init__(self):   # 这里输入大小为(1,28,28)super(CNN,self).__init__()self.conv1 = nn.Sequential(   # 第一层卷积, 将多个层组合成一起。nn.Conv2d(    # 二维卷积成,2d一般用于图像,3d用于视频数据(多一个时间维度),1d一般用于结构化的序列数据in_channels=1,    # 输入图像通道个数,1表示灰度图(确定了卷积核 组中的个数),out_channels=16,   # 输出多少个特征图,也可表示卷积核的个数kernel_size=5,   # 卷积核大小,5*5stride=1,   # 卷积核移动的步长padding=2,   # 边缘填充层数),   # 输出的特征图为(16*28*28)nn.ReLU(),   # 设置激活层,引入非线性,增强表达能力,relu层,不会改变特征图的大小(16*28*28)nn.MaxPool2d(kernel_size=2),   # 池化层,大小为2*2,进行最大池化,压缩图像大小,输出结果为:(16*14*14))self.conv2 = nn.Sequential(   # 第二层卷积, 输入(16*14*14),定义两个二维卷积层,用于连续卷积nn.Conv2d(16,32,5,1,2),  # 输出(32*14*14)nn.ReLU(),   # relu层(32*14*14)nn.Conv2d(32,32,5,1,2),  # 输出(32*14*14)nn.ReLU(),    # (32,14,14)nn.MaxPool2d(2),   # 最大池化,输出(32*7*7))self.conv3 = nn.Sequential(   # 输入(32*7*7)nn.Conv2d(32, 64, 5, 1, 2),  # (64*7*7)nn.ReLU(),  # 输出(64*7*7))self.out = nn.Linear(64*7*7,10)   # 全连接层得到的结果def forward(self, x):   # 定义前向传播x = self.conv1(x)    # 对传入模型的图片数据进行第一层卷积处理x = self.conv2(x)x = self.conv3(x)   # 输出(64,64,7,7)x = x.view(x.size(0),-1)    # 重新调整张量的形状,即flatten操作,结果为:(batch_size,64*7*7)# x.size(0)表示获取第一个维度的大小,-1表示自动计算维度大小# x.view(x.size(0),-1)将张量x重新调整为两维张量,其中第一维的大小保持不变(即x.size(0)),而第二维的大小是自动计算的,以确保总元素数量与原始张量相同。output = self.out(x)return outputmodel = CNN().to(device)   # 将模型传入GPU
print(model)   # 打印模型的结构
运行结果:

6、训练、测试模型

def train(dataloader,model,loss_fn,optimizer):   # 导入参数,dataloader表示打包,数据加载器,model导入上述定义的神经网络模型,loss_fn表示损失值,optimizer表示优化器model.train()   # 模型设置为训练模式# 告诉模型,我要开始训练,模型中权重w进行随机化操作,已经更新w。在训练过程中,w会被修改的# #pytorch提供2种方式来切换训练和测试的模式,分别是:model.train()和 model.eval()。# 一般用法是:在训练开始之前写上model.train(),在测试时写上model.eval()。batch_size_num = 1for x,y in dataloader:    # 遍历打包的图片的每一个包中的每一张图片及其对应的标签,其中batch为每一个数据的编号x,y = x.to(device),y.to(device)   # 把训练数据集和标签传入cpu或GPUpred = model.forward(x)    # 模型进行前向传播,输入图片信息后得到预测结果,forward可以被省略,父类中已经对次功能进行了设置。自动初始化w权值loss = loss_fn(pred,y)     # 调用交叉熵损失函数计算损失值loss,输入参数为预测结果和真实结果,# Backpropaqation 进来一个batch的数据,计算一次梯度,更新一次网络optimizer.zero_grad()    # 梯度值清零,在反向传播之前先清除之前的梯度loss.backward()     # 反向传播,计算得到每个参数的梯度值woptimizer.step()    # 根据梯度更新权重w参数loss_value = loss.item()   # 从tensor数据中提取数据出来,tensor获取损失值if batch_size_num % 200 == 0:  # 判断遍历包的个数是否整除于200,用于将训练到的包的个数打印出来,整除200目的是节省资源print(f"loss:{loss_value:>7f}   [number: {batch_size_num}]")  # 打印损失值及其对应的值,损失值最大宽度为7,右对齐batch_size_num += 1    # 每遍历一个包增加一次,以达到显示出来遍历的包的个数def test(dataloader,model,loss_fn):  # 输入参数打包的图片、训练好的模型、以及损失值size = len(dataloader.dataset)   # 返回测试数据集的样本总数num_batches = len(dataloader)   # 返回当前dataloader配置下的批次数model.eval()    # 表示此为模型测试,w就不能再更新。test_loss,correct = 0, 0   # 设置总损失值初始化为0,正确预测结果初始化为0with torch.no_grad():    # 一个上下文管理器,关闭梯度计算。当你确认不会调用Tensor.backward()的时候。这可以减少计算for x,y in dataloader:   # 遍历测试集中的每个包的每个图片及其对应的标签x,y = x.to(device),y.to(device)   # 将其传入gpupred = model.forward(x)   # 图片数据进行前向传播test_loss += loss_fn(pred,y).item()    # test_loss是会自动累加每一个批次的损失值correct += (pred.argmax(1) == y).type(torch.float).sum().item()  # pred.argmax(1) == y用于判断预测结果最大值对用的标签是否与真实值相同,然后将判断结果的bool值转变为浮点数并求和a = (pred.argmax(1) == y)   # dim=1表示每一行中的最大值对应的索引号,dim=0表示每一列中的最大值对应的索引号b = (pred.argmax(1) == y).type(torch.float)test_loss /= num_batches    # 总损失值除以打包的批次数,返回测试的每一个包的损失值的均值,能来衡量模型测试的好坏。correct /= size   # 平均的正确率print(f"Test result: \n Accuracy:{(100 * correct)}%, Avg loss:{test_loss}")  # 打印测试集测试结果
loss_fn = nn.CrossEntropyLoss()  # 创建交叉熵损失函数对象,因为手写字识别中一共有10个数字,输出会有10个结果
optimizer = torch.optim.Adam(model.parameters(),lr=0.001)  # 创建一个优化器,SGD为随机梯度下降算法,学习率或者叫步长为0.0045epochs = 8  # 设置训练的轮数为8轮,因为模型中设置了权重值的更新,所以重复训练会更新模型的权值
for i in range(epochs):print(f"Epoch {i+1}\n--------------------")train(train_dataloader,model,loss_fn,optimizer)
print('Done!!')
test(test_dataloader,model,loss_fn)   # 导入测试集进行测试
运行结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148150.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

通信工程学习:什么是NFVO网络功能虚拟化编排器

NFVO:网络功能虚拟化编排器 NFVO(Network Functions Virtualization Orchestrator),即网络功能虚拟化编排器,是网络功能虚拟化(NFV)架构中的核心组件之一。NFV是一种将传统电信网络中的网络节点…

Linux学习笔记13---GPIO 中断实验

中断系统是一个处理器重要的组成部分,中断系统极大的提高了 CPU 的执行效率,本章会将 I.MX6U 的一个 IO 作为输入中断,借此来讲解如何对 I.MX6U 的中断系统进行编程。 GIC 控制器简介 1、GIC 控制器总览 I.MX6U(Cortex-A)的中断控制器…

全栈开发(三):springBoot3中使用mybatis-plus

MyBatis-Plus &#x1f680; 为简化开发而生 (baomidou.com) 1.配置pom.xml <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-spring-boot3-starter</artifactId><version>3.5.7</version></dependency&g…

90%的爆文作者都在用的AI标题公式 超实用7个迭代技巧

本文背景 我的上篇文章&#xff0c;关于我是如何在5分钟之内写出AI爆文结构化提示词的&#xff08;附50条优化指令词&#xff09;&#xff0c;已经详细的讲解了如何快速生成提示词&#xff0c;以及一些常用的优化提示词的指令&#xff0c;今天大象再来详细掰头掰头如何迭代提示…

虚拟摄像头抓屏

目录 一、下载: 二、安装 三、使用 前两天跟客户闲聊,说的了一个应用需求。他想实现将服务器操作过程实时记录下来,好比现在很多博主拍摄Vlog,再具体一点儿就是维修类短视频,可以记录维修过程,发现错误可以参照视频恢复,成功了也可以作为日后培训的教程。 实现的方法…

第一个Web项目(java+servlet+jsp)

通过百度网盘分享的文件&#xff1a;第一个Web项目 链接&#xff1a;https://pan.baidu.com/s/11vnAPeAf6Dtax7H6aYKZgA 提取码&#xff1a;1234 目录 声明&#xff1a; 简介&#xff1a; 注意&#xff1a; 操作步骤&#xff1a; 1.在idea中新建java项目&#xff0c;项目…

手写数字识别案例分析(torch,深度学习入门)

在人工智能和机器学习的广阔领域中&#xff0c;手写数字识别是一个经典的入门级问题&#xff0c;它不仅能够帮助我们理解深度学习的基本原理&#xff0c;还能作为实践编程和模型训练的良好起点。本文将带您踏上手写数字识别的深度学习之旅&#xff0c;从数据集介绍、模型构建到…

U盘格式化了怎么办?这4个工具能帮你恢复数据。

如果你思维U盘被格式化了&#xff0c;也不用太过担心&#xff0c;其实里面的数据并没有被删除&#xff0c;只是被标记为了可覆盖的状态。只要我们及时采取正确的数据恢复措施&#xff0c;就有很大的机会可以将数据找回。比如使用专业得的数据恢复软件&#xff0c;我也可以跟大家…

Keysight 下载信源 Visa 指令

用于传输原始的IQ数据 file.wiq 或者 file.bin wave_bin:bytes with open("./WaveForm.wfm","rb") as f:wave_bin f.read()log.info("File:WaveForm.wfm Size:%d Bytes"%len(wave_bin)) IMPL.sendCommand(":MEM:DATA \"WFM1:FILE1\&q…

使用 IntelliJ IDEA 连接到达梦数据库(DM)

前言 达梦数据库是一款国产的关系型数据库管理系统&#xff0c;因其高性能和稳定性而被广泛应用于政府、金融等多个领域。本文将详细介绍如何在 IntelliJ IDEA 中配置并连接到达梦数据库。 准备工作 获取达梦JDBC驱动&#xff1a; 访问达梦在线服务平台网站或通过其他官方渠道…

远程升级又双叒叕失败?背后原因竟然是。。。

最近又遇到了远程升级接连失败的情况&#xff0c;耐心和信心都备受折磨&#xff01; 事情是这样的&#xff1a;有客户反馈在乡村里频繁出现掉线的情况&#xff0c;不敢耽搁&#xff0c;赶紧联系小伙伴排查测试&#xff0c;最后发现&#xff0c;只有去年某一批模块在当下环境才…

Redis:持久化

1. Redis持久化机制 Redis 支持 RDB 和 AOF 两种持久化机制&#xff0c;持久化功能有效地避免因进程退出造成数据丢失问题&#xff0c; 当下次重启时利⽤之前持久化的文件即可实现数据恢复。 2.RDB RDB 持久化是把当前进程数据⽣成快照保存到硬盘的过程&#xff0c;触发 RDB…

c++类中的特殊函数

My_string.cpp #include <iostream> #include "my_string.h" #include <string.h> using namespace std; My_string::My_string():size(15) { this->ptr new char[size] ; this->ptr[0]\0;//串为空串 this->len 0; }; My_string::My_str…

如何使用ssm实现疫苗预约系统+vue

TOC ssm673疫苗预约系统vue 第1章 绪论 1.1选题动因 当前的网络技术&#xff0c;软件技术等都具备成熟的理论基础&#xff0c;市场上也出现各种技术开发的软件&#xff0c;这些软件都被用于各个领域&#xff0c;包括生活和工作的领域。随着电脑和笔记本的广泛运用&#xff…

Django 数据库配置以及字段设置详解

配置PostGre 要在 Django 中配置连接 PostgreSQL 数据库&#xff0c;并创建一个包含“使用人”和“车牌号”等字段的 Car 表 1. 配置 PostgreSQL 数据库连接 首先&#xff0c;在 Django 项目的 settings.py 中配置 PostgreSQL 连接。 修改 settings.py 文件&#xff1a; …

数据结构篇--折半查找【详解】

折半查找也叫做二分查找或者对数查找&#xff0c;是一种在有序数组中查找特定元素的查找算法。 折半查找的算法步骤如下&#xff1a; 将目标关键字key与数组中的中间元素比较&#xff0c;若相等则查找成功。key大于中间元素&#xff0c;就到数组中大于中间元素的部分进行查找&…

超详细超实用!!!AI编程之cursor编写官网新增轮播效果(三)

云风网 云风笔记 云风知识库 index.html内容如下&#xff1a; <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"&g…

AI绘画,让AI穿上指定衣服(附工具)

前言 AI绘画的商业应用前景非常广阔&#xff0c;用stable diffusion进行AI绘画时&#xff0c;不仅可以很容易的制作真实人物图片&#xff0c;还能让AI穿上自己指定的衣服&#xff0c;对于做服装生意的电商&#xff0c;可以节省雇佣模特的时间和费用&#xff0c;有效降低成本&a…

JEDEC DDR3 SRAM standard

DDRDouble Data Rate双倍速率,DDR SDRAM双倍速率同步动态随机存储器&#xff0c;人们习惯称为DDR&#xff0c;其中&#xff0c;SDRAM 是Synchronous Dynamic Random Access Memory的缩写&#xff0c;即同步动态随机存取存储器。而DDR SDRAM是Double Data Rate SDRAM的缩写&…

【论文阅读笔记】TOOD: Task-aligned One-stage Object Detection

论文代码&#xff1a;https://github.com/fcjian/TOOD 文章目录 论文小结论文简介论文方法Task-aligned Head&#xff08;T-Head&#xff09;T-Head伪代码解释 Task Alignment Learning&#xff08;TAL&#xff09;Task-aligned Sample AssignmentTask-aligned Loss 论文实验消…