助力模型训练,深度学习的经典数据集介绍

想要训练出效果好的模型,高质量的数据集必不可少。深度学习的经典数据集包括MNIST手写数字数据集、Fashion MNIST数据集、CIFAR-10和CIFAR-100数据集、ILSVRC竞赛的ImageNet数据集、用于检测和分割的PASCAL VOC和COCO数据集等,本文将对这些数据集进行介绍。

1.MNIST

MNIST数据集包含了60000个训练集和10000个的测试集,每个手写数字的图像的大小均为28*28。MNIST手写数字数据集的官网地址:

http://yann.lecun.com/exdb/mnist/

数据集的导入:

from tensorflow.keras.datasets import mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
print(x_train.shape, y_train.shape, x_test.shape, y_test.shape)#输出结果
(60000, 28, 28) (60000,) (10000, 28, 28) (10000,)

可视化展示0-9这十个数字: 

import matplotlib.pyplot as plt
import numpy as np
plt.figure(figsize=(12,8))
for i in range(10):    plt.subplot(2,5,i+1)    plt.xticks([])    plt.yticks([])    img = x_train[y_train == i][0].reshape(28, 28)    plt.imshow(img, cmap=plt.cm.binary)

2.Fashion MNIST

Fashion MNIST是时尚穿戴品的数据集,包含了10类,共计70000张图像,整体数据结构跟MNIST一致,每张图像的尺寸也是28*28。数据集下载地址:

https://research.zalando.com/welcome/mission/research-projects/fashion-mnist/

数据集的导入:

from tensorflow.keras.datasets import fashion_mnist
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
print(x_train.shape, y_train.shape, x_test.shape, y_test.shape)#输出结果
(60000, 28, 28) (60000,) (10000, 28, 28) (10000,)

可视化展示10种类别:

class_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']
plt.figure(figsize=(12,8))
for i in range(10):    plt.subplot(2,5,i+1)    plt.xticks([])    plt.yticks([])    plt.grid(False)    img = x_train[y_train == i][0].reshape(28, 28)    plt.imshow(x_train[i], cmap=plt.cm.binary)    plt.xlabel(class_names[y_train[i]])

3.CIFAR-10

CIFAR-10是一个用于识别普适物体的彩色图像数据集。一共包含10种类别的RGB彩色图片:飞机( airplane)、汽车(automobile)、鸟类(bird)、猫(cat)、鹿(deer)、狗(dog)、蛙类(frog)、马(horse)、船(ship)和卡车(truck)。 数据集下载地址如下:

https://www.cs.toronto.edu/~kriz/cifar.html

数据集的导入: 

from tensorflow.keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
print(x_train.shape, y_train.shape, x_test.shape, y_test.shape)#输出结果
(50000, 32, 32, 3) (50000, 1) (10000, 32, 32, 3) (10000, 1)

可视化展示如下:

plt.figure(figsize=(12,8))
for i in range(10):    plt.subplot(2,5,i+1)    plt.xticks([])    plt.yticks([])    plt.grid(False)    plt.imshow(x_train[i], cmap=plt.cm.binary)

4.CIFAR-100

CIFAR-100将类别扩大到100个类,每个类包含了600张图像,分别有500张训练图像和100张测试图像。数据集下载地址:

https://www.cs.toronto.edu/~kriz/cifar.html

数据集的导入:

from tensorflow.keras.datasets import cifar100
(x_train, y_train), (x_test, y_test) = cifar100.load_data()
print(x_train.shape, y_train.shape, x_test.shape, y_test.shape)#输出结果
(50000, 32, 32, 3) (50000, 1) (10000, 32, 32, 3) (10000, 1)

可视化展示如下:

plt.figure(figsize=(12,8))
for i in range(100):    plt.subplot(10,10,i+1)    plt.xticks([])    plt.yticks([])    plt.grid(False)    plt.imshow(x_train[i], cmap=plt.cm.binary)

5.ImageNet

ImageNet图像数据集是在2009年由斯坦福的项目形成的一个数据集。目前ImageNet中总共有14197122张图像,分为21841个类别,数据地址为:

http://www.image-net.org/

ImageNet数据集示例:

6.PASCAL VOC

PASCAL VOC最初主要用于目标检测,目前PASCAL VOC主要分为VOC2007和VOC2012两个版本的数据集。数据集下载地址:

http://host.robots.ox.ac.uk/pascal/VOC/

VOC数据集示例:

7.COCO

COCO数据集是微软在ImageNet和PASCAL VOC数据集标注上的基础上产生的,主要是用于图像分类、检测和分割等任务。数据包括91个类别目标,其中有82个类别的数据量都超过了5000张。数据集下载地址:

http://cocodataset.org/#home

COCO数据集示例:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/19691.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Spring基础——针对实习面试

目录 Spring基础什么是Spring框架?列举一些重要的Spring模块Spring Core 核心模块Spring AOP 模块Spring MVC 模块Spring Data 模块Spring Security 模块Spring Boot 模块 Spring,Spring MVC,Spring Boot之间什么关系(区别&#x…

PH热榜 | 2024-11-17

DevNow 是一个精简的开源技术博客项目模版,支持 Vercel 一键部署,支持评论、搜索等功能,欢迎大家体验。 在线预览 1. Octokit 标语:人人都能用的无代码游戏和AR滤镜制作工具 介绍:Octokit 是一款无需编程技能就能使用…

分享本周所学——三维重建算法3D Gaussian Splatting(3DGS)

大家好,欢迎来到《分享本周所学》第十二期。本人是一名人工智能初学者,刚刚读完大二。前几天自学了一下3D Gaussian Splatting(3DGS),觉得非常有意思。写这篇文章主要是因为网上大部分关于3DGS的文章都比较晦涩&#x…

Python-简单病毒程序合集(一)

前言:简单又有趣的Python恶搞代码,往往能给我们枯燥无味的生活带来一点乐趣,激发我们对编程的最原始的热爱。那么话不多说,我们直接开始今天的编程之路。 编程思路:本次我们将会用到os,paltform,threading,ctypes,sys,…

技术成长战略是什么?

文章目录 技术成长战略是什么?1. 前言2. 跟技术大牛学成长战略2.1 系统性能专家案例2.2 从开源到企业案例2.3 技术媒体大V案例2.4 案例小结 3. 学习金字塔和刻意训练4. 战略思维的诞生5. 建议 技术成长战略是什么? 1. 前言 在波波的微信技术交流群里头…

哪家云电脑便宜又好用?ToDesk云电脑、顺网云、达龙云全方位评测

陈老老老板🤴 🧙‍♂️本文专栏:生活(主要讲一下自己生活相关的内容)生活就像海洋,只有意志坚强的人,才能到达彼岸。 🧙‍♂️本文简述:讲一下市面上云电脑的对比。 🧙‍♂️上一篇文…

(五)自定义组件

(五)自定义组件 1、 VS插件推荐2、开始创建自定义的组件2.1、 快速添加基础页面内容: vbase2.2、 随便写上内容 3、使用该组件3.1、具体步骤3.2、其他说明 1、 VS插件推荐 开始前,如果大家使用的是VS Code,我推荐安装Vue VSCode S…

Springboot+Vue的项目搭建(一)

一、JDK配置环境变量 1、在官网下载jdkJava Downloads | Oracle 中国 2、下载之后双击安装。 3、配置环境变量,做法:此电脑->右键->属性->高级系统设置 然后点击确定即可 点击winr java -version 检查一下是否配置成功 二、maven包管理器…

如何从微软官网下载运行库解决?微软官网教你如何获取最新运行库支持

当您在运行某些应用程序或游戏时遇到缺少运行库文件的问题,例如“unityplayer.dll文件丢失”,访问微软官方网站下载并安装最新的运行库是一个可靠且安全的解决方案。微软提供的运行库包含了多种语言环境下的库文件和支持,如Visual C Redistri…

tdengine学习笔记-整体架构及docker安装

官方文档:用 Docker 快速体验 TDengine | TDengine 文档 | 涛思数据 整体架构 TDENGINE是分布式,高可靠,支持水平扩展的架构设计 TDengine分布式架构的逻辑结构图如下 一个完整的 TDengine 系统是运行在一到多个物理节点上的,包含…

多线程——单例模式

目录 前言 一、设计模式 二、饿汉模式 三、懒汉模式 1.单线程版 2.多线程版 结尾 前言 前面的几篇文章中介绍了多线程编程的基础知识,在本篇文章开始,就会利用前面的多线程编程知识来编写一些代码案例,从而使大家可以更好的理解运用多…

关于Web Component

2024年8月14日 引言 Web Component 是一种用于构建可复用用户界面组件的技术,开发者可以创建自定义的 HTML 标签,并将其封装为包含逻辑和样式的独立组件,从而在任何 Web 应用中重复使用,并且可以做到无框架跨框架。 不同于 Vue…

【进阶系列】python的模块

模块 创建一个 .py 文件,这个文件就称之为 一个模块 Module 如何使用 import 想要B.py文件中,使用A.py文件,只需要在B.py文件中使用关键字import导入即可。 import A# 若A是一个包的话,可以这样写 import A.函数名from impor…

全志T113双核异构处理器的使用基于Tina Linux5.0——RTOS编译开发说明

3、RTOS编译开发说明 3.1、RTOS SDK与TinaLinux开发环境 RTOS SDK相关代码已集成到Tina Linux开发环境,Tina Linux开发环境下的rtos子目录即为RTOS开发环境。 ├──brandy ├──bsp ├──build ├──buildroot ├──build.sh >build/top_build.sh ├──…

十六.SpringCloudAlibaba极简入门-整合Grpc代替OpenFeign

前言 他来了他来了,停了快2个月了终于又开始更新文章啦,这次带来的绝对是干货!!!。由于公司项目进行重构的时候考虑到,OpenFeign做为服务通信组件在高并发情况下有一定的性能瓶颈,所以将其替换…

【Linux】环境变量详解

Linux环境变量 1.环境变量分类2.环境变量相关指令3.常用的环境变量4.环境变量的组织方式5.获取环境变量6.命令行参数 1.环境变量分类 按生命周期划分: 永久的:在环境变量脚本文件中配置,用户每次登录时会自动执行这些脚本,相当于永…

SpringBoot项目搭建IEDA2023.1.2

导入依赖 ——————————————————

L0G1000 Linux基础知识(包含ssh报错处理)

1.vscode通过ssh链接云服务器 按教程https://github.com/InternLM/Tutorial/tree/camp4/docs/L0/linux 出现报错,是ssh配置原因 [23:40:18.788] Log Level: 2 [23:40:18.807] SSH Resolver called for “ssh-remotessh.intern-ai.org.cn”, attempt 1 [23:40:18.8…

使用 PyTorch-BigGraph 构建和部署大规模图嵌入的完整教程

当涉及到图数据时,复杂性是不可避免的。无论是社交网络中的庞大互联关系、像 Freebase 这样的知识图谱,还是推荐引擎中海量的数据量,处理如此规模的图数据都充满挑战。 尤其是当目标是生成能够准确捕捉这些关系本质的嵌入表示时,…

测试标题1111

前言 本文是该专栏的第68篇,后面会持续分享python爬虫干货知识,记得关注。 在本专栏之前,笔者有详细介绍京东滑块验证码的解决方法,感兴趣的同学,可以直接翻阅文章《Python如何解决“京东滑块验证码”(5)》进行查看。…