昇思MindSpore进阶教程-格式转换

大家好,我是刘明,明志科技创始人,华为昇思MindSpore布道师。
技术上主攻前端开发、鸿蒙开发和AI算法研究。
努力为大家带来持续的技术分享,如果你也喜欢我的文章,就点个关注吧

MindSpore中可以把用于训练网络模型的数据集,转换为MindSpore特定的格式数据(MindSpore Record格式),从而更加方便地保存和加载数据。其目标是归一化用户的数据集,并进一步通过MindDataset接口实现数据的读取,并用于训练过程。在这里插入图片描述
此外,MindSpore还针对部分数据场景进行了性能优化,使用MindSpore Record数据格式可以减少磁盘IO、网络IO开销,从而获得更好的使用体验。

MindSpore Record数据格式具备的特征如下:

  1. 实现数据统一存储、访问,使得训练时数据读取更加简便。

  2. 数据聚合存储、高效读取,使得训练时数据方便管理和移动。

  3. 高效的数据编解码操作,使得用户可以对数据操作无感知。

  4. 可以灵活控制数据切分的分区大小,实现分布式数据处理。

Record文件结构

如下图所示,MindSpore Record文件由数据文件和索引文件组成。
在这里插入图片描述

其中数据文件包含文件头、标量数据页、块数据页,用于存储用户归一化后的训练数据,且单个MindSpore Record文件建议小于20G,用户可将大数据集进行分片存储为多个MindSpore Record文件。

而索引文件则包含基于标量数据(如图像Label、图像文件名等)生成的索引信息,用于方便地检索、统计数据集信息。

数据文件中的文件头、标量数据页、块数据页的具体用途如下所示:

  • 文件头:是MindSpore Record文件的元信息,主要用来存储文件头大小、标量数据页大小、块数据页大小、Schema信息、索引字段、统计信息、文件分区信息、标量数据与块数据对应关系等。

  • 标量数据页:主要用来存储整型、字符串、浮点型数据,如图像的Label、图像的文件名、图像的长宽等信息,即适合用标量来存储的信息会保存在这里。

  • 块数据页:主要用来存储二进制串、NumPy数组等数据,如二进制图像文件本身、文本转换成的字典等。

转换成Record格式

下面主要介绍如何将CV类数据和NLP类数据转换为MindSpore Record文件格式,并通过MindDataset接口,实现MindSpore Record文件的读取。

转换CV类数据集

本示例主要以包含100条记录的CV数据集并将其转换为MindSpore Record格式为例子,介绍如何将CV类数据集转换成MindSpore Record文件格式,并使用MindDataset接口读取。

首先,需要创建100张图片的数据集并对齐进行保存,其样本包含file_name(字符串)、label(整型)、 data(二进制)三个字段,然后使用MindDataset接口读取该MindSpore Record文件。

  1. 生成100张图像,并转换成MindSpore Record文件格式。
from PIL import Image
from io import BytesIO
from mindspore.mindrecord import FileWriterfile_name = "test_vision.mindrecord"
# 定义包含的字段
cv_schema = {"file_name": {"type": "string"},"label": {"type": "int32"},"data": {"type": "bytes"}}# 声明MindSpore Record文件格式
writer = FileWriter(file_name, shard_num=1, overwrite=True)
writer.add_schema(cv_schema, "it is a cv dataset")
writer.add_index(["file_name", "label"])# 创建数据集
data = []
for i in range(100):sample = {}white_io = BytesIO()Image.new('RGB', ((i+1)*10, (i+1)*10), (255, 255, 255)).save(white_io, 'JPEG')image_bytes = white_io.getvalue()sample['file_name'] = str(i+1) + ".jpg"sample['label'] = i+1sample['data'] = white_io.getvalue()data.append(sample)if i % 10 == 0:writer.write_raw_data(data)data = []if data:writer.write_raw_data(data)writer.commit()

上面示例运行无报错说明数据集转换成功。

  1. 通过MindDataset接口读取MindSpore Record文件格式。
from mindspore.dataset import MindDataset
from mindspore.dataset.vision import Decode# 读取MindSpore Record文件格式
data_set = MindDataset(dataset_files=file_name)
decode_op = Decode()
data_set = data_set.map(operations=decode_op, input_columns=["data"], num_parallel_workers=2)# 样本计数
print("Got {} samples".format(data_set.get_dataset_size()))

转换NLP类数据集

本示例首先创建一个包含100条记录的MindSpore Record文件格式,其样本包含八个字段,均为整型数组,然后使用MindDataset接口读取该MindSpore Record文件。

  1. 生成100条文本数据,并转换成MindSpore Record文件格式。
import numpy as np
from mindspore.mindrecord import FileWriter# 输出的MindSpore Record文件完整路径
file_name = "test_text.mindrecord"# 定义样本数据包含的字段
nlp_schema = {"source_sos_ids": {"type": "int64", "shape": [-1]},"source_sos_mask": {"type": "int64", "shape": [-1]},"source_eos_ids": {"type": "int64", "shape": [-1]},"source_eos_mask": {"type": "int64", "shape": [-1]},"target_sos_ids": {"type": "int64", "shape": [-1]},"target_sos_mask": {"type": "int64", "shape": [-1]},"target_eos_ids": {"type": "int64", "shape": [-1]},"target_eos_mask": {"type": "int64", "shape": [-1]}}# 声明MindSpore Record文件格式
writer = FileWriter(file_name, shard_num=1, overwrite=True)
writer.add_schema(nlp_schema, "Preprocessed nlp dataset.")# 创建虚拟数据集
data = []
for i in range(100):sample = {"source_sos_ids": np.array([i, i + 1, i + 2, i + 3, i + 4], dtype=np.int64),"source_sos_mask": np.array([i * 1, i * 2, i * 3, i * 4, i * 5, i * 6, i * 7], dtype=np.int64),"source_eos_ids": np.array([i + 5, i + 6, i + 7, i + 8, i + 9, i + 10], dtype=np.int64),"source_eos_mask": np.array([19, 20, 21, 22, 23, 24, 25, 26, 27], dtype=np.int64),"target_sos_ids": np.array([28, 29, 30, 31, 32], dtype=np.int64),"target_sos_mask": np.array([33, 34, 35, 36, 37, 38], dtype=np.int64),"target_eos_ids": np.array([39, 40, 41, 42, 43, 44, 45, 46, 47], dtype=np.int64),"target_eos_mask": np.array([48, 49, 50, 51], dtype=np.int64)}data.append(sample)if i % 10 == 0:writer.write_raw_data(data)data = []if data:writer.write_raw_data(data)writer.commit()
  1. 通过MindDataset接口读取MindSpore Record格式文件。
from mindspore.dataset import MindDataset# 读取MindSpore Record文件格式
data_set = MindDataset(dataset_files=file_name, shuffle=False)# 样本计数
print("Got {} samples".format(data_set.get_dataset_size()))# 打印部分数据
count = 0
for item in data_set.create_dict_iterator(output_numpy=True):print("source_sos_ids:", item["source_sos_ids"])count += 1if count == 10:break

Dataset转存MindRecord

MindSpore提供转换常用数据集的工具类,能够将常用的数据集转换为MindSpore Record文件格式。

转存CIFAR-10数据集

用户可以通过Dataset.save类,将CIFAR-10原始数据转换为MindSpore Record,并使用MindDataset接口读取。

  1. 下载CIFAR-10数据集,并使用Cifar10Dataset加载。
from download import download
from mindspore.dataset import Cifar10Dataseturl = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/notebook/datasets/cifar-10-binary.tar.gz"path = download(url, "./", kind="tar.gz", replace=True)
dataset = Cifar10Dataset("./cifar-10-batches-bin/")  # 加载数据
  1. 调用Dataset.save接口,将CIFAR-10数据集转存为MindSpore Record文件格式。
dataset.save("cifar10.mindrecord")
  1. 通过MindDataset接口读取MindSpore Record文件格式。
import os
from mindspore.dataset import MindDataset# 读取MindSpore Record文件格式
data_set = MindDataset(dataset_files="cifar10.mindrecord")# 样本计数
print("Got {} samples".format(data_set.get_dataset_size()))if os.path.exists("cifar10.mindrecord") and os.path.exists("cifar10.mindrecord.db"):os.remove("cifar10.mindrecord")os.remove("cifar10.mindrecord.db")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1548210.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

打造未来社交:区块链社交DAO的颠覆性开发之路

随着区块链技术的不断发展,去中心化自治组织(DAO)逐渐成为一种创新的社交模式。结合区块链的透明性和不可篡改性,社交DAO为用户提供了一种全新的参与和治理方式,重塑了社交网络的构建与互动方式。本文将探讨区块链社交…

【鸿蒙】HarmonyOS NEXT应用开发快速入门教程之布局篇(上)

系列文章目录 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器(上) 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器(下) 【鸿蒙】HarmonyOS NEXT应用开发快速入门教程之布局篇(上) 文…

Python画笔案例-066 绘制橙子

1、绘制橙子 通过 python 的turtle 库绘制 橙子,如下图: 2、实现代码 绘制 橙子,以下为实现代码: """橙子.py注意亮度为0.5的时候最鲜艳本程序需要coloradd模块支持,安装方法:pip install coloradd程序运行需要很长时间,请耐心等待。可以把窗口最小化,然后…

教师工作量在线管理服务

4系统概要设计 4.1概述 本系统采用B/S结构(Browser/Server,浏览器/服务器结构)和基于Web服务两种模式,是一个适用于Internet环境下的模型结构。只要用户能连上Internet,便可以在任何时间、任何地点使用。系统工作原理图如图4-1所示: 图4-1系统工作原理…

springAOP和spring事务

AOP 1.简介 Aop面向切面编程:在开发中我们不能直接对已经设计好的代码进行修改(开放-封闭原则,对扩展开放,对修改封闭),解耦 AOP的底层实现为动态代理 * Target(目标对象)&#…

专业网站建设必备

专业网站建设不仅仅是简单的页面搭建,更是一项综合性的工程,需要结合行业特性、用户体验和技术创新,打造一个符合企业需求、独具特色的线上空间。 第一印象至关重要 一个企业网站就如同公司的数字名片,第一印象往往决定了用户是否…

衡石分析平台系统管理手册-功能配置之全局 JS 设置

全局 JS 设置​ 衡石系统提供了全局 JS 设置功能,用户可以通过自定义 JS 代码实现系统的个性化需求,如使用第三方统计工具对系统平台的 PV 、UV 进行监测。 使用场景​ 场景1:增加百度统计​ 下图示例中使用 js 代码引用了百度网站统计功…

MQTT.fx 1.7.1使用说明篇(OneNET-MQTT-API调试)

(代码完美实现)stm32 新版 onenet mqtt物联网(保姆级教程) (代码完美实现)stm32 新版 onenet mqtt物联网(保姆级教程)https://blog.csdn.net/Wang2869902214/article/details/142501323 MQTT.fx 1.7.1使用教程 下载地址 MQ…

深圳龙链科技:全球区块链开发先锋,领航Web3生态未来

【深圳龙链科技】是全球领先的Web3区块链技术开发公司,专注于为全球客户提供创新高效的区块链解决方案。 深圳龙链科技由币安资深股东携手香港领先的Web3创新枢纽Cyberport联袂打造,立足于香港这一国际金融中心,放眼全球,汇聚了华…

部分监督多器官医学图像分割中的标记与未标记分布对齐|文献速递--基于多模态-半监督深度学习的病理学诊断与病灶分割

Title 题目 Labeled-to-unlabeled distribution alignment for partially-supervised multi-organ medical image segmentation 部分监督多器官医学图像分割中的标记与未标记分布对齐 01 文献速递介绍 多器官医学图像分割(Mo-MedISeg)是医学图像分析…

『功能项目』下载Mongodb【81】

下载网址:Download MongoDB Community Server | MongoDB 点击安装即可 选择Custom 此时安装已经完成 桌面会创建图标 检查是否配置好MongoDB 输入cmd命令行 Windows键 R 打开命令行 输入cmd 复制安装路径 复制data路径 如果输出一大串代码即配置mongdb成功

LeetCode 面试经典150题 172.阶乘后的零

题目:给定一个整数 n ,返回 n! 结果中尾随零的数量。 提示 n! n * (n - 1) * (n - 2) * ... * 3 * 2 * 1 思路: 代码: class Solution {public int trailingZeroes(int n) {return n 0 ? 0 : n / 5 trailingZeroes(n / 5);}…

央企办医布局智慧医康养,环球医疗(2666.HK)让养老有“医”靠

投资传奇查理芒格说:“我给自己设定的目标是追求平常人没有的常识。”只有挖掘出市场潜移默化的趋势,才能抓住投资机遇。 当下,资本市场一个被低估的产业趋势是,医疗健康行业大并购时代悄然开启,头部上市公司对并购产…

【Python快速学习笔记01】下载解释器/环境变量配置/PyCharm下载/第一个代码

目录 1.下载python解释器 2.第一个python程序 3.配置解释器环境变量 4.下载开发工具 PyCharm 4.通过PyCharm编写第一个python程序 1.下载python解释器 官网下载,但是下载太慢了,所以直接百度搜了下载了个 Welcome to Python.org 1.官网下载 2.直…

香港科技大学数据建模MSc(DDM)硕士学位项目25/26招生宣讲会-西安专场

香港科技大学数据建模MSc(DDM)硕士学位项目25/26招生宣讲会-西安专场 🕙时间:2024 年10 月12日(周六) 16:00 🏠地点: 西安交大南洋大酒店(交通大学青龙寺店) 行政会议室 🧑‍🎓嘉宾…

VS code 使用 Jupyter Notebook 时显示 line number

VS code 使用 Jupyter Notebook 时显示 line number 引言正文引言 有些时候,我们在 VS code 中必须要使用 Jupyter Notebook,但是默认情况下,Jupyter Notebook 是不显示 Line number 的,这对于调试工作的定位是不友好的,这里我们将介绍如何让 Jupyter Notebook 显示 Line…

反问面试官:如何实现集群内选主

面试官经常喜欢问什么zookeeper选主原理、什么CAP理论、什么数据一致性。经常都被问烦了,我就想问问面试官,你自己还会实现一个简单的集群内选主呢?估计大部分面试官自己也写不出来。 本篇使用 Java 和 Netty 实现简单的集群选主过程的示例。…

为何上海我店平台 能够三年突破两百亿销售额?

在当前全球经济环境充满挑战,消费者普遍持谨慎态度的背景下,我店——这家总部位于上海的创新企业,却以惊人的速度崛起,成为市场中的一股清流。 自2021年8月成立以来,我店凭借其独特的环保积分系统,在短短两…

日本IT-正社员、契约社员、个人事业主该如何选?

正社員:就是「正规社员」的意思,按照公司的规定而直接雇用,而且没有制定雇用期间,基本上是以终身雇用至退休年龄(70岁)为前提。而被雇用的一方需要听从公司的业务命令,包括职位或职场的调迁&…

Go语言开发后台框架不能只有CRUD还需有算法集成基础功能-GoFly框架集成了自然语言处理(NLP)分词、关键词提取和情感分析

前言 Go语言开发框架,我们要把Go的优势体现在框架中,不仅CRUD常规操作,还要把常用即有算力自己集成到框架中,而不是去购买第三方提供服务接口。作为开发者可以拓宽自己代码面,获取更多成就感,同时也提供自…