【数据处理】数据预处理·数据变换(熵与决策树)

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀软件开发必备知识_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光

 

目录

1. 前言

2. 数据变换 

2.1 数据规范化

​编辑 2.2 数据离散化

2.2.1 非监督离散化

2.2.2 监督离散化


1. 前言

在进入这一篇文章之前,我希望大家看看另外两篇文章

【数据处理】数据预处理·数据清理-CSDN博客

【数据处理】数据预处理·数据集成-CSDN博客

核心思想:

        1、大数据中最重要的部分就是数据处理

        2、数据处理中第一步就是数据预处理

        3、数据预处理目的是提高数据的质量,使得我们能使用更高质量的数据进行后续处理

        4、数据预处理包括:数据清洗、数据集成、数据变换、数据规约

数据清洗:

        1、缺失值处理

        2、噪声处理

数据集成:

        1、数据集成中最大的问题就是数据冗余

        2、冗余数据包括:冗余样本、冗余属性

        3、数据冗余中最重要的部分是:冗余检测

        4、冗余检测包括:有序数据检测、无序数据检测

        5、检测方式有两个角度:a. 将数据看成向量空间的点;b. 将数据看成向量


接下来,我们进入数据预处理的下一部分:数据变换

2. 数据变换 

定义:由于数据量之间的量纲、连续性等不同导致不同数据之间不能比较,因此需要通过数据变换使他们具有可比性。

数据变换包括 :数据规范化、数据离散化

2.1 数据规范化

目的:将不同数据(属性)按一定规则进行缩放,使它们具有可比性

举个例子:体重和身高两个数据量之间不能比较,因为量纲不同,因此需要规范化 

最小-最大规范化:(对原始数据进行线性变换。把数据A的观察值v从原始的 区间[minA,maxA]映 射到新区间 [new_minA,new_maxA])【0-1规范化又称为归一化】

0-1规范化:

\mathrm{x'=\frac{x-min}{max-min}}

[minA,maxA] - [new_minA,new_maxA]规范化:

\frac{v^\prime-new_min_A}{new_max_A-new_min_A}=\frac{v-min_A}{max_A-min_A}

\nu^{\prime}=\frac{\nu-min_{A}}{\max_{A}-\min_{A}}(\mathrm{new_max_{A}-new_min_{A}})+\min_{A} 

用处:能够调节两个属性的量纲,让两者可以比较 

缺点:噪声影响非常大,对离群值很敏感

因此,提出z-score规范化!!!!

z-score规范化:

小数定标规范化: 

 2.2 数据离散化

连续数据过于细致,数据之间的关系难以分析,划分为离散化的区间,发现数据之间的关联,便于算法处理。

  • 思考什么是离散化?
  • 离散化本质就是限制类的数量
  • 限制类的数量其核心思想和平滑是相同的
  • 平滑也就是我们进行数据清洗(缺失、噪声处理)的核心思想

2.2.1 非监督离散化

  • 分箱
  • 聚类

 

2.2.2 监督离散化

  • 熵的计算

熵的本质思想:信息不确定性越大,价值越大

例如:

1、“太阳从东边升起来”这个信息没有不确定性,这是一个必然事实。那么这个信息对于我们来说是没有价值的。

2、“特朗普将赢得大选”这个信息不确定性相当大(特朗普不一定赢)。因此,我们听到这个信息会很好奇,为什么特朗普将赢,因此这个信息价值很大。


那么如何利用熵来对数据进行离散化呢?

离散化:就是把数据的类别减少(限制类别数量)。

因此,利用熵来实现离散化的关键在于:为连续的数据进行有限的分类。

问题的关键就转化为:如何利用熵有效的对数据进行分类

分类方法:

  • D:待分类数据集
  • a:数据集的特征属性
  • V:数据集特征属性a的不同分类集合(V是我们找max过程中需要改变的

举个例子:

如果想要学习更多深度学习知识,大家可以点个关注并订阅,持续学习、天天进步

你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/10524.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【电子通识】TINA-TI 如何产生动态电流波形?

在仿真过程中我们有些时候需要动态电流负载。比如说从5A跳到1A。那这种情况下我们怎么仿真呢? 首先打开TINA-TI软件,找到Sources源,放置一个可控电流源。 放置好后双击器件打开属性,点到Signal信号框中的三个小点。 找到piecewise…

【Qt聊天室客户端】登录窗口

1. 验证码 具体实现 登录界面中创建验证码图片空间&#xff0c;并添加到布局管理器中 主要功能概述&#xff08;创建一个verifycodewidget类专门实现验证码操作&#xff09; 详细代码 // 头文件#ifndef VERIFYCODEWIDGET_H #define VERIFYCODEWIDGET_H#include <QWidget>…

十七:Spring Boot依赖 (2)-- spring-boot-starter-web 依赖详解

目录 1. spring-boot-starter-web 简介 1.1 作用与功能&#xff1a; 1.2 引入方式&#xff1a; 1.3 包含的核心依赖&#xff1a; 2. 自动配置原理 3. 内嵌 Servlet 容器 3.1 默认 Tomcat 配置&#xff1a; 3.2 替换容器&#xff08;Jetty 或 Undertow&#xff09;&#…

Python注意力机制Attention下CNN-LSTM-ARIMA混合模型预测中国银行股票价格|附数据代码...

全文链接&#xff1a;https://tecdat.cn/?p38195 股票市场在经济发展中占据重要地位。由于股票的高回报特性&#xff0c;股票市场吸引了越来越多机构和投资者的关注。然而&#xff0c;由于股票市场的复杂波动性&#xff0c;有时会给机构或投资者带来巨大损失。考虑到股票市场的…

MySQL中的INT(4)里面的4究竟代表着什么

目录 1. 理解INT类型中的数字2. INT显示宽度与INSERT操作3. SELECT、INSERT、UPDATE、DELETE与显示宽度4. 实际应用中的影响场景5. 创建表时的建议 1. 理解INT类型中的数字 在MySQL中&#xff0c;当你定义一个整数字段为INT(M)&#xff0c;这里的M代表的是显示宽度。 这个数字…

Spring Boot实现的工程认证计算机课程管理解决方案

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及&#xff0c;互联网成为人们查找信息的重要场所&#xff0c;二十一世纪是信息的时代&#xff0c;所以信息的管理显得特别重要。因此&#xff0c;使用计算机来管理基于工程教育认证的计算机课程管理平台的相…

中药香料价钱快速划价计算器软件 中药文本识别计算费用管理系统操作教程

一、概述 【软件试用版资源文件下载可点文章最后官网卡片了解】 中药香料价钱快速划价计算器软件 中药文本识别计算费用管理系统操作教程 ‌核心功能‌&#xff1a;快速划价与账单管理。 ‌快速划价‌&#xff1a;复制药方文本&#xff0c;点击划价按钮即可计算总金额‌。‌账…

代码随想录刷题记录(二十五)——54. 替换数字

&#xff08;一&#xff09;问题描述 54. 替换数字&#xff08;第八期模拟笔试&#xff09;https://kamacoder.com/problempage.php?pid1064给定一个字符串 s&#xff0c;它包含小写字母和数字字符&#xff0c;请编写一个函数&#xff0c;将字符串中的字母字符保持不变&#…

【温度表达转化】

【温度表达转化】 C语言代码C代码Java代码Python代码 &#x1f490;The Begin&#x1f490;点点关注&#xff0c;收藏不迷路&#x1f490; 利用公式 C5∗(F−32)/9 &#xff08;其中C表示摄氏温度&#xff0c;F表示华氏温度&#xff09; 进行计算转化。 输出 输出一行&#x…

【时间之外】IT人求职和创业应知【32】-RTE二次出现

目录 新闻一&#xff1a;AI-AGENT加速落地&#xff0c;计算机行业利润端好转 新闻二&#xff1a;声网CEO赵斌&#xff1a;RTE将成为生成式AI时代AI Infra的关键部分 新闻三&#xff1a;11月科技盛会&#xff1a;新技术与产品发布一览 认知和思考决定了你的赚钱能力。以下是今…

基于51单片机的温控电风扇proteus仿真

地址&#xff1a;https://pan.baidu.com/s/1vgYgY41tp_axxVFTHAPwFg 提取码&#xff1a;1234 仿真图&#xff1a; 芯片/模块的特点&#xff1a; AT89C52/AT89C51简介&#xff1a; AT89C52/AT89C51是一款经典的8位单片机&#xff0c;是意法半导体&#xff08;STMicroelectron…

Spring 配置绑定原理分析

Spring 配置绑定原理分析 前言 Spring 应用中存在诸多配置&#xff0c;有的是系统配置&#xff0c;有的命令行启动参数配置&#xff0c;有的是yaml配置&#xff0c;有的是分布式配置中心配置&#xff0c;但对使用者而言总是可以通过ConfigurationProperties将它关联到一个Java…

Hadoop生态圈框架部署(五)- Zookeeper完全分布式部署

文章目录 前言一、Zookeeper完全分布式部署&#xff08;手动部署&#xff09;1. 下载Zookeeper2. 上传安装包2. 解压zookeeper安装包3. 配置zookeeper配置文件3.1 创建 zoo.cfg 配置文件3.2 修改 zoo.cfg 配置文件3.3 创建数据持久化目录并创建myid文件 4. 虚拟机hadoop2安装并…

HarmonyOS Next 实战卡片开发 03

HarmonyOS Next 实战卡片开发 03 在前面两张&#xff0c;我们基本掌握了卡片的使用流程&#xff0c;本章节就通过一个实战来加强对卡片使用的理解。 要完成的案例 新建项目和新建服务卡片 设置沉浸式 entry/src/main/ets/entryability/EntryAbility.ets 首页显示轮播图数据 1…

基于 PyTorch 从零手搓一个GPT Transformer 对话大模型

一、从零手实现 GPT Transformer 模型架构 近年来&#xff0c;大模型的发展势头迅猛&#xff0c;成为了人工智能领域的研究热点。大模型以其强大的语言理解和生成能力&#xff0c;在自然语言处理、机器翻译、文本生成等多个领域取得了显著的成果。但这些都离不开其背后的核心架…

三、整数规划

整数规划 建立逻辑变量来整合多个方案。如0-1变量&#xff08;要说明0和1分别表示什么&#xff09;见P79求解纯整数规划的分支定界法&#xff1a; 求解整数规划的松弛问题的最优解若松弛问题的最优解满足整数要求&#xff0c;则得到整数规划的最优解&#xff0c;否则转下一步任…

Docker了解

Docker是一种容器化技术&#xff0c;它可以将应用程序和其依赖项打包到一个独立的、可移植的容器中&#xff0c;以便在不同的环境中运行。Docker基于Linux操作系统的容器化技术&#xff0c;可以提供更轻量、更快速、更灵活、更一致的应用部署和管理方式。 Docker的基本概念包括…

stm32以太网接口:MII和RMII

前言 使用stm32和lwip进行网络通信开发时&#xff0c;实现结构如下&#xff1a; 而MII和RMII就是stm32与PHY芯片之间的通信接口&#xff0c;类似于I2C、UART等。 stm32以太网模块有专用的DMA控制器&#xff0c;通过AHB接口将以太网内核和存储器相连。 数据发送时&#xff0c;…

【GESP】C++一级真题练习(202312)luogu-B3921,小杨的考试

GESP一级真题练习。为2023年12月一级认证真题。逻辑计算问题。 题目题解详见&#xff1a;【GESP】C一级真题练习(202312)luogu-B3921&#xff0c;小杨的考试 | OneCoder 【GESP】C一级真题练习(202312)luogu-B3921&#xff0c;小杨的考试 | OneCoderGESP一级真题练习。为2023…

【java】通过<类与对象> 引入-> 链表

目录 链表 碎片化&#xff1a; 内存碎片产生的原因 如何避免内存碎片&#xff1f; 链表类型 单链表 双链表 单循环链表 双循环链表 java是如何创建链表的&#xff1f; 类与对象 类是什么&#xff1f; 什么是对象&#xff1f; 构建链表 头指针 简画内存图&#…