数据预处理方法—数据标准化和数据归一化

1.数据标准化

1.1 概念:

     标准化是将数据转化为均值为0,标准差为1的分布。通过标准化处理,所有特征在同一个尺度上,使得模型更加稳定和高效,尤其适用于正态(高斯)分布的数据。

1.2 原理

     标准化后的数据具有相同尺度,减少特征之间量纲不一致的影响,有助于提高某些机器学习算法的性能。

1.3 核心公式

标准化公式:

其中,µ 是特征的均值,σ是特征的标准差。

假设X={X1,X2,...,Xn},其均值和标准差分别为:

1.4.python案例 

    创建一个包含两个特征的数据集,对数据进行标准化。

步骤:

    1.创建一个随机数据集

    2.对数据进行标准化

    3.绘制标准化前后的数据分布直方图

    4.绘制标准化前后的数据散点图

scikit-learn中,我们可以使用sklearn.preprocessing模块中的StandardScaler类实现数据标准化。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
# 1. 创建一个随机数据集
np.random.seed(0)
data = np.random.rand(100, 2) * 1000
# 创建一个DataFrame
df = pd.DataFrame(data, columns=['Feature1', 'Feature2'])
# 2. 对数据进行标准化
scaler = StandardScaler()
data_standardized = scaler.fit_transform(data)
# 创建标准化后的DataFrame
df_standardized = pd.DataFrame(data_standardized, columns=['Feature1',colour='bule')
plt.hist(df_standardized['Feature2'], bins=20, alpha=0.7, label='Feature2',color='green')
# 3. 绘制标准化前后的数据分布直方图
plt.figure(figsize=(12,6))
# 标准化前
plt.subplot(1,2,1)
plt.hist(df['Feature1'], bins=20, alpha=0.7, label='Feature1', color='blue')
plt.hist(df['Feature2'], bins=20, alpha=0.7, label='Feature2', color='green')
plt.title('Before Standardization')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.legend()
# 标准化后
plt.subplot(1, 2, 2)
plt.hist(df_standardized['Feature1'], bins=20, alpha=0.7, label='Feature1',color='blue')plt.hist(df_standardized['Feature2'], bins=20, alpha=0.7, label='Feature2',color='green')
plt.title('After Standardization')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.legend()
plt.tight_layout()
plt.show()
# 4. 绘制标准化前后的数据散点图
plt.figure(figsize=(12, 6))
# 标准化前
plt.subplot(1, 2, 1)
plt.scatter(df['Feature1'], df['Feature2'], color='blue', alpha=0.7)
plt.title('Before Standardization')
plt.xlabel('Feature1')
plt.ylabel('Feature2')
# 标准化后
plt.subplot(1, 2, 2)
plt.scatter(df_standardized['Feature1'], df_standardized['Feature2'],color='red',alpha=0.7)
plt.title('After Standardization')
plt.xlabel('Feature1')
plt.ylabel('Feature2')
plt.tight_layout()
plt.show()

输出结果: 

2.数据归一化 

2.1 概念

  归一化是将数据缩放到特定范围(通常是[0,1]),特别适用于距离度量敏感的算法

2.2 原理

归一化后的数据每个特征的取值范围相同,有助于提高某些机器学习算法的性能。

2.3 核心公式

归一化公式:

其中,Xmax和Xmin分别是特征的最大值和最小值。

假设X={X1,X2,...Xn},其最小值和最大值分别为:

Xmin=min(X)

Xmax=max(X)

注意:我们也可以通过公式将数据压缩到其他指定的范围[a,b]:

 其中,a和b是目标范围的上下界。

2.4 Python案例  

当涉及到数据预处理中的归一化,一个经典的案例就是处理不同尺度或者有明显数值差异的的特征。我们可以用鸢尾花数据集来演示。这个数据集包含了三种不同品种的鸢尾花,每种花有四个特征:花萼长度,花萼宽度,花瓣长度和花瓣宽度。

这里使用python和一些常见的数据科学库来演示归一化过程,并且展示归一化前后的数据分布情况

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.preprocessing import MinMaxScaler
# 加载鸢尾花数据集
iris=datasets.load_iris()
X=iris.data # 特征数据
# 创建MinMaxScaler对象
scaler = MinMaxScaler()
# 对数据集进行归一化
X_normalized = scaler.fit_transform(X)
# 可视化归一化前后的数据分布
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 6))
# 归一化前的数据分布
ax1.scatter(X[:,0],X[:,1],c=iris.target)
ax1.set_title('Before Normalization')
ax1.set_xlabel('Sepal Length (cm)')
ax1.set_ylabel('Sepal Width (cm)')
# 归一化后的数据分布
ax2.scatter(X_normalized[:,0],X_normalized[:,1],c=iris.target)
ax2.set_title('After Normalization')
ax2.set_xlabel('Sepal Length (normalized)')
ax2.set_ylabel('Sepal Width (normalized)')
plt.tight_layout()
plt.show()

输出结果 

3.标准化和归一化对比 

 标准化和归一化都能实现对数据的缩放,不过它们各自的功能以及适用场景并不一样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1541476.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【HTTP】构造HTTP请求和状态码

状态码 用于响应中,表示响应的结果如何 正确?错误?什么原因? HTTP 中的状态码都是标准约定好的 200 OK 成功了,一切顺利 在抓包到的响应中 404 Not Found 访问的资源(URL 中的路径)没找…

【已解决】编译报错:fatal error: Eigen/Core: 没有那个文件或目录 #include <Eigen/Core>

1、如果没有安装过Eigen,可以使用以下git指令进行下载,或者也可以通过以下网址下载 git clone https://gitlab.com/libeigen/eigen.git网址1:https://eigen.tuxfamily.org/index.php?titleMain_Page 网址2: https://gitlab.com/libeigen/ei…

BeautifulSoup与lxml解析网页:技术详解与实战案例

目录 一、引言 1.1 网页解析的重要性 1.2 BeautifulSoup与lxml简介 二、安装BeautifulSoup和lxml 三、BeautifulSoup基础 3.1 创建BeautifulSoup对象 3.2 基本元素 3.3 遍历和搜索文档树 3.4 CSS选择器 四、lxml基础 4.1 解析HTML 4.2 XPath选择器 4.3 CSS选择器 …

简单多状态dp第二弹 leetcode -删除并获得点数 -粉刷房子

740. 删除并获得点数 删除并获得点数 分析: 使用动态规划解决 这道题依旧是 打家劫舍I 问题的变型。 我们注意到题目描述,选择 x 数字的时候, x - 1 与 x 1 是不能被选择的。像不像 打家劫舍 问题中,选择 i 位置的金额之后,就不…

C++速通LeetCode中等第20题-随机链表的复制(三步简单图解)

方法图解: class Solution { public:Node* copyRandomList(Node* head) {if ( !head ) {return nullptr;}Node *cur head;// 1. 在原节点的每个节点后创建一个节点while ( cur ) {Node *newNode new Node(cur -> val);newNode -> next cur -> next;cur …

大小端字节序 和 内存高低地址顺序

目录 1. 大小端字节序 1.1 什么是大小端字节序? 1.2 为什么有大小端字节序? 1.3 习题:用程序结果判断大端小端 2. 各种易混淆的高低地址顺序 2.1 监视窗口的地址表示【计算机标准展示方式】 2.2 横向地址表示 2.3 一个字节 与 多个字节 的地址…

g1:基于 Llama,用提示工程实现类似 o1 的深度推理

开源项目 g1 利用巧妙的提示策略,在 Groq 硬件上使用 Llama-3.1 70b 模型实现了类似 OpenAI o1 的推理链能力。g1 将推理过程可视化,并结合多种技巧引导 LLM 进行深度思考,显著提升了其在逻辑问题上的准确率,为 LLM 推理能力的提升…

Win10 安装Node.js 以及 Vue项目的创建

一、Node.js和Vue介绍 1. Node.js Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境。它允许你在服务器端运行 JavaScript,使得你能够使用 JavaScript 来编写后端代码。以下是 Node.js 的一些关键特点: 事件驱动和非阻塞 I/O:Node…

【24华为杯数模研赛赛题思路已出】国赛F题第二套思路丨附参考代码丨免费分享

2024年数模研赛E题解题思路 X 射线脉冲星光子到达时间建模思路分析 该题目是天文学背景的数学建模题目,其涉及到物理学中关于光线传播过程受多种因素的共同干扰的复合模型,以及天体和卫星的坐标变换和运动模型,首先我们要,建立卫…

JavaScript使用leaflet库显示信息窗口

前言 我们可千万不能忘记我们之前花的流程图哦,我们所有的计划都按照我们的流程图来去构建; 我们已经完成了,页面的加载,也已经完成获取用户当前的位置坐标,并且我们通过地图的API将当前的位置在地图中渲染出来&…

基于协同过滤推荐算法的影视推荐系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 精品专栏:Java精选实战项目源码、Python精…

缓存数据和数据库数据一致性问题

根据以上的流程没有问题,但是当数据变更的时候,如何把缓存变到最新,使我们下面要讨论的问题 1. 更新数据库再更新缓存 场景:数据库更新成功,但缓存更新失败。 问题: 当缓存失效或过期时,读取…

【C++】C++库:如何链接外部库、静态链接和动态链接,以及如何自建库并使用

十三、C库:如何链接外部库、静态链接和动态链接,以及如何自建库并使用 本篇讲C库,先讲如何在项目中使用外部库,包括静态链接和动态链接的实现;再讲如何在VisualStudio中自建模块或库项目,让所有项目都能使…

Java-数据结构-排序-(一) (。・ω・。)

文本目录: ❄️一、排序的概念及引用: ➷ 排序的概念: ➷ 常见的排序算法: ❄️二、插入排序的实现: ➷ 1、直接插入排序: ☞ 直接插入排序的基本思想: ☞ 直接插入排序的实现: ▶…

OBB-最小外接矩形包围框-原理-代码实现

前言 定义:OBB是相对于物体方向对齐的包围盒,不再局限于坐标轴对齐,因此包围点云时更加紧密。优点:能够更好地贴合物体形状,减少空白区域。缺点:计算较为复杂,需要计算物体的主方向&#xff0c…

linux 操作系统下dhcpd命令介绍和案例应用

linux 操作系统下dhcpd命令介绍和案例应用 DHCP(动态主机配置协议)在Linux操作系统中用于自动为网络中的设备分配IP地址和其他网络配置 DHCP的基本概念 DHCP协议通过UDP工作,主要有两个用途: 自动分配IP地址给网络中的设备。提…

Sn=a+aa+aaa+aaaa+aaaaa的前五项之和,其中a是一个数字

//计算求和 //Snaaaaaaaaaaaaaaa的前五项之和&#xff0c;其中a是一个数字 //如&#xff1a;222222222222222 #include<stdio.h> #include<math.h> #define A 2 //数字a #define B 5 //前几项的和 int main() {int n 0;int sum 0;int i 0;for (i 0; i <B;…

STM32F407单片机编程入门(十一) ESP8266 WIFI模块实战含源码

文章目录 一.概要二.ESP8266 WIFI模块主要性能参数三.ESP8266 WIFI模块芯片内部框图四.ESP8266 WIFI模块原理图五.ESP8266 WIFI模块与单片机通讯方法1.硬件连接2.ESP8266模块AT指令介绍 六.STM32单片机与ESP8266WIFI模块通讯实验1.硬件准备2.软件工程3.软件主要代码4.实验效果 …

变电站绝缘套管红外检测数据集

包含以下4个数据文件&#xff1a; /train&#xff1a;训练集 /valid&#xff1a;验证集 /test&#xff1a;测试集 README.txt&#xff1a;数据说明 【数据说明】检测目标以Pascal VOC格式进行标注&#xff0c;对每个图像进行以下预处理&#xff0c;统一调整大小为640x640。数据…

死机检测电路

目录&#xff1a; 1、死机检测概述 2、活机状态 3、死机状态 1、死机检测概述 本内容分享一个“死机检测电路”&#xff0c;用作单片机&#xff08;MCU&#xff09;死机时&#xff0c;不至于持续给负载供电。‌持续负载供电&#xff0c;比如加热丝&#xff0c;可能会引发严…