【machine learning-14-特征缩放-归一化】

【machine learning-14-特征缩放-归一化】

news/2024/9/23 7:27:34/文章来源:https://blog.csdn.net/zishuijing_dd/article/details/142406359

特征缩放是提升线性回归收敛速度的技巧，什么是特征缩放？又是什么场景下需要特征缩放，有哪些特征缩放的方法呢？

特征值差异

我们还是以之前房间预测为例：
在这里插入图片描述

这里面是特征房屋大小房间数目与房价的关系

本文为简化，只用房屋面积和房间数目来举例，预测房价的线性回归函数：

f(x) = w1 * x1 + w2 * x2 + b，其中x1和x2分别是房屋面积和房间数目特征

显而易见的是，x1特征的数值相对大，而x2的数值相对小，这种情况下，w1和w2的不同选择会导致什么情况呢？
假设此时x1 = 2000, x2 = 5，房价500k:

如果w1 = 50 w2 = 0.1 b = 50，此时房价计算出来为100050.5k，显然此时房价天价，预测的房价不合理
反过来 w1 = 0.1 w2 = 50 b = 50 此时预测房价500k，刚好真实结果相同

这跟梯度下降有什么关系呢？

梯度下降

我们画一张特征的散点图就会发现，房屋面积的这个特征值的范围相对房屋个数这个特征值大的多，散点就集中很矮的一个区域，这就会导致损失函数等高图形式像下面右图一样，
在这里插入图片描述
损失函数是一种瘦高的形式，这种形式带来的坏处就是：
w1 变化很小，损失变动就会很大，因为w1会乘上一个很大的数字
而反过来w2则需要变更很大损失才会有变化。
如果我们用原样的数据，那么这时候损失就会来回震荡，直到很久才能找到最小值，也就是梯度下降很慢，收敛慢，这种情况下，我们可以用的一个方法就是特征缩放

特征缩放

特征缩放的目的就是把特征值都缩放在相差不大的范围，这时候x1和x2分布就会比较均衡，损失函数J就会像下面这样，接近一个圆形：
在这里插入图片描述

归一化

怎么做到让x1和x2缩放到区间差别不大的范围上呢？
方法有很多，如下：

除以最大值。比如x1最大值是5，那么x1就变更成x1/5
均值归一化。重新缩放到-1到1之间。方法就是减去均值后除以最大和最小值的差值，如下x1举例：

在这里插入图片描述
3. z-score 归一化。x1的原值减去均值除以标准差，如下X1举例：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/1542893.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

相关文章

数据处理与统计分析篇-day03-python数据分析介绍与环境搭建

数据处理与统计分析篇-day03-python数据分析介绍与环境搭建

概述 python优势 Python作为当下最为流行的编程语言之一可以独立完成数据分析的各种任务数据分析领域里有海量开源库机器学习/深度学习领域最热门的编程语言在爬虫，Web开发等领域均有应用常用开源库 numpy NumPy(NumericalPython) 是 Python 语言的一…

阅读更多...

#面试系列-腾讯后端一面

#面试系列-腾讯后端一面

03.腾讯后端一面项目相关面试官可能是 Go 方向的，我面试的是 Java 方向的，所以面试官也没有问我简历上的项目，主要问了实验室中做的项目，哪个项目比较有技术挑战？ 面试主要问了计算级网络相关，以及如果让…

阅读更多...

通信工程学习：什么是TLS传输层安全协议

通信工程学习：什么是TLS传输层安全协议

TLS：传输层安全协议 TLS（Transport Layer Security）传输层安全协议是一种用于在两个通信应用程序之间提供保密性、数据完整性以及真实性的安全协议。它是SSL（Secure Sockets Layer）协议的后继者，继承并增强…

阅读更多...

数据结构与算法——Java实现 8.习题——移除链表元素（值）

数据结构与算法——Java实现 8.习题——移除链表元素（值）

祝福你有前路坦途的好运，更祝愿你能保持内心光亮纵有风雨，依然选择勇敢前行 —— 24.9.22 203. 移除链表元素给你一个链表的头节点 head 和一个整数 val ，请你删除链表中所有满足 Node.val val 的节点，并返回新的头节点。示…

阅读更多...

黎巴嫩BP机爆炸事件启示录：我国应加快供应链安全立法

黎巴嫩BP机爆炸事件启示录：我国应加快供应链安全立法

据报道，当地时间9月17日下午，黎巴嫩首都贝鲁特以及黎巴嫩东南部和东北部多地都发生了BP机爆炸事件。当时的统计数据显示，爆炸造成9人死亡，约2800人受伤。9月18日，死亡人数上升到11人，受伤人数超过4000。目…

阅读更多...

计算机毕业设计基于 Hadoop平台的岗位推荐系统 SpringBoot+Vue 前后端分离附源码讲解文档

计算机毕业设计基于 Hadoop平台的岗位推荐系统 SpringBoot+Vue 前后端分离附源码讲解文档

🍊作者：计算机编程-吉哥 🍊简介：专业从事JavaWeb程序开发，微信小程序开发，定制化项目、源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事，生活就是快乐的。 🍊心愿：点…

阅读更多...

知乎:从零开始做自动驾驶定位；注释详解（二）

知乎:从零开始做自动驾驶定位；注释详解（二）

这个个系统整体分为: 数据预处理前端里程计后端优化回环检测显示模块。首先来看一下数据预处理节点做的所有事情： 数据预处理节点根据知乎文章以及代码我们知道: 节点功能输入输出数据预处理1.接收各传感器信息2.传感器数据时间同步 3.点云运动畸变补偿 4.传…

阅读更多...

c++类与对象一

c++类与对象一

C类与对象(一) 面向对象初步认识在c语言中，编程是面向过程编程，注重求解问题列出过程，然后调用函数求解问题。在日常生活中。我们经常会遇到面向过程的问题手洗衣服就是面向过程而C是基于面向对象的。关注的是对象，把事情…

阅读更多...

html实现TAB选项卡切换

html实现TAB选项卡切换

<!DOCTYPE html> <html> <head> <title>选项卡示例</title> <style> .tabs { overflow: hidden; /* 防止选项卡溢出容器 */ border: 1px solid #ccc; background-color: #f1f1f1; } .tab-links { margin: 0; padding: 0; l…

阅读更多...

DataX-Web项目的Windows环境部署及基本使用

DataX-Web项目的Windows环境部署及基本使用

一，datax-web是什么？ DataX Web 是一个在 DataX 基础上开发的分布式数据同步工具，它提供了一个简单易用的操作界面，旨在降低用户使用 DataX 的学习成本，缩短任务配置时间，并减少配置过程中的错误。DataX Web 支持多种数据源，包括 RDBMS、Hive、HBase、ClickHouse、Mongo…

阅读更多...

$yarn : 无法加载文件 C:\Users\Rog\AppData\Roaming\npm\yarn.ps1，因为在此系统上禁止运行脚本$

yarn : 无法加载文件 C:\Users\Rog\AppData\Roaming\npm\yarn.ps1，因为在此系统上禁止运行脚本

yarn : 无法加载文件 C:\Users\Rog\AppData\Roaming\npm\yarn.ps1，因为在此系统上禁止运行脚本设置命令行窗口默认以管理员身份运行，在此基础上输入以下代码，应该就好使了，切记，以下代码才是关键，我基本上…

阅读更多...

＜刷题笔记＞力扣236题——二叉树的公共祖先

＜刷题笔记＞力扣236题——二叉树的公共祖先

236. 二叉树的最近公共祖先 - 力扣（LeetCode） 题目解释： 我们以这棵树为例，来观察找不同的最近公共祖先有何特点： 思路一： 除了第二种情况，最近公共祖先满足：一个节点在他的左边&am…

阅读更多...

犀牛数据爬虫逆向分析

犀牛数据爬虫逆向分析

目标网站 aHR0cHM6Ly93d3cueGluaXVkYXRhLmNvbS9pbmR1c3RyeS9uZXdlc3Q/ZnJvbT1kYXRh 一、抓包分析请求参数和响应数据都有加密二、逆向分析 1、请求参数请求参数生成位置数据解密涉及到一个异步栈解密后的数据形式剩下的就是扣取代码了，很简单，…

阅读更多...

Class path contains multiple SLF4J bindings.

Class path contains multiple SLF4J bindings.

最近由于要改kafka成datahub，于是在pom文件上引入了 <dependency><groupId>com.aliyun.datahub</groupId><artifactId>aliyun-sdk-datahub</artifactId><version>2.25.1</version> </dependency> 然后让我去测试…

阅读更多...

Linux 进程间通信（管道）

Linux 进程间通信（管道）

目录一.理解进程间通信 1.进程间通信的意义 2.进程间如何实现通信呢？ 二.匿名管道 1.匿名管道的底层原理引用计数的应用 2.匿名管道代码实现 a.代码的整体框架 b.写接口 c.读接口 d.子进程资源回收 3.匿名管道的官方接口 4.*匿名管道四种情况和五种特…

阅读更多...

【算法业务】互联网风控业务中的续贷审批模型（融合还款意愿分层的逾期风险识别模型）

【算法业务】互联网风控业务中的续贷审批模型（融合还款意愿分层的逾期风险识别模型）

1、背景说明本文旨在提出一种针对风控催收受限情况下，如何提升风控审批模型的风险识别能力，以缓解贷后催收的压力，降低贷款资金坏账的风险。这篇工作依然是很早期的项目，分享的目的一方面做笔记，另一方面则是希望其中…

阅读更多...

多类别物体检测系统源码分享

多类别物体检测系统源码分享

多类别物体检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer V…

阅读更多...

YOLO航拍车辆和行人识别

YOLO航拍车辆和行人识别

YOLO航拍车辆和行人识别图片数量9695，标注为xml和txt格式； class：car，pedestrian，truck，bus 用于yolo，Python，目标检测，机器学习，人工智能，深度学…

阅读更多...

LeetCode 热题 100 回顾18

LeetCode 热题 100 回顾18

干货分享，感谢您的阅读！原文见：LeetCode 热题 100 回顾_力code热题100-CSDN博客一、哈希部分 1.两数之和 （简单） 题目描述给定一个整数数组 nums 和一个整数目标值 target，请你在该数组中找出和为目标…

阅读更多...

洛谷P5740——结构体运用

洛谷P5740——结构体运用

简单的结构体，但是要注意这个排序还有求和重复时的特判 AC代码附在后面 #include<bits/stdc.h> using namespace std; struct Node{string name;int a,b,c,sum;//语文，数学，英语 }node[1000]; bool cmp(Node a,Node b){return a.sum…

阅读更多...

最新文章