《PCA 原理推导》18-2线性变换 公式解析

本文是将文章《PCA 原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。


公式 18 - 2 18\text{-}2 18-2 的内容如下:

y i = a i T x = a i 1 x 1 + a i 2 x 2 + ⋯ + a i m x m y_i = a_i^T x = a_{i1} x_1 + a_{i2} x_2 + \cdots + a_{im} x_m yi=aiTx=ai1x1+ai2x2++aimxm

解释公式 18 - 2 18\text{-}2 18-2

公式 18 - 2 18\text{-}2 18-2 描述了一个线性变换,它将高维数据 x x x 投影到一个新的坐标轴上,以生成一个新的变量 y i y_i yi。在PCA中,这一过程对应于将原始数据映射到主成分方向上。

公式中的符号含义
  1. x x x:这是原始数据,是一个 m m m 维的随机向量。它可以表示为:
    x = [ x 1 , x 2 , … , x m ] T x = [x_1, x_2, \dots, x_m]^T x=[x1,x2,,xm]T
    其中, x i x_i xi 是原始数据中的第 i i i 个特征。

  2. a i a_i ai:这是一个 m m m 维的向量,称为线性变换系数权重向量,用于定义主成分的方向。它可以表示为:
    a i = [ a i 1 , a i 2 , … , a i m ] T a_i = [a_{i1}, a_{i2}, \dots, a_{im}]^T ai=[ai1,ai2,,aim]T
    其中, a i j a_{ij} aij 是对应于第 i i i 个主成分的第 j j j 个权重。

  3. y i y_i yi:这是变换后的变量,表示数据 x x x 在新的方向(即第 i i i 个主成分方向)上的投影值。换句话说, y i y_i yi 是在 a i a_i ai 指定的方向上,原始数据 x x x 的线性组合。

  4. a i T x a_i^T x aiTx:这是 a i a_i ai x x x 的内积运算,用于计算数据 x x x a i a_i ai 指定的方向上的投影值。

  5. 展开形式 a i 1 x 1 + a i 2 x 2 + ⋯ + a i m x m a_{i1} x_1 + a_{i2} x_2 + \cdots + a_{im} x_m ai1x1+ai2x2++aimxm:表示通过线性组合的方式将原始数据 x 1 , x 2 , … , x m x_1, x_2, \dots, x_m x1,x2,,xm 投影到新的方向 a i a_i ai 上。

公式的几何意义
  1. 投影的含义

    • 线性变换 y i = a i T x y_i = a_i^T x yi=aiTx 的本质是将原始数据 x x x 投影到向量 a i a_i ai 定义的方向上。
    • 向量 a i a_i ai 表示新的坐标轴(即第 i i i 个主成分方向)。
    • y i y_i yi 表示数据在新的坐标轴上的位置。
  2. 主成分方向

    • 在PCA中,主成分方向 a i a_i ai 是通过优化协方差矩阵的特征值问题得到的。具体来说, a i a_i ai 是协方差矩阵的特征向量,代表数据分布方差最大的方向。
  3. 降维的过程

    • 如果我们只选择前 k k k 个主成分方向,那么公式 18 - 2 18\text{-}2 18-2 会将原始 m m m 维数据 x x x 投影到一个 k k k 维空间中,从而实现降维。
与PCA的关系
  1. 找到最大方差方向
    在PCA中,我们希望找到一个方向 a i a_i ai,使得数据在该方向上的方差(即 y i y_i yi 的方差)最大。这个方向正是通过协方差矩阵的特征值分解找到的。

  2. 生成新特征(主成分)
    公式 18 - 2 18\text{-}2 18-2 定义了一个线性变换,将原始数据映射到新的特征空间。这些新特征 y i y_i yi 就是主成分,每一个主成分都捕获了原始数据中不同方向上的主要信息。

举例说明

假设 x = [ x 1 , x 2 ] T x = [x_1, x_2]^T x=[x1,x2]T 是二维数据,且我们定义一个方向 a 1 = [ 1 2 , 1 2 ] T a_1 = [\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}]^T a1=[2 1,2 1]T,那么投影 y 1 y_1 y1 为:
y 1 = a 1 T x = 1 2 x 1 + 1 2 x 2 y_1 = a_1^T x = \frac{1}{\sqrt{2}} x_1 + \frac{1}{\sqrt{2}} x_2 y1=a1Tx=2 1x1+2 1x2
这里, y 1 y_1 y1 表示数据在 a 1 a_1 a1 方向上的投影值。如果我们选择另一个方向 a 2 = [ 1 2 , − 1 2 ] T a_2 = [\frac{1}{\sqrt{2}}, -\frac{1}{\sqrt{2}}]^T a2=[2 1,2 1]T,那么投影 y 2 y_2 y2 为:
y 2 = a 2 T x = 1 2 x 1 − 1 2 x 2 y_2 = a_2^T x = \frac{1}{\sqrt{2}} x_1 - \frac{1}{\sqrt{2}} x_2 y2=a2Tx=2 1x12 1x2
这种方式将二维数据投影到 a 1 a_1 a1 a 2 a_2 a2 两个正交方向上,从而生成新的变量 y 1 y_1 y1 y 2 y_2 y2

公式 18 - 2 18\text{-}2 18-2 的作用
  • 线性变换:公式定义了如何将原始数据 x x x 转换为新的主成分 y i y_i yi
  • 特征提取:通过选择不同的 a i a_i ai,我们可以从原始数据中提取出不同的信息。
  • 降维的基础:通过构造一组正交向量 a 1 , a 2 , … , a k a_1, a_2, \dots, a_k a1,a2,,ak,可以将高维数据降维到低维空间。
总结

公式 18 - 2 18\text{-}2 18-2 是PCA的核心公式之一,描述了通过线性变换将原始数据 x x x 投影到新的主成分方向 a i a_i ai 上的过程。它不仅为降维提供了理论基础,还揭示了数据在不同主成分方向上的变异性(信息量)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/17877.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

windows C#-编写 C# LINQ 查询(上)

介绍性的语言集成查询 (LINQ) 文档中的大多数查询是使用 LINQ 声明性查询语法编写的。 但是在编译代码时,查询语法必须转换为针对 .NET 公共语言运行时 (CLR) 的方法调用。 这些方法调用会调用标准查询运算符(名称为 Where、Select、GroupBy、Join、Max 和 Average …

c++入门->类的定义以及this详细解析

1.对象的定义 可以在内部定义变量还有函数,而其中的public是声明这里面的东西是共有的,可以调用也可以修改,但是private则是声明这里面的东西是私有的不可以被改变的,但是在类里面共有的是可以使用私有的。 在对象中默认都是私有…

SAP- 不写代码创建报表

创建报表 点击报保存,表Z0708创建完成 关联三张数据库底表 点击返回 点击报保存,表Z0708创建完成 创建报表

从PE结构到LoadLibrary

从PE结构到LoadLibrary PE是Windows平台主流可执行文件格式,.exe , .dll, .sys, .com文件都是PE格式 32位的PE文件称为PE32,64位的称为PE32,PE文件格式在winnt.h头中有着详细的定义,PE文件头包含了一个程序在运行时需要的所有信息&#xff…

聚类分析 | MSADBO优化Spectral谱聚类优化算法

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 基于改进正弦算法引导的蜣螂优化算法(MSADBO)优化Spectral谱聚类,matlab代码,直接运行! 创新独家,先用先发,注释清晰,送MSADBO参考文献!优化参数 优化后的带…

【C++】构造与析构函数

目录: 一、 This指针  (一)使用方法: 二、类的默认成员函数 三、构造函数  (一)构造函数的特点 四、析构函数 (一)析构函数的特点 正文 一、 This指针 在c语言中我们调用函…

2021TCSVT,VDM-DA:面向无源数据域自适应的虚拟域建模

原文标题:VDM-DA: Virtual Domain Modeling for Source Data-free Domain Adaptation 中文标题:VDM-DA:面向无源数据域自适应的虚拟域建模 1、Abstract 领域适应旨在利用标签丰富的领域(源领域)来帮助标签稀缺领域&…

MySQL数据库1——数据库概论

一.数据库概论 1.数据库 数据库(DataBase,DB):是长期存储在计算机内、有组织的、统一管理的相关数据的集合。简单来说,它就是一个存储各种数据的仓库,且存储过程不是随便而是有组织的。 数据库管理系统&am…

英伟达Tensor Core技术架构原理分析

英伟达Tensor Core架构技术原理 英伟达的Tensor Core架构是一种专为加速人工智能、深度学习、高性能计算(HPC)等领域中的矩阵运算和张量运算而设计的硬件单元。自首次在Volta架构中引入以来,Tensor Cores已成为NVIDIA高端GPU的核心特性,并在后续的Turing…

Linux基础5-进程控制1(fork创建子进程,写时拷贝,进程退出)

上篇文章:Linux基础4-进程5(程序地址空间详解)-CSDN博客 本篇重点:fork,写实拷贝,进程退出 目录 一. fork创建子进程 1.1 fork用法 1.2 fork返回值有两个的理解 二. 进程退出码 2.1 进程退出码 2.2 进…

用python中的tkinter包实现进度条

python中的tkinter包是一种常见的设计程序的GUI界面用的包。本文主要介绍这里面的一个组件:进度条(Progressbar)。Tkinter Progressbar里面对进度条组件已经做了一定的介绍,但比较抽象。本文以另一种方式介绍这个组件及其常用用法…

20.使用标准差剔除异常值

标准差剔除异常值 1. 方法2. 示例代码2.1 数据读取与清洗2.2 分段读取数据并绘图2.3 解释2.4 outliers2.5 结果展示 我有个记录数据采集后格式是step_rewards.txt 的文档,里面只有一列数据,10*10000行数据,没有表头,分别代表奖励数…

中科蓝讯修改蓝牙名字:【图文讲解】

本文以市面上一款公板公模的畅销产品为例。K12蓝牙音响。 音响用的芯片是:AB5768E MIC用的芯片是:AB5769A 硬件框架图如下: 芯片修改名字,通过下载工具中的配置进行修改。选择蓝牙配置,然后会出现蓝牙名字&#xff…

旅行包发霉怎么处理 除霉及防霉解决方法

近些年听到很多箱包工厂的心声,为什么箱包旅行包每年都会出现长霉请况呢?长霉了,也就是长毛了,长出那些病菌、真菌、细菌等微生物。经ihaoer防霉人士介绍旅行包长霉处理方法如下: 旅行包长霉的因素 一、旅行包储存在阴…

14、交互补充

1、元素的三大系列 1.1、offset系列 1.1.1、offset初相识 使用offset系列相关属性可以动态的得到该元素的位置(偏移)、大小等 获得元素距离带有定位祖先元素的位置获得元素自身的大小(宽度高度)注意:返回的数值都不…

【IEEE出版、八大高校联合举办、稳定EI检索】第四届人工智能与智能制造国际研讨会(AIIM 2024,12月20-22日)

第四届人工智能与智能制造国际研讨会(AIIM 2024) The 4th International Symposium on Artificial Intelligence and Intelligent Manufacturing 2024年12月20-22日 中国成都 重要信息 大会官网:www.isaiim.com 大会时间:202…

朴素贝叶斯算法探讨与实践

引言 和撰写博文[1]的缘由一样,本文是想要在所创设的专栏[2]里把所谓的十大机器学习算法[3]全部过一遍。 朴素贝叶斯算法是传统机器学习里的一种可以被用来进行分类的算法,本文将对其原理进行说明,并基于原理给出一个基于该算法的分类实践。…

《数据在内存中的存储》

内存函数 1. 整数在内存中的存储 (1)旧识回顾: 之前在学到操作符的时候,我们就学过了下面的内容: 整数的二进制的表示方式有三种,原码、反码、补码 有符号的整数,三种表示方式均有符号位和数…

【路径规划】粒子群算法、遗传算法、差分进化算法、灰狼优化算法、麻雀优化算法(PSO、GA、DE、GWO、SSA)路径规划

摘要 本文探讨了多种智能优化算法在路径规划中的应用,包括粒子群算法(PSO)、遗传算法(GA)、差分进化算法(DE)、灰狼优化算法(GWO)和麻雀优化算法(SSA&#x…

CSS基础知识05(弹性盒子、布局详解,动画,3D转换,calc)

目录 0、弹性盒子、布局 0.1.弹性盒子的基本概念 0.2.弹性盒子的主轴和交叉轴 0.3.弹性盒子的属性 flex-direction row row-reverse column column-reverse flex-wrap nowrap wrap wrap-reverse flex-dirction和flex-wrap的组合简写模式 justify-content flex-s…