本文是将文章《PCA 原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。
公式 18 - 2 18\text{-}2 18-2 的内容如下:
y i = a i T x = a i 1 x 1 + a i 2 x 2 + ⋯ + a i m x m y_i = a_i^T x = a_{i1} x_1 + a_{i2} x_2 + \cdots + a_{im} x_m yi=aiTx=ai1x1+ai2x2+⋯+aimxm
解释公式 18 - 2 18\text{-}2 18-2
公式 18 - 2 18\text{-}2 18-2 描述了一个线性变换,它将高维数据 x x x 投影到一个新的坐标轴上,以生成一个新的变量 y i y_i yi。在PCA中,这一过程对应于将原始数据映射到主成分方向上。
公式中的符号含义
-
x x x:这是原始数据,是一个 m m m 维的随机向量。它可以表示为:
x = [ x 1 , x 2 , … , x m ] T x = [x_1, x_2, \dots, x_m]^T x=[x1,x2,…,xm]T
其中, x i x_i xi 是原始数据中的第 i i i 个特征。 -
a i a_i ai:这是一个 m m m 维的向量,称为线性变换系数或权重向量,用于定义主成分的方向。它可以表示为:
a i = [ a i 1 , a i 2 , … , a i m ] T a_i = [a_{i1}, a_{i2}, \dots, a_{im}]^T ai=[ai1,ai2,…,aim]T
其中, a i j a_{ij} aij 是对应于第 i i i 个主成分的第 j j j 个权重。 -
y i y_i yi:这是变换后的变量,表示数据 x x x 在新的方向(即第 i i i 个主成分方向)上的投影值。换句话说, y i y_i yi 是在 a i a_i ai 指定的方向上,原始数据 x x x 的线性组合。
-
a i T x a_i^T x aiTx:这是 a i a_i ai 和 x x x 的内积运算,用于计算数据 x x x 在 a i a_i ai 指定的方向上的投影值。
-
展开形式 a i 1 x 1 + a i 2 x 2 + ⋯ + a i m x m a_{i1} x_1 + a_{i2} x_2 + \cdots + a_{im} x_m ai1x1+ai2x2+⋯+aimxm:表示通过线性组合的方式将原始数据 x 1 , x 2 , … , x m x_1, x_2, \dots, x_m x1,x2,…,xm 投影到新的方向 a i a_i ai 上。
公式的几何意义
-
投影的含义:
- 线性变换 y i = a i T x y_i = a_i^T x yi=aiTx 的本质是将原始数据 x x x 投影到向量 a i a_i ai 定义的方向上。
- 向量 a i a_i ai 表示新的坐标轴(即第 i i i 个主成分方向)。
- y i y_i yi 表示数据在新的坐标轴上的位置。
-
主成分方向:
- 在PCA中,主成分方向 a i a_i ai 是通过优化协方差矩阵的特征值问题得到的。具体来说, a i a_i ai 是协方差矩阵的特征向量,代表数据分布方差最大的方向。
-
降维的过程:
- 如果我们只选择前 k k k 个主成分方向,那么公式 18 - 2 18\text{-}2 18-2 会将原始 m m m 维数据 x x x 投影到一个 k k k 维空间中,从而实现降维。
与PCA的关系
-
找到最大方差方向:
在PCA中,我们希望找到一个方向 a i a_i ai,使得数据在该方向上的方差(即 y i y_i yi 的方差)最大。这个方向正是通过协方差矩阵的特征值分解找到的。 -
生成新特征(主成分):
公式 18 - 2 18\text{-}2 18-2 定义了一个线性变换,将原始数据映射到新的特征空间。这些新特征 y i y_i yi 就是主成分,每一个主成分都捕获了原始数据中不同方向上的主要信息。
举例说明
假设 x = [ x 1 , x 2 ] T x = [x_1, x_2]^T x=[x1,x2]T 是二维数据,且我们定义一个方向 a 1 = [ 1 2 , 1 2 ] T a_1 = [\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}]^T a1=[21,21]T,那么投影 y 1 y_1 y1 为:
y 1 = a 1 T x = 1 2 x 1 + 1 2 x 2 y_1 = a_1^T x = \frac{1}{\sqrt{2}} x_1 + \frac{1}{\sqrt{2}} x_2 y1=a1Tx=21x1+21x2
这里, y 1 y_1 y1 表示数据在 a 1 a_1 a1 方向上的投影值。如果我们选择另一个方向 a 2 = [ 1 2 , − 1 2 ] T a_2 = [\frac{1}{\sqrt{2}}, -\frac{1}{\sqrt{2}}]^T a2=[21,−21]T,那么投影 y 2 y_2 y2 为:
y 2 = a 2 T x = 1 2 x 1 − 1 2 x 2 y_2 = a_2^T x = \frac{1}{\sqrt{2}} x_1 - \frac{1}{\sqrt{2}} x_2 y2=a2Tx=21x1−21x2
这种方式将二维数据投影到 a 1 a_1 a1 和 a 2 a_2 a2 两个正交方向上,从而生成新的变量 y 1 y_1 y1 和 y 2 y_2 y2。
公式 18 - 2 18\text{-}2 18-2 的作用
- 线性变换:公式定义了如何将原始数据 x x x 转换为新的主成分 y i y_i yi。
- 特征提取:通过选择不同的 a i a_i ai,我们可以从原始数据中提取出不同的信息。
- 降维的基础:通过构造一组正交向量 a 1 , a 2 , … , a k a_1, a_2, \dots, a_k a1,a2,…,ak,可以将高维数据降维到低维空间。
总结
公式 18 - 2 18\text{-}2 18-2 是PCA的核心公式之一,描述了通过线性变换将原始数据 x x x 投影到新的主成分方向 a i a_i ai 上的过程。它不仅为降维提供了理论基础,还揭示了数据在不同主成分方向上的变异性(信息量)。