【自学笔记】支持向量机（2）—

【自学笔记】支持向量机（2）——核函数

引入

核函数的功能是将一组数据映射到更高维的特征空间，这样可以让在低维无法线性分类的数据能够在高维空间下被分类。
可以证明，如果原始数据是有限的维度，那么一定存在一个高维特征空间使得样本线性可分。

文章内容由《机器学习》相关内容，网络资源，GPT回答和个人理解组成。

回顾

支持向量机（1）
在特征空间内划分超平面的模型可以表示为：

$f(x)=\vec{w}^{T}\vec{x}+b$

假如我们将特征向量 $x$ 以某种方式映射到了更高维的空间中，得到的新特征向量记作 $\phi (\vec{x})$ 。那新的模型可以表示为：

$f(x)=\vec{w}^{T}\phi (\vec{x})+b$

于是我们可以改写支持向量机中的命题：

$\min_{\vec{w}, b}||\vec{w}||$

s.t. $y_{i}(\vec{w}^{T}\phi (\vec{x}_{i})+b) \ge 1, i=1,2,...,m$

其对偶命题为：

$g(\vec{\alpha})=\sum_{i=1}^{m}\alpha _{i}-\frac{1}{2} \sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_{i}\alpha_{j}y_{i}y_{j}\phi (\vec{x}_{i})^{T}\phi (\vec{x}_{j})$

$\max _{\vec{\alpha}}g(\vec{\alpha})$

$s . t .$ $\alpha_{i} \ge 0$ , $(i = 1, ..., m)$

$\sum_{i=1}^{m}\alpha_{i}y_{i}=0$

核函数应用

由于\phi (\vec{x})的维度可能很高，甚至可能无穷维，上式中的 $\phi (\vec{x}_{i})^{T}\phi (\vec{x}_{j})$ 可能并不好计算。于是我们设想这样一个函数（这被称为核技巧）：

$\kappa (\vec{x}_{i},\vec{x}_{j})=<\phi(\vec{x}_{i}), \phi(\vec{x}_{j})>=\phi (\vec{x}_{i})^{T}\phi (\vec{x}_{j})$

这个函数的意义是我们直接研究 $\phi (\vec{x}_{i})$ 和 $\phi (\vec{x}_{j})$ 的内积，而不直接计算两者的具体值。于是问题转化为了：

$g(\vec{\alpha})=\sum_{i=1}^{m}\alpha _{i}-\frac{1}{2} \sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_{i}\alpha_{j}y_{i}y_{j}\kappa (\vec{x}_{i},\vec{x}_{j})$

$\max _{\vec{\alpha}}g(\vec{\alpha})$

$s . t .$ $\alpha_{i} \ge 0$ , $(i = 1, ..., m)$

$\sum_{i=1}^{m}\alpha_{i}y_{i}=0$

对于不同的 $\phi(\cdot )$ ，显然对应着不同的 $\kappa (\cdot,\cdot)$ ，选定合适的 $\phi(\cdot )$ 后可以提前求出 $\kappa (\cdot,\cdot)$ ，就可以减少计算量。
基于上述求解后得到：

$f(x)=\vec{w}^{T}\phi (\vec{x})+b$
$=\sum_{i=1}^{m}\alpha _{i}y_{i}\phi(\vec{x}_{i})^{T}\phi(\vec{x}) + b$
$=\sum_{i=1}^{m}\alpha _{i}y_{i}\kappa (\vec{x},\vec{x}_{i})$

这里 $\vec{x}$ 是测试数据点， $x_{i}$ 为每一个训练数据点

上式显示出模型最优解可以通过训练样本的核函数展开，被称为支持向量展式。

寻找核函数

接下来就是确定一个合适的核函数。合适的核函数是否一定存在呢？什么样的函数适合作核函数呢？我们有以下定理：
在这里插入图片描述

对称性很好理解，而半正定性则有以下原因：
在这里插入图片描述
概括以下就是保持原有问题的凸性不变，维持束缚条件，保证参数的合理性和收敛性。（个人理解）

需要注意的是，在不知道特征映射的形式时，我们是无法知道什么样的核函数是合适的。如果核函数选择不当，将会成为影响模型性能的最大变数。

常用的核函数有：

名称	表达式	参数	用途&补充
Linear Kernel（线性核函数）	$\kappa (\vec{x}_{i},\vec{x}_{j})=\vec{x}_{i}^{T}\vec{x}_{j}$		不进行任何映射，适用于线性可分的数据。
Polynomial Kernel（多项式核）	$\kappa (\vec{x}_{i},\vec{x}_{j})=(\vec{x}_{i}^{T}\vec{x}_{j}+c)^{d}$	$\ge 1$ 为多项式的次数	用于捕捉数据的非线性关系。
Gaussian Kernel（高斯核）	$\kappa (\vec{x}_{i},\vec{x}_{j})=exp(-\frac{\mid \mid \vec{x}_{i}-\vec{x}_{j}\mid \mid ^{2}}{2\sigma ^{2}} )$	$\sigma > 0$ 为高斯核的带宽	控制数据点的局部影响。非常强大的非线性核函数，常用于复杂的分类和回归任务。
Laplacian Kernel（拉普拉斯核）	$\kappa (\vec{x}_{i},\vec{x}_{j})=exp(-\frac{\mid \mid \vec{x}_{i}-\vec{x}_{j}\mid \mid }{\sigma} )$	$\sigma > 0$	拉普拉斯核完全等价于指数核，唯一的区别在于前者对参数的敏感性降低，也是一种径向基核函数。
Exponential Kernel（指数核）	$\kappa (\vec{x}_{i},\vec{x}_{j})=exp(-\frac{\mid \mid \vec{x}_{i}-\vec{x}_{j}\mid \mid }{2\sigma^{2}} )$	$\sigma > 0$	指数核函数就是高斯核函数的变种，它仅仅是将向量之间的L2距离调整为L1距离，这样改动会对参数的依赖性降低，但是适用范围相对狭窄。
Sigmoid Kernel（Sigmoid 核）	$\kappa (\vec{x}_{i},\vec{x}_{j})=tanh(\beta\vec{x}_{i}^{T}\vec{x}_{j}+\theta)$	$\beta>0$ ， $\theta<0$	这个核函数试图模仿神经网络中的Sigmoid激活函数，但在某些情况下可能不会产生半正定核矩阵。
Laplace核	$\kappa (\vec{x}_{i},\vec{x}_{j})=exp(-\gamma\mid\mid\vec{x}_{i}-\vec{x}_{j}\mid\mid)$		与高斯核类似，但使用Laplace分布而非高斯分布。
ANOVA Kernel(方差分析内核)	$\kappa (\vec{x}_{i},\vec{x}_{j})=\prod_{t=1}^{n}exp(-\gamma(x_{i,t}-x_{j,t})^{2})$		主要用于分析方差（ANOVA）问题
Wave Kernel（波形核）	$\kappa (\vec{x}_{i},\vec{x}_{j})=exp(-\frac{1}{2\sigma ^{2}}sin^{2}(\frac{\pi }{L}\mid x_{i}-x_{j}\mid))$	$\sigma >0$ 控制相似性衰减的速度， $L$
L 是周期长度	适用于语音处理场景
Log Kernel（对数核）	$\kappa (\vec{x}_{i},\vec{x}_{j})=log(1+\gamma\mid\mid\vec{x}_{i}-\vec{x}_{j}\mid\mid^{2})$		一般在图像分割上经常被使用