【自学笔记】支持向量机（3）—

【自学笔记】支持向量机（3）——软间隔

引入

上一回解决了SVM在曲线边界的上的使用，使得非线性数据集也能得到正确的分类。然而，对于一个大数据集来说，极有可能大体呈线性分类趋势，但是边界处混杂，若仍采用原来的方式，会得到极其复杂的超平面边界，浪费了算力。
上述要求所有训练样本满足约束的分类方式称为硬分类。而允许部分样本不满足约束的分类方式则被称为软分类。

实现逻辑

在实现软间隔的同时，我们既要保证模型的性能（违反约束的样本点尽量少），同时保证模型复杂度不要过高，我们需要设置一个损失函数来控制模型的样本点是否需要满足约束。
最简单的，定义0/1损失函数 $\ell _{0/1}(z)$ ：

$\ell _{0/1}(z)=\begin{cases}1,\ if \ z<0 \\0, \ otherwise\end{cases}$

并修改优化目标为：

$min_{\vec{w}, b}\ \frac{1}{2}||\vec{w}||^{2}+C\sum_{i=1}^{m}\ell _{0/1}(y_{i}(\vec{w}^{T}\vec{x}_{i}+b)-1)$

其中常数 $C > 0$ ，称为正则化参数，控制了对误分类样本的惩罚程度。而损失函数则决定这个样本点误分类是否需要产生惩罚。

然而，0/1损失函数非凸，非连续，使得后续求解不方便。人们通常用其他一些函数来替代 $\ell _{0/1}(z)$ ，称为替代损失：

替代损失	函数形式
hinge 损失	$\ell_{hinge}(z)=max(0, 1-z)$
指数损失	$\ell_{exp}(z)=exp(-z)$
对率损失	$\ell_{log}(z)=log(1+exp(-z))$

网图-三种常见的替代函数

以 $hin g e$ 损失为例，目标变成：

$min_{\vec{w}, b}\ \frac{1}{2}||\vec{w}||^{2}+C\sum_{i=1}^{m}max(0,1-y_{i}(\vec{w}^{T}\vec{x}_{i}+b))$

将求和符号后的部分记作松弛变量 $\xi _{i} \ge 0$ ，可重写为：

$min_{\vec{w}, b}\ \frac{1}{2}||\vec{w}||^{2}+C\sum_{i=1}^{m}\xi _{i}$

$\ y_{i}(\vec{w}^{T}\vec{x}_{i}+b)\ge1-\xi_{i}$
$\ \ \ \ \ \ \xi_{i} \ge 0, i=1,2,...,m$

松弛变量的值反映了样本点离群的程度。值越大，样本点离正确的分类区域越远。

使用软间隔方法的SVM被称为软间隔支持向量机

求解

问题被转化后，依然是一个二次规划问题，我们仍用拉格朗日乘子法得到拉格朗日函数：

$L(\vec{w},b,\vec{\alpha}, \vec{\xi},\vec{\mu})=\frac{1}{2}||\vec{w}||^{2}$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ +C\sum_{i=1}^{m}\xi_{i}$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ +\sum_{i=1}^{m}\alpha _{i}[1-\xi_{i}-y_{i}(\vec{w}^{T}\vec{x}_{i}+b)]$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ - \sum_{i=1}^{m}\mu_{i}\xi_{i}$
其中 $\alpha_{i} \ge 0$ , $\mu_{i} \ge 0$ 是拉格朗日乘子

令 $L(\vec{w},b,\vec{\alpha}, \vec{\xi},\vec{\mu})$ 对 $\vec{w}, b, \xi_{i}$ 求导为 $0$ ，得：

$\vec{w}=\sum_{i=1}^{m}\alpha_{i}y_{i}\vec{x}_{i}$
$\sum_{i=1}^{m}\alpha_{i}y_{i}$
$\alpha_{i}+\mu_{i}$

代回得：

$max_{\vec{\alpha}} \sum_{i=1}^{m}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_{i}\alpha_{j}y_{i}y_{j}\vec{x}_{i}^{T}\vec{x}_{j}$

$s.t.\ \sum_{i=1}^{m}\alpha_{i}y_{i}=0$
$\ \ \ \ \ \ \ 0 \ge \alpha_{i} \ge C, i=1,2,...,m$

不难发现，与硬间隔的对偶问题相比，只是把 $\le \alpha_{i}$ 改成了 $\le \alpha_{i} \le C$ 。

更改后的KKT要求为：

1.互补松弛条件
$\alpha_{i}[y_{i}(\vec{w}\vec{x}_{i}+b)-(1-\xi_{i})]=0$
$\mu_{i}\xi_{i}=0$

2.原始约束
$y_{i}(\vec{w}\vec{x}_{i}+b)-(1-\xi_{i}) \ge 0$
$\xi_{i} \ge 0$
3.对偶约束
$\le \alpha_{i} \le C$
$\sum_{i=1}^{m}\alpha_{i}y_{i}=0$

分析一下上面的式子，发现对任意样本 $(\vec{x}_{i},y_{i})$ ，总有 $\alpha_{i}=0$ 或 $y_{i}(\vec{w}\vec{x}_{i}+b)-(1-\xi_{i}) = 0$ 。（由第一个式子推得）

当 $\alpha_{i}=0$ ，则说明该样本不会对 $f(\vec{x})$ 有任何影响
否则，有 $y_{i}(\vec{w}\vec{x}_{i}+b)=1-\xi_{i}$ ，则该样本是支持向量

注意，由于软间隔对边界附近的数据点进行了处理，支持向量的定义不再限制于完全在分类边界上的样本，而是规定为满足 $y_{i}f(\vec{x}_{i})=1-\xi_{i}$ 这个式子的样本。

而对于所有的支持向量，也有一些分类：

条件	性质
若 $\alpha_{i}<C$ ，则 $\mu_{i}>0$ ，有 $\xi_{i}=0$	样本恰好在最大间隔边界上
若 $\alpha_{i}=C$ ，则 $\mu_{i}=0$ ，若 $\xi_{i} \le 1$	样本落在最大间隔内部
若 $\alpha_{i}=C$ ，则 $\mu_{i}=0$ ，若 $\xi_{i} > 1$	样本被错误分类