李宏毅结构化学习 02

文章目录

一、上篇博文复习
二、Separable Case
三、Non-separable Case
四、Considering Errors
五、Regularization
六、Structured SVM
七、Cutting Plane Algorithm for Structured SVM
八、Multi-class and binary SVM
九、Beyond Structured SVM

一、上篇博文复习

在这里插入图片描述

图中x表示输入的图片，y表示边界框， $\phi (x,y)$ 表示由x,y确定的特征强度，w表示需要训练学习的权重，
在这里插入图片描述
F(x,y)如果是线性的，是有很大的局限性。但如果F(x,y)不是线性的，本篇文章的后续推论，可能都不成立。所以这是一个尚待解决的问题。

在这里插入图片描述

二、Separable Case

在这里插入图片描述

在这里插入图片描述
也就是和y的个数没有关系。

在这里插入图片描述

$\rho$ 是两个向量的夹角，范围是[0, $\pi$ ]，所以 $\rho$ 越小， $\cos \rho$ 就越大。
在这里插入图片描述

在这里插入图片描述
这里只证明的 $\cos \rho$ 的分子随着k的增大而增大，还需要看看分母是什么情况。

在这里插入图片描述

所有feature扩大两边，并不能加快训练。因为 $\delta$ 扩大两倍的同时，R也扩大了两倍。

在这里插入图片描述

三、Non-separable Case

在实际问题中很难找到Separable case的情况，即很难找到feature可以让正确和错误的分离，也不知道怎么找到它，所以要考虑Non-separable Case。

在这里插入图片描述

在这里插入图片描述
C的最小值是零。

在这里插入图片描述

在这里插入图片描述
除了边界值不能微分，其他地方都能微分。

在这里插入图片描述

四、Considering Errors

在这里插入图片描述
我们希望所选的 $w$ , 使得y与正确的那个越接近，计算的 $\cdot \phi$ ,越大，即与正确的越接近。
这样做的好处是，即使testing和training有一些差距，即使testing的第一名不是正确的，但是所输出的第一名和正确的差距不会很大。

在这里插入图片描述

在这里插入图片描述
上界 C 变小，可能会使 C’ 随之也变小。

在这里插入图片描述

五、Regularization

在这里插入图片描述

六、Structured SVM

在这里插入图片描述
因为我们要最小化C，所以上图中的倒数第三行和倒数第二行等价的。

请添加图片描述

习惯上，这时我们就把 $C^n$ 写为 $\varepsilon^n$
在这里插入图片描述
本来是找w，去最小化C。即找到w后， $C^n$ 就被决定了。
但是在黄色框中，定好w后， $\varepsilon^n$ 并不能确定。所以条件要改成：Find $w,\varepsilon^1,\cdots,\varepsilon^n$ minimizing C