机器人中的数值优化|【六】线性共轭梯度法，牛顿共轭梯度法

往期回顾

为什么要用Conjugate Gradient method？

从前面的系列我们知道，对于一个凸的无约束优化，我们总是希望通过梯度，基于这样那样的方法来到达最优点。在前面基本的梯度下降方法中，我们每次计算一个梯度，并根据线性搜索得到的一个较为不错的步长，向前优化一步。在Newton-CG method中我们不禁要提问了：有没有一种可以有确定的搜索次数，而且次数还比较少的方法呢？这个方法就是Newton-CG method。我们知道在向量中存在标准正交集的概念，在优化问题中，我们也存在共轭梯度的概念，关于共轭梯度的具体定义和推导可以进一步查阅相关的资料。本质上，就是把原来随机走梯度的过程，变为在凸问题空间中“正交”的梯度向量上，每个向量只走一步，且是最优的一步的过程。
梯度下降与共轭梯度法
从上面的例子我们可以看到，绿色为共轭梯度法，红色为梯度下降法，我们其实要做的工作就是在椭圆的切向和法向各走“最优”的一步，一步到位即可。

Gram-Schmitd正交化/施密特正交化

理解共轭梯度法，首先我们要回顾一个东西，那就是施密特正交化。利用施密特正交化，我们可以从空间中的一组向量得到互相正交的一组向量集。如果我们有一组互不平行的向量 ${[\alpha_1, \alpha_2, \alpha_3, \alpha_4, \alpha_5,...]}$ ,利用一下公式可以得到正交基：
$\beta_1 = \alpha_1$
$\beta_2 = \alpha_2 - \frac{(\beta_1, \alpha_2)}{(\beta_1, \beta_1)} \beta_1$
$\beta_3 = \alpha_3 - \frac{(\beta_1, \alpha_3)}{(\beta_1, \beta_1)} \beta_1 - \frac{(\beta_2, \alpha_3)}{(\beta_2, \beta_2)} \beta_2$
$\beta_4 = \alpha_4 - \frac{(\beta_1, \alpha_4)}{(\beta_1, \beta_1)} \beta_1 - \frac{(\beta_2, \alpha_4)}{(\beta_2, \beta_2)} \beta_2 - \frac{(\beta_3, \alpha_4)}{(\beta_3, \beta_3)} \beta_3$
$...$

线性共轭梯度法

对于如下的一个问题
$argmin_x f(x) = \frac{1}{2}x^TAx - b^Tx$
我们要求其无约束优化。这里我们可以引入共轭梯度的概念，其概念类似于正交向量，对于一个正交向量 $u, v$ ，有 $u^Tv =0$ 。一个矩阵 $A$ ,如果存在向量 $u, v$ ，有 $u^TAv=0$ ，则我们认为 $u, v$ 关于 $A$ 共轭。在下降过程中，如果我们每一步选择的下降方向都是一个独立的共轭向量，且一共有 $n$ 个共轭向量，则最多需要 $n$ 步即可下降到最优点。

回顾优化过程，最核心的公式为
$x_{k+1} = x_k + \alpha u_k$
其中 $u_k$ 为下降方向， $\alpha$ 为步长。将 $x_{k+1}$ 代入最优化目标公式，我们有
$argmin_x f(x_{k+1}) = argmin_x f(x_k + \alpha u_k)$
假设下降方向已经确定了，我们要确定最优步长
$argmin_x f(x_k + \alpha u_k) = argmin_x \frac{1}{2}(x_k + \alpha u_k)^TA(x_k + \alpha u_k) - b^T(x_k + \alpha u_k)$
对 $\alpha$ 求导，有
$argmin_x f'(x_k + \alpha u_k) = 0$
解得
$\alpha = \frac{b^Tu_k - x_k^TAu_k}{u_k^TAu_k}$
这里的 $\alpha$ 是最优步长的一个“尺度”，也就是scalar。那么问题来了，我们想要每次下降都能够是共轭方向的，怎么办呢？

设每次迭代之后的误差量为
$r_k = Ax_k - b$
令
$u_k = -r_k + \beta_k u_{k-1}$
两边乘以 $u_{k-1}^TA$ 有
$u_{k-1}^TAu_{k} = -u_{k-1}^TAr_k + u_{k-1}^TA\beta_ku_{k-1}$
因为我们想要得到的是共轭方向，所以认为 $u_{k-1}^TAu_{k} =0$
$-u_{k-1}^TAr_k + u_{k-1}^TA\beta_ku_{k-1} = 0$
$\beta_k= \frac{r_k^T A u_{k-1}}{u_{k-1}^TAu_{k-1}}$
在这里我们就可以得到一个缩放标量 $\beta_k$ 可以迭代计算共轭向量，最后得到的算法如下所示
在这里插入图片描述

优化线性共轭梯度法

进一步的，我们可以提出更高效的线性共轭梯度法。首先引入一些定理（这里的 $p$ 就是 $u$ ）
在这里插入图片描述

在这里插入图片描述
根据前面的公式，有
$\alpha = \frac{b^Tu_k - x_k^TAu_k}{u_k^TAu_k} = \frac{-r_k^Tu_k}{u_k^TAu_k}$
由于 $u_k = -r_{k} + \beta_k u_{k-1}$
$\alpha = \frac{-r_k^T(-r_k+\beta u_{k-1})}{u_k^TA u_k}$
由于 $r_k^Tu_{k-1}=0$
有
$\alpha_k = \frac{r_k^Tr_k}{u_k^TA u_k}$
由于 $\alpha_kAp_k = r_{k+1}-r_k$
继续代入有
$\beta_{k+1} = \frac{r_{k+1}^Tr_{k+1}}{r_{k}^Tr_{k}}$
在这里插入图片描述
下一节中，将介绍牛顿共轭梯度法