《XGBoost算法的原理推导》12-2 t轮迭代中对样本i的预测值公式解析

本文是将文章《XGBoost算法的原理推导》中的公式单独拿出来做一个详细的解析，便于初学者更好的理解。

好的，公式(12-2)表示的是 XGBoost 在第 $t$ 轮迭代中对样本 $i$ 的预测值。它说明了在第 $t$ 轮迭代中，模型的预测是通过累加之前所有树的输出值，再加上当前新树的输出得到的。这是 XGBoost 的梯度提升过程的核心之一。让我们一步步解析这个公式的含义和其背后的思想。

$\hat{y}_i^{(t)} = \sum_{k=1}^{t-1} f_k(x_i) + f_t(x_i) \tag{12-2}$

$\hat{y}_i^{(t)}$ ：
- 表示第 $t$ 轮迭代时，模型对第 $i$ 个样本的预测值。
- 这是当前模型对样本 $i$ 的最新预测，经过前 $t$ 轮迭代的累加优化。
$\sum_{k=1}^{t-1} f_k(x_i)$ ：
- 这是前 $t - 1$ 轮的累加预测结果。
- 每一轮 $k$ 中生成的树 $f_k$ 都是一个弱学习器，专注于减少前几轮的预测误差。前 $t - 1$ 轮中所有树的预测值的累加，就代表了在第 $t - 1$ 轮迭代完成后，模型对样本 $i$ 的总预测值。
- 可以把 $\sum_{k=1}^{t-1} f_k(x_i)$ 看作是第 $t - 1$ 轮的预测结果，即 $\hat{y}_i^{(t-1)}$ 。
$f_t(x_i)$ ：
- 表示第 $t$ 轮新生成的树对样本 $i$ 的预测值。
- 这一轮生成的新树 $f_t$ 是基于前 $t - 1$ 轮的残差（预测误差）训练得到的，旨在修正当前模型的预测误差，使得预测结果更接近真实目标值。

公式 $\hat{y}_i^{(t)} = \sum_{k=1}^{t-1} f_k(x_i) + f_t(x_i)$ 体现了梯度提升的思想，即通过逐步迭代来优化模型的预测能力。
在每一轮迭代中，XGBoost 会添加一棵新的树 $f_t$ ，这棵树的目标是尽量拟合前一轮的残差。换句话说，新的树 $f_t$ 是根据前一轮的误差训练的，目的是修正当前模型对样本 $i$ 的预测，使得模型逐渐逼近真实目标值 $y_i$ 。
随着迭代轮数 $t$ 的增加，累加的预测值会越来越接近真实的 $y_i$ ，从而提高模型的整体预测精度。

这个公式实际上与递推公式是等价的。我们可以这样写递推公式：

$\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + f_t(x_i)$

在这里：

残差修正：
- 在每一轮中，XGBoost 都会根据之前的残差训练一棵新的树 $f_t$ ，这棵树的输出会帮助减少当前的误差，使得模型的预测越来越接近真实值。
逐步逼近：
- 每次添加的新树只需处理当前的剩余误差，不需要完全重新拟合整个模型。这种逐步修正的方式使得模型能够更精确地捕捉数据的细节，而不会因为一次性拟合复杂模式而导致过拟合。
控制复杂度：
- 这种累加结构也方便了对模型复杂度的控制。因为每次只增加一个新树，XGBoost 可以通过设置最大树数、树的深度等超参数来控制模型的复杂度，从而防止过拟合。