《XGBoost算法的原理推导》12-5正则化项拆分的目标函数公式解析

本文是将文章《XGBoost算法的原理推导》中的公式单独拿出来做一个详细的解析，便于初学者更好的理解。

让我们详细解析公式 (12-5)每一部分的含义。

公式 (12-5) 的形式

$\begin{aligned} L^{(t)} &= \sum_{i=1}^{n} l(y_i, \hat{y}_i^{(t)}) + \sum_{i=1}^{t} \Omega(f_i) \\ &= \sum_{i=1}^{n} l\left(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)\right) + \sum_{i=1}^{t} \Omega(f_i) \\ &= \sum_{i=1}^{n} l\left(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)\right) + \Omega(f_t) + \text{Constant} \tag{12-5} \end{aligned}$

逐步解释公式的各部分

目标函数 $L^{(t)}$ ：
- $L^{(t)}$ 表示在第 $t$ 轮迭代时的目标函数值。
- XGBoost 通过最小化 $L^{(t)}$ 来选择一个合适的树 $f_t$ ，从而在每一轮迭代中减少预测误差。
第一行：完整的目标函数表达式
$L^{(t)} = \sum_{i=1}^{n} l(y_i, \hat{y}_i^{(t)}) + \sum_{i=1}^{t} \Omega(f_i)$
- 损失项 $\sum_{i=1}^{n} l(y_i, \hat{y}_i^{(t)})$ ：表示所有样本在第 $t$ 轮中的损失总和。这里， $l(y_i, \hat{y}_i^{(t)})$ 衡量了第 $i$ 个样本的真实值 $y_i$ 与模型在第 $t$ 轮的预测值 $\hat{y}_i^{(t)}$ 之间的误差。
- 正则化项 $\sum_{i=1}^{t} \Omega(f_i)$ ：表示模型在前 $t$ 轮迭代中所有树的正则化总和，用于控制每棵树的复杂度，防止过拟合。
第二行：展开第 $t$ 轮的损失函数
$L^{(t)} = \sum_{i=1}^{n} l\left(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)\right) + \sum_{i=1}^{t} \Omega(f_i)$
- 在第 $t$ 轮，预测值 $\hat{y}_i^{(t)}$ 被更新为前一轮的预测值 $\hat{y}_i^{(t-1)}$ 加上当前新树的预测 $f_t(x_i)$ 。因此，损失函数部分可以展开为：
  $\sum_{i=1}^{n} l\left(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)\right)$
- 正则化部分依然是前 $t$ 轮所有树的正则化项总和 $\sum_{i=1}^{t} \Omega(f_i)$ 。
第三行：化简正则化项
$L^{(t)} = \sum_{i=1}^{n} l\left(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)\right) + \Omega(f_t) + \text{Constant}$
- 在这一行中，我们注意到第 $t$ 轮的目标函数实际上是将前 $t - 1$ 轮次的正则化项视为常数，因为它们已经是固定的，不再对当前轮次的优化产生影响。因此，我们只需要关注当前树的正则化项 $\Omega(f_t)$ 。
- 常数项 $\text{Constant}$ 包括了前 $t - 1$ 轮次的正则化项 $\sum_{i=1}^{t-1} \Omega(f_i)$ ，它们对当前的优化过程不起作用，可以视为常数。

公式的核心思想

公式 (12-5) 表示的是 XGBoost 的逐步优化过程。在每一轮 $t$ 中，XGBoost 通过选择一个新树 $f_t$ 来最小化当前轮次的目标函数 $L^{(t)}$ ，包括了当前轮次的损失和正则化项。这一过程有以下核心思想：

最小化损失：模型在每一轮中，都尝试找到一个新的树 $f_t$ ，以最小化当前轮次的损失。这使得模型在每一轮都能进一步减少预测误差，逐步逼近真实目标值。
控制复杂度：正则化项 $\Omega(f_t)$ 限制了新树 $f_t$ 的复杂度，防止模型过拟合。这一正则化项通常包含了树的叶子节点数和叶子节点权重的正则化（L1 或 L2 正则化），从而有效控制树的复杂度。

总结

公式 (12-5) 是 XGBoost 中每一轮迭代的目标函数，它包含了当前轮次的损失和新树的正则化项。通过最小化这个目标函数，XGBoost 能够在保证模型准确性的同时控制模型的复杂度，达到平衡的效果。这一公式为 XGBoost 的优化提供了基础，使得模型能够有效地提高预测精度并具备良好的泛化能力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/13279.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！