【机器学习】——决策树以及随机森林

文章目录

1. 决策树的基本概念与结构
- 1.1 决策树的构建过程
2. 决策树的划分标准
- 2.1 信息增益（Information Gain）
- 2.2 信息增益比（Information Gain Ratio）
- 2.3 基尼指数（Gini Index）
- 2.4 均方误差（Mean Squared Error, MSE）
3. 决策树的停止条件与剪枝策略
- 3.1 停止条件
- 3.2 剪枝策略
- 3.3 剪枝策略的实现
4. 决策树的优缺点分析
- 4.1 优点
- 4.2 缺点
5. 决策树算法的改进与集成方法
- 5.1 随机森林（Random Forest）
- 5.2 提升树（Boosting Tree）
- 5.3 XGBoost 和 LightGBM
- 5.4 CatBoost
6. 决策树模型的调参策略
- 6.1 树深度（max_depth）
- 6.2 最小样本分裂数（min_samples_split）
- 6.3 最小样本叶子数（min_samples_leaf）
- 6.4 分裂准则（criterion）
- 6.5 最大特征数（max_features）
- 6.6 树剪枝参数（ccp_alpha）
7. 决策树模型的实际应用
- 7.1 医疗诊断
- 7.2 客户分群与信用风险评估
- 7.3 营销决策
- 7.4 欺诈检测
8. 经典案例分析
- 8.1 泰坦尼克号生还预测
- 8.2 房价预测
9. 决策树在工业界的应用与发展前景
- 9.1 决策树的发展前景

前言：决策树算法（Decision Tree）详解
决策树（DecisionTree）是一种基于树形结构的监督学习算法，广泛应用于分类和回归任务。它通过一系列的决策规则逐步将数据集划分成多个子集，从而构建出易于理解的决策模型。决策树不仅易于可视化、便于解释，还能够处理复杂的多变量决策问题，因此在各类机器学习模型中占有重要地位。

1. 决策树的基本概念与结构

决策树算法的核心是一个树形结构，由多个**节点（Node）和分支（Branch）**组成。根据节点的类型，决策树的结构可以分为三种基本元素：

1.根节点（Root Node）：表示整个数据集的初始状态，是树的起始点。根节点基于某个特征（属性）将数据分为不同的子节点。

2.内部节点（Internal Node）：每个内部节点表示一个决策点，即通过某个特征将数据进一步细分。每个内部节点可以有多个子节点（分支）。

3.叶节点（Leaf Node）：叶节点是决策树的终点，表示最终的决策或分类结果。每个叶节点通常表示某个类别或一个连续值（回归问题）。

决策树的生成过程就是不断通过特征选择和数据划分，直到满足某个停止条件（如到达叶节点或没有可分的特征）。

1.1 决策树的构建过程

决策树的构建过程主要分为以下几个步骤：

1.特征选择（Feature Selection）：在每一步划分时，选择一个最佳特征作为决策依据，进行数据划分。

2.节点分裂（Node Splitting）：根据选择的特征，利用不同的分裂准则将当前节点的数据集划分成若干子集。

3.递归分裂（Recursive Splitting）：对每个子集递归执行特征选择与节点分裂操作，直到满足停止条件。

4.树剪枝（Tree Pruning）：为了避免决策树过拟合（Overfitting），需要对生成的决策树进行简化，去除多余的分支节点。

2. 决策树的划分标准

决策树在每次划分时需要选择一个“最佳”的特征，该特征能够最大程度上提高数据的区分度。常见的划分标准包括信息增益、信息增益比、基尼指数和均方误差等。

2.1 信息增益（Information Gain）

信息增益用于衡量某个特征在划分数据集时带来的信息不确定性减少的程度。其定义基于**熵（Entropy）**的概念：

熵表示数据集的混乱度或不确定性程度。对于一个分类问题，数据集
D 的熵定义为：
在这里插入图片描述
其中，𝑝_𝑖表示第 𝑖 类别在数据集中的比例，𝑘 是类别的总数。
当使用特征 𝐴 对数据集 𝐷 进行划分时，特征 𝐴 的信息增益 Gain(D,A) 计算如下：

其中，
𝐷_𝑣是特征 𝐴的第 𝑣 个取值对应的子集，∣𝐷_𝑣∣ 表示该子集的样本数，∣𝐷∣表示原始数据集的样本总数。
信息增益越大，说明该特征能够更好地划分数据集。

2.2 信息增益比（Information Gain Ratio）

由于信息增益偏向于选择取值较多的特征，因此引入信息增益比来消除这一偏差。其定义如下：
在这里插入图片描述
其中，分裂信息（Split Information）定义为：

信息增益比选择的是增益比值最大的特征进行划分。

2.3 基尼指数（Gini Index）

基尼指数主要用于分类树（Classification Tree)中。其衡量某个数据集的纯度，定义如下：
在这里插入图片描述
基尼指数越小，表示数据集的纯度越高。对于特征 𝐴 的划分，基尼指数的计算如下：

基尼指数越小，说明特征 𝐴 划分后数据集的纯度越高。

2.4 均方误差（Mean Squared Error, MSE）

在**回归树（Regression Tree）**中，使用均方误差来衡量数据点偏离均值的程度。对于数据集 𝐷 中的目标值 𝑦_𝑖 ，均方误差定义为：
在这里插入图片描述
其中，𝑦^ 是数据集的平均值。

3. 决策树的停止条件与剪枝策略

在构建决策树时，若不设定停止条件，决策树可能会继续分裂，直到每个叶节点只包含一个数据点或所有数据点都属于同一类别。这种情况容易导致过拟合。为了防止过拟合，决策树通常需要设置以下停止条件或进行剪枝。

3.1 停止条件

1.当前节点的所有样本都属于同一类别。
2.样本特征已经全部使用完，且无法进一步划分。
3.当前节点的样本数低于设定的最小样本数。
4.当前节点的熵或基尼指数低于某个阈值。

3.2 剪枝策略

剪枝策略可以分为预剪枝（Pre-Pruning）和后剪枝（Post-Pruning）：

1.预剪枝（Pre-Pruning）：在构建过程中提前停止树的生长，如限制树的最大深度、最小样本数等。虽然能减少计算量，但可能造成欠拟合。

2.后剪枝（Post-Pruning）：在决策树完全生长后，通过剪去一些不重要的节点（或子树）来简化模型。常用的方法包括代价复杂度剪枝（Cost Complexity Pruning）和最小误差剪枝（Minimum Error Pruning）。

3.3 剪枝策略的实现

代价复杂度剪枝：定义一个代价复杂度函数 C（T）= R（T）+ α（T）其中 R(T) 表示树 T 的误差率，∣T∣ 是叶节点的数量，𝛼 是控制树复杂度的超参数。通过选择最小的 C(T) 剪去代价最高的子树。

4. 决策树的优缺点分析

4.1 优点

1.易于理解和解释：决策树能够以可视化的方式表示，并能直接从树中提取决策规则。
2.不需要特征标准化：决策树对特征的取值范围不敏感，可以直接处理数值型和类别型特征。
3.处理缺失值：决策树可以处理缺失值，并能生成替代路径。

4.2 缺点

1.容易过拟合：当决策树过于复杂时，模型容易对训练数据产生过拟合，导致对新数据泛化能力差。
2.对噪声敏感：数据中的少量噪声或异常点可能会对树结构产生较大影响。
偏向取值较多的特征：决策树在选择特征时，可能偏向选择取值较多的特

5. 决策树算法的改进与集成方法

为了克服传统决策树的局限性，研究人员提出了多种改进和集成方法，如随机森林（Random Forest）、**提升树（Boosting Tree）和梯度提升决策树（Gradient Boosting Decision Tree, GBDT）**等。这些集成方法通过构建多个弱决策树模型并将其组合，大大提升了模型的稳定性和预测能力。