在机器学习项目中,大部分时间都花在了数据准备上。你可能听说过“数据是机器学习的燃料”的说法,这是因为高质量的数据是构建出色模型的关键。
在这篇文章中将使用Pandas库来进行数据准备。为了让内容更贴近实际将使用《三国志》游戏中的角色数据作为样本。
文章目录
- 数据编码与标准化
- One-hot编码
- Label Encoding
- 数值数据的标准化和归一化
- Z-score标准化
- Min-Max归一化
- 特征工程基础
- 创建多项式特征
- 特征选择方法
- 缺失数据处理
- 识别缺失数据
- 填充缺失数据
- 删除缺失数据
- 数据集划分
- 训练集和测试集
- 交叉验证
- 实践案例:使用Pandas分析《三国志》游戏角色数据