来源于西瓜书、南瓜书等内容。
误差与偏差
- 学习器的实际预测输出与样本的真实输出之间的差异,称为”误差“(error)。
- 学习器在训练集上的误差,称为”训练误差“(training error)或”经验误差“(empirical error)。
- 学习器在新样本上的误差,称为”泛化误差“(generalization error)。我们希望得到泛化误差小的学习器。
- ”偏差-方差分解“(bias-variance decomposition)是解释学习算法泛化性能的一种重要工具。泛化误差可分解为偏差、方差与噪声之和。
- 偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画的学习算法本身的拟合能力。
- 方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
- 噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
- 一般来说,偏差与方差是有冲突的,这称为”偏差-方差窘境“(bias-variance dilemma)。
- 衡量模型泛化能力的评价标准,称为”性能度量“(performance measure)。性能度量反映的任务需求。
模型选择
- 该选用哪一个学习算法、使用哪一种参数配置,这就是”模型选择“(model selection)。
- 使用一个”测试集“(testing set)来测试学习器对新样本的判别能力,然后以测试集上的”测试误差“(testing error)作为泛化误差的近似。
- 测试集应该尽可能与训练集互斥。
- 模型的好坏是相对的,什么样的模型是好的,不仅取决于算法和数据,还取决于任务需求。
过拟合与欠拟合
- 如果把训练样本自身的一些特点当做所有潜在样本都会具有的一般性质,就会导致泛化性能的下降,这种现象在机器学习中称为”过拟合“( overfitting, 也称“过配”)。
- 与过拟合相对的是”欠拟合“(underfitting,也称”欠配“),这是指对训练样本的一般性质尚未学好。
- 过拟合是机器学习面临的关键障碍,过拟合无法彻底避免的,能做的只是缓解或者减小风险。
性能度量
- 分类错误的样本数占样本总数的比例,称为”错误率“(error rate)。即如果在m个样本中有a个样本分类错误,则错误率E=a/m;
- 分类正确的样本数占样本总数的比例,称为”精度“(accuracy)。即为”1-a/m“,”精度=1-错误率“。
- 预测的结果有多少是正确的,类似检索中”检索出的信息有多少比例是用户感兴趣的“,称为”查准率“(precision),也称”准确率“。
- 所有正确结果有多少被预测出来,类似检索中”用户感兴趣的信息中有多少被检索“,称为”查全率“(recall),也叫”召回率“。
- 查准率和查全率是一对矛盾的度量。查准率等于查全率时候的取值,称为”平衡点“(break-even point,简称BEP)。
- F1度量是基于查准率与查全率的调和平均(harmonic mean)定义的。调和平均更重视较小值。
- Fβ是加权调和平均;β=1时退化为标准的F1,β>1时查全率有更大影响,β<1时查准率有更大影响。
相关阅读
【西瓜书】机器学习名词与术语-CSDN博客文章浏览阅读546次,点赞22次,收藏8次。根据经典西瓜书,记录的相关名词属于https://blog.csdn.net/jiangshuiy/article/details/143742567