《机器学习》周志华-CH8(集成学习)

8.1个体与集成

  集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统,基于委员会的学习。

在这里插入图片描述
  同质”集成“:只包含同种类型的个体学习器,同质集成中的个体学习器亦称“基学习器”,相应的学习算法称为“基学习算法”

  异质“集成”:由不同学习算法生成,不再有基学习法,称“组件学习器”。

  集成学习常获得比单一学习器显著优越的泛化性能,对“弱学习器”尤为明显。

  要想获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”,并且也有差异“多样性”

  以二分类问题 y ∈ { − 1 , + 1 } y\in\{-1,+1\} y{1,+1}和函数 f f f为例,假定基分类器错误率为 ξ \xi ξ,对每个基分类器 h i h_i hi有:
P ( h i ( x ) ≠ f ( x ) ) = ξ \begin{equation} P(h_i(x)\neq{f(x)})=\xi \tag{8.1} \end{equation} P(hi(x)=f(x))=ξ(8.1)
  假设集成通过投票要对 T T T个基分类器判断,则超过半数为正确
H ( x ) = s i g n ( ∑ i = 1 T h i ( x ) ) \begin{equation} H(x)=sign(\sum_{i=1}^Th_i(x)) \tag{8.2} \end{equation} H(x)=sign(i=1Thi(x))(8.2)
  集成错误率为:
P ( H ( x ) ≠ f ( x ) ) = s i g n ( ∑ k = 0 T / 2 [ T K ] ( 1 − ξ ) ξ T − K ≤ e x p ( − 1 2 T ( 1 − 2 ξ ) 2 ) \begin{equation} P(H(x)\ne{f(x)})=sign(\sum_{k=0}^{T/2}\left[ \begin{matrix} T \\ K \\ \end{matrix} \right](1-\xi)\xi^{T-K}\leq{exp(-\frac{1}{2}T(1-2\xi )^2)} \tag{8.3} \end{equation} P(H(x)=f(x))=sign(k=0T/2[TK](1ξ)ξTKexp(21T(12ξ)2)(8.3)

  随集成个体分类器数目 T T T增大,集成的错误率将指数级下降,最终趋于零。

  集成学习分两大类:

  • 个体学习器存在强依赖关系,必须串行生成序列化方法。如:Boosting
  • 不存在强依赖关系,可同时生成的并行化方法,如Bagging和随机深林。

8.2Boosting

  Boosting工作机制: 先从初始训练集中训练出一个基学习器,再根据基学习器表现对训练样本分布调整,使先前错的样本后续得到更大关注,基于调整后的样本训练下一个基学习器,反复直到达到指定值 T T T。最终将 T T T个学习器加权结合。

  Boosting族算法最著名的是AdaBoost,比较容易理解的是基于“加性模型”即基学习器线性组和
H ( x ) = ∑ i = 1 T α t h t ( x ) \begin{equation} H(x)=\sum_{i=1}^T{\alpha_t}h_t(x) \tag{8.4} \end{equation} H(x)=i=1Tαtht(x)(8.4)
  其中, T T T指代的是 T T T个学习器

  最小化指数损失函数
在这里插入图片描述

  若H(x)(8.4)能令指数损失函数最小化考虑(8.5)对(8.4)求偏导
在这里插入图片描述

  在AdaBoost算法中,第一个基分类器 h 1 h_1 h1是通过直接将基学习算法用于初始数据分布而得;此后迭代生成 h t h_t ht α t \alpha_t αt。当基分类器 h t h_t ht基于分布 D t D_t Dt产生后,该分类器的权重 α t \alpha_t αt应使得 α t h t \alpha_th_t αtht最小化指数损失函数
在这里插入图片描述

  AdaBoost算法在获得 H e − 1 H_{e-1} He1之后样本分布将进行调整,使下一轮基学习器 h t h_t ht能纠正一些 H t − 1 H_{t-1} Ht1错误,理想是纠正所有错误,即最小化。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

8.3Bagging与随机森林

  个体学习器不存在强依赖关系,可同时生成的并行化方法。

  欲得到泛化性能强的集成,个体学习器应尽可能有较大差异。一个数据集可产生若干子集,每个子集可训练出一个基学习器。使用相互交叠的采样子集.

8.3.1Bagging

  基于自助采样法,给定包含 m m m个样本数据集,使得下次采样该样本仍能被选中。经过 m m m个随机采样,得到 m m m个样本的采样集。(取出再放回重来,比如100个球,先取1个放采样集中,然后再放回,再从100个取1个放采样集)。

  初始训练集中有的样本在采样集中多次出现,有的从未出现。初始训练集中约有63.2%样本出现在采样集中

  Bagging基本流程:

  可采样出 T T T个含 m m m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些学习器结合。
结合时 { 对分类任务使用简单投票法,票数一样随机取一个 对回归任务使用简单平均法 结合时 \begin{cases} 对分类任务使用简单投票法,票数一样随机取一个 & \\ 对回归任务使用简单平均法 & \\ \end{cases} 结合时{对分类任务使用简单投票法,票数一样随机取一个对回归任务使用简单平均法
在这里插入图片描述

  自助采样过程给Bagging带来的优点: 由于每个基学习器只使用了初始训练集中约63.2%的样本,剩下约36.8%的样本可用作验证集对泛化性能进行“包外估计”
   D t D_t Dt表示 h t h_t ht实际使用训练样本集

   H o o b ( x ) H^{oob}(x) Hoob(x)表示对样本 x x x的包外预测,仅针对未使用的预测
在这里插入图片描述
包外估计 → 用途 { 基学习器是决策树,可辅助剪枝或辅助对零训练样本结点处理 基学习器是神经网络,辅助早期停止以减小过拟合风险 包外估计\xrightarrow{用途} \begin{cases} 基学习器是决策树,可辅助剪枝或辅助对零训练样本结点处理 & \\ 基学习器是神经网络,辅助早期停止以减小过拟合风险 & \\ \end{cases} 包外估计用途 {基学习器是决策树,可辅助剪枝或辅助对零训练样本结点处理基学习器是神经网络,辅助早期停止以减小过拟合风险
  Bagging主要关注降低方差,它在不剪枝决策树、神经网络等易受样本扰动的 学习器上效用明显

8.3.2随机森林(Random Forest,RF)

  随机森林是Bagging一个扩展变体

  RF以决策树为基学习器构建Bagging集成,在决策树训练过程中引入了随机属性选择

  • 传统决策树在选择划分属性时是在当前结点的属性集合选一个最优属性
  • RF中,对基决策树的每个结点,先从该结点属性集合随机选择一个包含 k k k个属性的集合,然后再从子集中选择最优属性划分。
    其中:
  • k = d k=d k=d与传统决策树相同
  • k = 1 k=1 k=1,随机选择一个属性用于划分
  • 一般推荐, k = log ⁡ 2 d k=\log_{2}{d} k=log2d

8.4结合策略

  学习器结合带来的三个好处:

  • 从统计方面,单学习器可能因误选而导致泛化性能不佳,结合多个学习器会减小这一风险
  • 从计算方面,多次运行之后结合,可降低陷入糟糕局部极小点风险
  • 从表示方面,结合多个学习器,相应的假设空间有所扩大,有可能学到更好的近似。
    在这里插入图片描述
8.4.1平均法

  对数值型输出 h i ( x ) ∈ R h_i(x)\in{R} hi(x)R,最常见的结合策略是使用平均法(averaging)

  • 简单平均法
    H ( x ) = 1 T ∑ i = 1 T h i ( x ) \begin{equation} H(x)=\frac{1}{T}\sum_{i=1}^Th_i(x) \tag{8.22} \end{equation} H(x)=T1i=1Thi(x)(8.22)
  • 加权平均法
    H ( x ) = 1 T ∑ i = 1 T w i h i ( x ) \begin{equation} H(x)=\frac{1}{T}\sum_{i=1}^Tw_ih_i(x) \tag{8.23} \end{equation} H(x)=T1i=1Twihi(x)(8.23)
    在这里插入图片描述
8.4.2投票法

  学习器 h i h_i hi将从类别标记集合 { c 1 , c 2 , . . . c N } \{c_1,c_2,...c_N\} {c1,c2,...cN}中预测出一个标记。

  将 h i h_i hi在样本 x x x上的预测输出表示为 N N N维向量 ( h i 1 ( x ) , h i 2 ( x ) , . . . h i N ( x ) ) (h_i^1(x),h_i^2(x),...h_i^{N}(x)) (hi1(x),hi2(x),...hiN(x)), h i j ( x ) h_i^j(x) hij(x) h i h_i hi在类别 c j c_j cj上的输出
在这里插入图片描述

  不同类型个体学习器可能产生不同类型的 h i j ( x ) h_i^j(x) hij(x)的值,常见的有

  • 类标记: h i j ( x ) ∈ { 0 , 1 } h_i^j(x)\in\{0,1\} hij(x){0,1}, h i h_i hi将样本 X X X预测为 c j c_j cj的取值为1,或为0.称为“硬投票”
  • 类概率: h i j ( x ) ∈ [ 0 , 1 ] h_i^j(x)\in[0,1] hij(x)[0,1],相当于后验概率 P ( c j ∣ x ) P(c_j|x) P(cjx)的一个估计,称为“软投票”
8.4.3学习法

  当训练数据很多时,一种更为强大的结合策略是使用“学习法”,即通过另一个学习器进行结合

  Stacking是典型代表

  将个体学习器称为初级学习器,用于结合的学习器称为次学习器或元学习器。

  • Stacking先从初始数据集训练出初级学习器,“生成”一个新数据集用于训练次级学习器
  • 初级学习器的输出被当作样例输入特征,而初始样本的标记仍被当作样例标记
  • 次数训练集是利用初级学习器产生的
      一般使用交叉验证或留一法这样的方式,用训练初级学习器未使用的样本来产生次级学习器的训练样本

  将初级学习器的输出类概率作为次级学习器的输入属性,用多响应线性回归(Multi-response Linear Regression,简称MLR)作为次级学习算法效果最好,在MLR中使用不同的属性集更加

  贝叶斯模型平均(bayes Model Averaging,BMA)基于后验概率来为不同模型赋予权重,可视为加强平均法的一种特殊实现。

  Stacking通常优于BMA,鲁棒性好,对近似误差敏感。

8.5多样性

8.5.1误差-分歧分解

  欲构建泛化能力强的集成,个体学习器应“好而不同”

  假定用个体学习器 h 1 , h 2 , . . . h T h_1,h_2,...h_T h1,h2,...hT通过加强平均法结合产生的集成来完成回归学习任务 f : R d → R f:R^d\xrightarrow{}R f:Rd R

  对示例 x x x,定义学习器 h i h_i hi的“分歧”为
A ( h i ∣ x ) = ( h i ( x ) − H ( x ) ) 2 \begin{equation} A(h_i|x)=(h_i(x)-H(x))^2 \tag{8.27} \end{equation} A(hix)=(hi(x)H(x))2(8.27)
  集成的分歧是:
A ‾ ( h ∣ x ) = ∑ i = 1 T w i A ( h i ∣ x ) = ∑ i = 1 T w i ( h i ( x ) − H ( x ) ) 2 \begin{equation} \overline{A}(h|x)=\sum_{i=1}^Tw_iA(h_i|x)\\ =\sum_{i=1}^Tw_i(h_i(x)-H(x))^2 \tag{8.27} \end{equation} A(hx)=i=1TwiA(hix)=i=1Twi(hi(x)H(x))2(8.27)
  显然,这里的分歧显示了个体学习器的多样性。

  个体学习器 h i h_i hi和集成 H H H的平方误差:
E ( h i ∣ x ) = ( f ( x ) − h i ( x ) ) 2 E(h_i|x)=(f(x)-h_i(x))^2 E(hix)=(f(x)hi(x))2

E ( H ∣ X ) = ( f ( x ) − H ( x ) ) 2 E(H|X)=(f(x)-H(x))^2 E(HX)=(f(x)H(x))2
  令 E ‾ ( h ∣ x ) = ∑ i = 1 T w i ∗ E ( h i ∣ x ) \overline{E}(h|x)=\sum^T_{i=1}w_i*E(h_i|x) E(hx)=i=1TwiE(hix)表示个体学习器误差的加强均值
A ‾ ( h ∣ x ) = ∑ i = 1 T w i A ( h i ∣ x ) − E ( H ∣ X ) = E ‾ ( h ∣ x ) − E ( H ∣ X ) \begin{equation} \overline{A}(h|x)=\sum_{i=1}^Tw_iA(h_i|x)-E(H|X)=\overline{E}(h|x)-E(H|X) \tag{8.31} \end{equation} A(hx)=i=1TwiA(hix)E(HX)=E(hx)E(HX)(8.31)
在这里插入图片描述

8.5.2多样性度量

  度量集成个体分类器的多样性,即估算个体学习器多样化程度。

  比如考虑个体分类器的两两相似/不相似性

  给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x m , y m ) } D=\{(x_1,y_1),(x_2,y_2),...(x_m,y_m)\} D={(x1,y1),(x2,y2),...(xm,ym)},对二分类任务, y i ∈ { − 1 , + 1 } y_i\in\{-1,+1\} yi{1,+1}分类器 h i h_i hi h j h_j hj预测结果联表
在这里插入图片描述

   a a a表示 h i , h j h_i,h_j hi,hj均预测为正类的样本数目。 a + b + c + d = m a+b+c+d=m a+b+c+d=m
在这里插入图片描述
在这里插入图片描述

8.5.3多样性增强

  如何有效地增大多样性大的个体学习器,主要是对数据样本、输入属性、输出表示、算法参数进行扰动
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/149279.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

WebRTC关键技术及应用场景:EasyCVR视频汇聚平台高效低延迟视频监控解决方案

众所周知,WebRTC是一项开源的实时通信技术,它通过集成音频、视频和数据传输到Web浏览器中,使得实时通信变得简单且无需任何插件或第三方软件。WebRTC不仅是一个API,也是一系列关键技术和协议的集合,它的出现改变了传统…

中断合并参数coalesce_params解释

在网络驱动程序中,中断是指网络设备向处理器发送信号,通知它有数据需要处理。频繁的中断会导致处理器负担过重,从而影响系统性能。为了优化性能,驱动程序可以使用中断合并技术,将多个中断合并为一个,从而减…

docker快速部署zabbix

两台主机 一台作为server 一台作为agent 安装好docker 并保证服务正常运行,镜像正常pull 分析: 部署 Zabbix 容器环境,通常会涉及几个主要组件: MySQL(或 MariaDB 数据库)、Zabbix Server 和 Zabbix Web I…

【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台

一、介绍 果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜(‘土豆’, ‘圣女果’, ‘大白菜’, ‘大葱’, ‘梨’, ‘胡萝卜’, ‘芒果’, ‘苹果’, ‘西红柿’, ‘韭菜’, ‘香蕉’, ‘黄瓜’)…

Redis的一些数据类型(一)

(一)数据类型 我们说redis是key value键值对的方式存储数据,key是字符串,而value是一些数据结构,那今天就来说一下value存储的数据。 我们数据结构包含,String,hash,list,set和zest但…

macOS与Ubuntu虚拟机使用SSH文件互传

1.ubuntu配置: 安装openssh服务: sudo apt-get install openssh-server -y 查看服务启动状态: systemctl status ssh 2.macOS使用scp连接ubuntu并发送文件 查看ubuntu IP : ifconfigmacOS终端连接ubuntu : sc

第五篇:Linux进程的相关知识总结(1)

目录 第四章:进程 4.1进程管理 4.1.1进程管理需要的学习目标 4.1.1.1了解进程的相关信息 4.1.1.2僵尸进程的概念和处理方法: 4.1.1.3PID、PPID的概念以及特性: 4.1.1.4进程状态 4.1.2进程管理PS 4.1.2.1静态查看进程 4.1.2.1.1自定义…

基于AI网关的智慧煤矿安全监测应用

煤矿安全一直是矿业管理的重中之重。由于煤矿环境的恶劣与复杂性,例如工作中间环节多、设施设备多样且集中、空间狭小、环境闭塞、有害气体隐患、粉尘聚集等,针对煤矿的安全监测和防范时常面临着极大的挑战。 随着AI技术的发展与普及,依托AI实…

优青博导团队指导-组蛋白甲基化修饰、实验设计、实验结果分析、测序分析及SCI论文辅助,精准高效,为农医学科研保驾护航!

组蛋白甲基化修饰工具(H3K4me3 ChIP-seq) 组蛋白甲基化类型也有很多种,包括赖氨酸甲基化位点H3K4、H3K9、H3K27、H3K36、H3K79和H4K20等。组蛋白H3第4位赖氨酸的甲基化修饰(H3K4)在进化上高度保守,是被研究最多的组蛋白修饰之一。

gnome Files管理文件学习

Files文件夹页可以非常高效的使用,接下来介绍一些有用的快捷命令和tricks 首先是快捷键: **Ctrl T**Ctrl N**Ctrl WClose window or tab**Ctrl FSearch**Ctrl LEnter location**BackspaceGo Back to a Previous FolderCtrl Zoom inCtrl -Zoom outCtrl 0…

MISC - 第四天(OOK编码,audacity音频工具,摩斯电码,D盾,盲文识别,vmdk文件压缩)

前言 各位师傅大家好,我是qmx_07,今天继续讲解MISC知识点 FLAG 附件是一张图片,尝试binwalk无果 使用StegSolve工具Data Extract查看时 发现PK字段,是大多数压缩包的文件头点击Save Bin保存zip文件 解压缩失败使用修复软件:htt…

六西格玛绿带培训机构哪家好?记住这2点很重要

在探讨“六西格玛绿带培训机构哪家好”这一议题时,我们不得不深入剖析当前市场上纷繁复杂的培训机构,以及如何选择一家既能提供高质量教学,又能满足个人职业发展需求的机构。六西格玛作为一套严谨的管理方法论,旨在通过减少变异、…

directx修复工具怎么用?不懂dll缺失怎么修复?本文整理了详细的dll修复方法!

DLL错误,相信很多小伙伴都头疼这个问题。 在电脑上运行程序或者打开某个文件时,是不是会看到“缺少xxx.dll”的错误弹窗?这时候大部分小白用户都是懵的,不知道这是出了什么问题,又该如何解决。 dll文件在电脑领域中扮…

某易易盾验证码逆向

注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路 如有侵犯,请联系作者下架,本文网址如下,使用base64解码获得: aHR0cHM6Ly9kdW4uMTYzLmNvbS90cmlhbC9qaWdzYXc= ———————————————— 我们来看一下接口请求,这里关注的重点就…

9/24作业

1. 分文件编译 分什么要分文件编译? 防止主文件过大,不好修改,简化编译流程 1) 分那些文件 头文件:所有需要提前导入的库文件,函数声明 功能函数:所有功能函数的定义 主函数:main函数&…

【解决虚拟机NAT联网】收藏这份教程就不用再辛苦找了

网上的教程一大堆,看的云里雾里,对于一个小白来说这里看懂了,下一步又看不懂了,一模一样的去设置也不一定成功。 解决办法01 恢复默认设置: 首先公布一个最基础的最直接最有效的恢复网络的办法: 关闭虚拟…

Serverless and Go

本篇内容是根据2019年8月份Serverless and Go音频录制内容的整理与翻译, Johnny、Mat、Jaana 和特邀嘉宾 Stevenson Jean-Pierre 讨论了 Go 世界中的Serverless。什么是Serverless,Serverless适用于哪些用例,有哪些权衡,以及如何在Serverles…

keepalived+lvs集群

目录 一、环境 二、配置 1、master 1.在master上安装配置Keepalived 2.在master上修改配置文件 2、backup 1.在backup(192.168.229.12)上安装keepalived 2.在backup上修改配置文件 3、master和backup上启动服务 4、web服务器配置 1.web1和web…

一键搞定!这4款在线音频剪辑神器,你值得拥有!

嘿,小伙伴们,是不是有时候感觉手中的音乐或者语音素材需要经过一番精雕细琢才能完美呈现呢?今天,我就来给大家分享几款超好用的在线音频剪辑工具,让你在轻松愉快的氛围中,享受剪辑的乐趣,体验到…

MySQL函数:流程函数

1.IF函数 基本语法:IF(expr1,expr2,expr3) 功能:如果value为true,返回t, 否则返回f 例如:这个里面expr1里面是false,返回的是Error,如果是true,返回OK select if(false, OK, Err…