李航老师《统计学习方法》第2章阅读笔记

感知机(perceptron)时二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面

想象一下在一个平面上有一些红点和蓝点,这些点代表不同的类别。分离超平面就是一条线,可以将红点和蓝点分开,使得所有的红点都在一侧,而蓝点都在另一侧。这条线(或者平面,对于高维数据)被称为分离超平面。

2.1感知机模型

定义2.1(感知机):假设输入空间(特征空间)是 X ⊆ R n X \subseteq R^n XRn,输出空间是 Y = { + 1 , − 1 } Y=\{+1,-1\} Y={+1,1}。输入 x ∈ X x \in X xX表示实例的特征向量,对应于输入空间(特征空间)的点;输出 y ∈ Y y \in Y yY表示实例的类别。由输入空间到输出空间的如下函数:
f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w \cdot x+b) f(x)=sign(wx+b)
称为感知机。其中,w和b为感知机模型参数, w ∈ R n w \in R^n wRn叫做权重(weight)或权重向量(weight vector), b ∈ R b \in R bR叫做偏置(bias), w ⋅ x w \cdot x wx表示w和x的内积。sign是符号函数,即
s i g n ( x ) = { + 1 x ≥ 0 − 1 x < 0 sign(x)=\begin{cases} +1 & x≥0 \\ -1 & x<0 \\ \end{cases} sign(x)={+11x0x0

内积是线性代数中的一个概念,也被称为点积或标量积。它是两个向量之间的一种运算,将两个向量相乘并得到一个标量(实数)的结果。内积通常用于衡量向量之间的相似性、角度和投影等性质。
内积的一般定义是:
对于两个实数向量 a 和 b,它们的内积(点积)表示为 a·b,计算方式如下:
a·b = |a| * |b| * cos(θ)
以下是一个简单的例子来说明内积的概念:
假设有两个二维向量 a 和 b,它们分别表示为:
a = [2, 3]
b = [4, 1]
要计算 a 和 b 的内积,首先需要计算它们的长度(模):
|a| = √(2^2 + 3^2) = √(4 + 9) = √13
|b| = √(4^2 + 1^2) = √(16 + 1) = √17
接下来,计算 a 和 b 之间的夹角 θ,可以使用余弦公式:
cos(θ) = (a·b) / (|a| * |b|)
将 a 和 b 的值代入:
cos(θ) = (2 * 4 + 3 * 1) / (√13 * √17) = (8 + 3) / (√13 * √17) = 11 / (√13 * √17)
现在,我们可以计算内积 a·b:
a·b = |a| * |b| * cos(θ) = √13 * √17 * (11 / (√13 * √17)) = 11
所以,向量 a 和 b 的内积是 11。
内积的计算可以帮助我们理解向量之间的相对方向以及它们之间的相似性。在许多应用中,内积是一个重要的数学工具,例如在机器学习中用于计算特征之间的相关性,以及在物理学中用于计算力学和电磁学中的各种问题。

感知机模型的参数包括权重(weight)向量 w ∈ R n w \in \mathbb{R}^n wRn 和偏置(bias) b ∈ R b \in \mathbb{R} bR,这两个参数的维度之所以不同,是因为它们的作用和数学表达的需要不同。

  1. 权重向量 w ∈ R n w \in \mathbb{R}^n wRn
  • 权重向量 w w w 的维度为 n n n,其中 n n n 表示输入特征的数量。每个特征都有一个对应的权重,用于衡量该特征对模型的重要性。权重向量中的每个元素 w i w_i wi 对应于一个特征,表示该特征在模型中的权重。每个特征都有一个权重,因此需要 n n n 个权重值。
  1. 偏置 b ∈ R b \in \mathbb{R} bR
  • 偏置 b b b 是一个标量(单个实数),它不依赖于特征的数量。偏置的作用是在计算模型的输出时引入一个偏移量,用于调整模型的预测值。它可以理解为模型在没有任何特征输入时的输出值,相当于截距或偏移项。
    考虑一个简单的情况,比如二元分类问题,输入特征有 n n n 个,感知机模型的输出是根据权重向量 w w w 对输入特征加权求和后再加上偏置 b b b,然后通过 sign 函数进行分类决策。这就是为什么需要一个长度为 n n n 的权重向量 w w w 和一个标量偏置 b b b 的原因。
    总之,权重向量 w w w 的维度与输入特征的数量相关,而偏置 b b b 是一个标量,不依赖于特征的数量,它们一起组成了感知机模型的参数,用于对输入进行线性加权和分类决策。

在这里插入图片描述

2.2感知机学习策略

2.2.1数据集的线性可分性

定义2.2(数据集的线性可分性)

2.2.2感知机学习策略

2.3感知机学习算法

2.3.1感知机学习算法的原始形式

∇ w L ( w , b ) = − ∑ x i ∈ M y i x i \nabla_wL(w,b)=-\sum\limits_{x_i \in M}y_i x_i wL(w,b)=xiMyixi
∇ b L ( w , b ) = − ∑ x i ∈ M y i \nabla_bL(w,b)=-\sum\limits_{x_i \in M}y_i bL(w,b)=xiMyi

这两个公式是关于损失函数 L ( w , b ) L(w, b) L(w,b) 对于模型参数 w w w b b b 的梯度计算。

  1. ∇ w L ( w , b ) = − ∑ x i ∈ M y i x i \nabla_wL(w,b)=-\sum\limits_{x_i \in M}y_i x_i wL(w,b)=xiMyixi 表示损失函数 L ( w , b ) L(w, b) L(w,b) 对于权重参数 w w w 的梯度。具体来说,它告诉我们如何调整权重 w w w 才能最小化损失函数。右侧的求和项计算了关于样本 x i x_i xi 的损失函数的梯度,然后取负号表示梯度下降。这个梯度向量告诉我们,在参数 w w w 的当前值下,每个样本 x i x_i xi 对于损失函数的贡献如何,以及如何将权重 w w w 调整以降低损失。
  2. ∇ b L ( w , b ) = − ∑ x i ∈ M y i \nabla_bL(w,b)=-\sum\limits_{x_i \in M}y_i bL(w,b)=xiMyi 表示损失函数 L ( w , b ) L(w, b) L(w,b) 对于偏置参数 b b b 的梯度。类似地,它告诉我们如何调整偏置 b b b 才能最小化损失函数。右侧的求和项计算了所有样本 x i x_i xi 的标签 y i y_i yi 的总和,然后取负号表示梯度下降。这个梯度值告诉我们,在参数 b b b 的当前值下,所有样本的标签对于损失函数的贡献如何,以及如何将偏置 b b b 调整以降低损失。

这两个梯度计算是优化算法(如梯度下降)中的关键步骤,用于更新模型的参数 w w w b b b 以最小化损失函数。通过迭代地计算这些梯度并更新参数,我们可以让模型逐渐收敛到一个使损失最小化的参数组合,从而提高模型的性能。

算法2.1(感知机学习算法的原始形式)
在这里插入图片描述

2.3.2算法的收敛性

我们现在证明了,对于线性可分数据集感知机学习算法原始形式收敛(即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型)
在这里插入图片描述
定理2.1(Novikoff)设训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)}是线性可分的,其中 x i ∈ X = R n , y i ∈ Y = { − 1 , + 1 } , I = 1 , 2 , . . . , N x_i \in X=R^n,y_i \in Y=\{-1,+1\},I=1,2,...,N xiX=Rn,yiY={1,+1},I=1,2,...,N,则
(1)存在满足条件 ∣ ∣ w ^ o p t ∣ ∣ = 1 ||\hat w _{opt}||=1 ∣∣w^opt∣∣=1的超平面 w ^ o p t ⋅ x ^ = w o p t ⋅ x + b o p t = 0 \hat w _{opt}\cdot \hat x=w_{opt}\cdot x+b_{opt}=0 w^optx^=woptx+bopt=0将训练数据集完全正确分开;且存在 γ > 0 \gamma>0 γ>0,对所有 i = 1 , 2 , . . . , N i=1,2,...,N i=1,2,...,N
y i ( w ^ o p t ⋅ x ^ ) = y i ( w o p t ⋅ x + b o p t ) ≥ γ y_i(\hat w _{opt}\cdot \hat x)=y_i( w _{opt}\cdot x+b_{opt})≥\gamma yi(w^optx^)=yi(woptx+bopt)γ
(2)令 R = max ⁡ 1 ≤ i ≤ N ∣ ∣ x ^ i ∣ ∣ R=\max \limits_{1≤i≤N}||\hat x_i|| R=1iNmax∣∣x^i∣∣,则感知机算法2.1在训练数据集上的误分类次数k满足不等式
k ≤ ( R γ ) 2 k≤(\frac{R}{\gamma})^2 k(γR)2

这是关于 Novikoff 收敛定理的详细数学描述和解释:
定理背景:

  • 给定一个训练数据集 T T T,其中包含 N N N 个样本,每个样本的特征是 x i ∈ R n x_i \in \mathbb{R}^n xiRn,标签是 y i ∈ { − 1 , + 1 } y_i \in \{-1, +1\} yi{1,+1}。这个数据集被假定为线性可分,意味着存在一个超平面 w ^ o p t ⋅ x ^ = 0 \hat w_{opt} \cdot \hat x = 0 w^optx^=0 可以完全正确地将所有样本分开,其中 w ^ o p t \hat w_{opt} w^opt 是法向量,满足 ∣ ∣ w ^ o p t ∣ ∣ = 1 ||\hat w_{opt}|| = 1 ∣∣w^opt∣∣=1 w o p t w_{opt} wopt 是权重向量, b o p t b_{opt} bopt 是偏置项。
  • 定理要证明的是,对于这个线性可分的数据集,感知机算法在训练数据集上的误分类次数 k k k 受到一定的上界限制。
    定理内容解释:
  1. (1)部分:该部分说明了存在一个超平面 w ^ o p t ⋅ x ^ = 0 \hat w_{opt} \cdot \hat x = 0 w^optx^=0 可以完全正确地分开训练数据集,并且存在一个正数 γ > 0 \gamma > 0 γ>0,使得对于所有训练样本 ( x i , y i ) (x_i, y_i) (xi,yi),都有 y i ( w ^ o p t ⋅ x ^ ) ≥ γ y_i(\hat w_{opt} \cdot \hat x) \geq \gamma yi(w^optx^)γ。这意味着超平面 w ^ o p t ⋅ x ^ = 0 \hat w_{opt} \cdot \hat x = 0 w^optx^=0 在每个样本点上的分类间隔都至少为 γ \gamma γ
  2. (2)部分:该部分说明了感知机算法在训练数据集上的误分类次数 k k k 有一个上界。具体来说,误分类次数 k k k 满足不等式 k ≤ ( R γ ) 2 k \leq \left(\frac{R}{\gamma}\right)^2 k(γR)2,其中 R R R 是训练数据集中样本特征的最大范数(绝对值的最大值), γ \gamma γ 是前面提到的正数。这个不等式表明,误分类次数 k k k 受到了数据集的特征范数和分类间隔 γ \gamma γ 的限制,误分类次数不能超过这个上界。
    解释:
  • 定理的第一部分告诉我们,对于线性可分的数据集,存在一个合适的超平面,可以将所有样本正确分类,并且这个超平面在每个样本点上都有足够大的分类间隔 γ \gamma γ。这个分类间隔 γ \gamma γ 可以看作是超平面离每个样本点的距离,越大表示分类得越确信。
  • 定理的第二部分告诉我们,感知机算法在训练数据集上的误分类次数是有界的,上界由数据集中的特征范数 R R R 和分类间隔 γ \gamma γ 决定。这意味着无论感知机算法如何迭代更新权重,它最终将停止,不会永远继续分类错误。误分类次数的上限是关于数据集和分类间隔的一个函数,当 R R R γ \gamma γ 较小时,误分类次数上限也较小,表明算法更容易收敛。

这个定理强调了感知机算法在线性可分数据上的性质,为我们提供了关于算法收敛性和分类性能的理论保证。

w ^ o p t \hat w_{opt} w^opt w o p t w_{opt} wopt 是两个不同的符号,它们用于表示定理中的两个不同的向量:

  1. w ^ o p t \hat w_{opt} w^opt:这个符号表示的是一个单位向量,通常用来表示一个超平面的法向量。在定理中, w ^ o p t \hat w_{opt} w^opt 表示一个单位法向量,它是一个指向超平面的方向,并用于将数据集分开。单位向量的长度(范数)等于 1。
  2. w o p t w_{opt} wopt:这个符号表示的是一个权重向量,通常用于线性分类器或超平面模型。在定理中, w o p t w_{opt} wopt 是一个用于定义超平面的向量,它包括了每个特征的权重。与 w ^ o p t \hat w_{opt} w^opt 不同, w o p t w_{opt} wopt 不一定是单位向量,它的长度可以不为 1。

总之, w ^ o p t \hat w_{opt} w^opt w o p t w_{opt} wopt 在定理中表示了两个不同的向量,前者通常是一个单位法向量,后者是一个权重向量,它们在超平面模型中具有不同的作用和含义。

x ^ \hat x x^ x x x 通常表示不同的概念:

  1. x x x:这是一个通常表示数据点或样本的符号,它包含样本的特征值。在机器学习和统计中,通常将一个数据点或样本表示为一个特征向量 x x x,其中包含了该样本的各个特征的数值。例如,如果我们在分类问题中考虑一个图像, x x x 可以表示该图像的各个像素值或特征提取后的特征值。 x x x 是数据集中的每个样本的不同实例。
  2. x ^ \hat x x^:这个符号通常用于表示一个单位向量或规范化向量。在一些数学和机器学习上下文中, x ^ \hat x x^ 可以表示将向量 x x x 标准化为单位长度的向量,也就是将其长度(范数)归一化为1。这种标准化常用于定义方向或表示规范化特征。例如,如果 x x x 是一个普通的特征向量, x ^ \hat x x^ 可以表示与 x x x 具有相同方向但长度为1的向量。

总的来说, x x x 通常表示原始数据或特征向量,而 x ^ \hat x x^ 表示具有单位长度的向量或规范化向量。根据上下文,它们可以具有不同的含义和用途。

∣ ∣ x ^ i ∣ ∣ ||\hat x_i|| ∣∣x^i∣∣ 表示向量 x ^ i \hat x_i x^i 的范数(或长度)。范数是一个数学概念,它用于衡量向量在空间中的大小或长度。
在这个上下文中, x ^ i \hat x_i x^i 通常表示一个向量,例如一个特征向量。 ∣ ∣ x ^ i ∣ ∣ ||\hat x_i|| ∣∣x^i∣∣ 就是该向量的范数,它可以有不同的定义方式,包括:

  1. L2范数(欧几里德范数): ∣ ∣ x ^ i ∣ ∣ 2 ||\hat x_i||_2 ∣∣x^i2 表示向量 x ^ i \hat x_i x^i 的L2范数,定义为向量各个元素的平方和的平方根。即 ∣ ∣ x ^ i ∣ ∣ 2 = ∑ j = 1 n ( x ^ i [ j ] ) 2 ||\hat x_i||_2 = \sqrt{\sum_{j=1}^{n} (\hat x_i[j])^2} ∣∣x^i2=j=1n(x^i[j])2 ,其中 n n n 是向量的维度。L2范数衡量了向量的长度。
  2. L1范数(曼哈顿范数): ∣ ∣ x ^ i ∣ ∣ 1 ||\hat x_i||_1 ∣∣x^i1 表示向量 x ^ i \hat x_i x^i 的L1范数,定义为向量各个元素的绝对值之和。即 ∣ ∣ x ^ i ∣ ∣ 1 = ∑ j = 1 n ∣ x ^ i [ j ] ∣ ||\hat x_i||_1 = \sum_{j=1}^{n} |\hat x_i[j]| ∣∣x^i1=j=1nx^i[j]。L1范数衡量了向量各个元素的绝对值之和。
  3. 无穷范数 ∣ ∣ x ^ i ∣ ∣ ∞ ||\hat x_i||_{\infty} ∣∣x^i 表示向量 x ^ i \hat x_i x^i 的无穷范数,定义为向量中绝对值最大的元素。即 ∣ ∣ x ^ i ∣ ∣ ∞ = max ⁡ j ∣ x ^ i [ j ] ∣ ||\hat x_i||_{\infty} = \max_{j} |\hat x_i[j]| ∣∣x^i=maxjx^i[j]

不同的范数衡量了向量的不同性质,例如长度、绝对值之和、最大绝对值等。具体使用哪种范数取决于问题的性质和需求。

2.3.3感知机学习算法的对偶形式

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/139960.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

人工智能机器学习-飞桨神经网络与深度学习

飞桨神经网络与深度学习-机器学习 目录 飞桨神经网络与深度学习-机器学习 1.机器学习概述 2.机器学习实践五要素 2.1.数据 2.2.模型 2.3.学习准则 2.4.优化算法 2.5.评估标准 3.实现简单的线性回归模型 3.1.数据集构建 3.2.模型构建 3.3.损失函数 3.4.模型优化 3…

怎么实现一个登录时需要输入验证码的功能

今天给项目换了一个登录页面,而这个登录页面设计了验证码,于是想着把这个验证码功能实现一下吧。 这篇文章就如何实现登录时的验证码的验证功能结合代码进行详细地介绍,以及介绍功能实现的思路。 目录 页面效果 实现思路 前端页面代码 lo…

conda常用指令

常用conda指令 查看当前有哪些环境,有base环境 conda env list 创建环境 # conda create -n 你的环境名 python版本号 # 创建python3.10,名为env虚拟环境 conda create -n env python3.10 激活环境 conda activate env

SpringCloud Alibaba - Sentinel篇

一、Sentinel快速入门 Sentinel官网地址:https://sentinelguard.io/zh-cn/index.html Sentinel项目地址:https://github.com/alibaba/Sentinel Sentinel是阿里巴巴开源的一款微服务流量治理组件,主要以流量为切入点,从流量限流、熔…

Linux MyFile

在之前,我们应该都多少接触过了C语言的文件管理,fopen,fclose,fputs....等函数的用法,也分析了系统层面上C语言是如何实现文件管理的。 回顾 上一个文章,我们讲解了十分重要的知识,在文件被打…

成集云 | 用友NC集成聚水潭ERP(用友NC主管供应链)| 解决方案

源系统成集云目标系统 方案介绍 用友NC是用友NC产品的全新系列,是面向集团企业的世界级高端管理软件。它以“全球化集团管控、行业化解决方案、全程化电子商务、平台化应用集成”的管理业务理念而设计,采用J2EE架构和先进开放的集团级开发平台…

平板用的触控笔什么牌子好?性价比高的触控笔推荐

随着平板电脑的普及,越来越多用户为了方便都选择了电容笔,电容笔已经完全代替了我们的手指,并且使我们的书写速度得到了极大的提升。然而,因为其的独特的重力压感功能与芯片技术,导致了原装笔的售价一直居高不下&#…

JavaScript - canvas - 放大镜

效果 示例 项目结构&#xff1a; 源码&#xff1a; <!DOCTYPE html> <html><head><meta charset"utf-8" /><title>放大镜</title><style type"text/css">div {width: 200px;height: 200px;display: inline-bl…

2023-09-20 Android CheckBox 让文字显示在选择框的左边

一、CheckBox 让文字在选择框的左边 &#xff0c;在布局文件里面添加下面一行就可以。 android:layoutDirection"rtl" 即可实现 android:paddingStart"10dp" 设置框文间的间距 二、使用的是left to right <attr name"layoutDirection">&…

RGB格式

Qt视频播放器实现&#xff08;目录&#xff09; RGB的使用场景 目前&#xff0c;数字信号源&#xff08;直播现场的数字相机采集的原始画面&#xff09;和显示设备&#xff08;手机屏幕、笔记本屏幕、个人电脑显示器屏幕&#xff09;使用的基本上都是RGB格式。 三原色 RGB是…

网络协议层次模型

OSI 七层模型 在 OSI 网络分层模型中&#xff0c;每个分层都接收由它下一层所提供的特定服务&#xff0c;并且负责为自己的上一层提供特定的服务。上下层之间进行交互时所遵循的约定叫做接口 &#xff1b;同一层之间的交互所遵循的约定叫做协议&#xff0c; 下图是 OSI 七层…

2023华为杯研究生数学建模竞赛CDEF题思路+模型代码

全程更新华为杯研赛CDEF题思路模型及代码&#xff0c;大家查看文末名片获取 华为杯C题思路分析 问题一 在每个评审阶段&#xff0c;作品通常都是随机分发的&#xff0c;每份作品需要多位评委独立评审。为了增加不同评审专家所给成绩之间的可比性&#xff0c;不同专家评审的作…

SpringBoot轻松实现项目集成Knife4j接口文档

Knife4j 介绍 Knife4j 官网 Knife4j是一款基于Swagger生成API文档的增强工具&#xff0c;它简化了开发者构建和管理RESTful API文档的过程。通过自动扫描项目中的接口信息&#xff0c;Knife4j能够生成详细、易读的API文档&#xff0c;无需手动编写和维护。它提供交互式的接口调…

CSP-J/S 2023第一轮认证晋级分数线有些爆冷,超出想象

昨天广东、江西、内蒙古、河北、江苏、吉林、四川相继公布了第一轮认证成绩和晋级分数线。 爆冷 说实在话&#xff0c;看到这个分数线&#xff0c;我有些意外。 省份 CSP-J CSP-S 江西 55 29 内蒙古 30 20 河北 48 20 江苏 72.5 52.5 吉林 52 33 四川 67 55 就拿我们大河北来…

02强化学习基本概念

强化学习基本概念 前言1、State、Action、Policy等① State② Action③ State transition④ State transition probability⑤ Polity 2、Reward、Return、MDP等① Reward② Trajectory and return③ Discounted return④ Episode⑤ MDP 总结&#xff1a; 前言 本文来自西湖大学…

一、荔枝派nano启动USB虚拟串口功能FLASH版

一、搭建环境 本次使用的是ubuntu16.04进行搭建编译环境&#xff0c;具体的配置编译登都在荔枝派官网有介绍&#xff1a;https://wiki.sipeed.com/soft/Lichee/zh/Nano-Doc-Backup/build_sys/build_flash_copy.html 特别注意&#xff1a;本次需要使用的USB转串口功能&#xff0…

解决方案 | 如何构建市政综合管廊安全运行监测系统?

如何构建市政综合管廊安全运行监测系统&#xff1f;WITBEE万宾城市生命线智能监测仪器&#xff0c;5年免维护设计&#xff0c;集成10多项结构与气体健康监测指标&#xff0c;毫秒级快速响应&#xff0c;时刻感知综合管廊运行态势

【kafka】可视化工具KAFKA EAGLE安装分享

目录 准备&#xff1a; 开始&#xff1a; 1.解压 2.环境变量配置 3.生效环境变量配置文件 3.修改配置文件 1.修改zookeeper集群信息 2.修改mysql配置信息 4.启动 5.异常排查 6.页面 创作不易&#xff0c;你的动力是我创作的动力&#xff0c;如果有帮助请关注我&…

C 初级学习笔记(基础)

目录 1.预处理器指令 预定义宏 预处理器运算符 &#xff08;\&#xff09; 参数化的宏 头文件 .h 引用头文件操作 2.函数&#xff08;标识符&关键字&运算符&#xff09;存储类 函数参数 a. 标识符&关键字 b. 运算符&#xff08;算术、关系、逻辑、位、赋…

千巡翼X1 让航测无人机更小更轻更高效

利用无人机进行航空摄影测量&#xff0c;已成为测绘外业生产的主要方式&#xff0c;不仅方便快捷&#xff0c;更能全面准确获得成果。近年来&#xff0c;凭借快速高效、机动灵活、安全可靠、低成本等诸多优势&#xff0c;小型多旋翼无人机逐渐成为一些航测项目作业的新利器。 千…