研究深度神经网络优化稳定性,证明在一定条件下梯度下降和随机梯度下降方法能有效控制损失函数

假设 F ( x ; w ) F(x;w) F(x;w)是一个输出标量的深度神经网络,其中 x x x是输入, w w w表示权重。假设 F F F关于 w w w连续可微,并且对于训练数据 { x j , y j } j = 1 m \{x_{j},y_{j}\}_{j=1}^{m} {xj,yj}j=1m过参数化:即存在 w ∗ w^* w使得对所有 j j j满足 F ( x j ; w ∗ ) = y j F(x_{j};w^*)=y_{j} F(xj;w)=yj。为了研究训练神经网络时在 w ∗ w^* w的局部优化动力学,我们考虑线性化神经网络 F ^ ( x ; w ) = F ( x ; w ∗ ) + ( w − w ∗ ) ⊤ ∇ F ( x ; w ∗ ) \widehat{F}(x;w)=F(x;w^*)+(w-w^*)^{\top}\nabla F(x;w^*) F (x;w)=F(x;w)+(ww)F(x;w),其损失函数为

L o s s ( w ) : = 1 2 m ∑ j = 1 m ( y j − F ^ ( x j ; w ) ) 2 Loss(w):=\frac{1}{2m}\sum_{j=1}^{m}(y_{j}-\widehat{F}(x_{j};w))^{2} Loss(w):=2m1j=1m(yjF (xj;w))2

s s s表示学习率,梯度下降法为 w i + 1 = w i − s ∇ L o s s ( w i ) w_{i+1}=w_{i}-s\nabla Loss(w_{i}) wi+1=wisLoss(wi),而随机梯度下降法为 w i + 1 = w i − s ( ∇ L o s s ( w i ) + ϵ i ) w_{i+1}=w_{i}-s(\nabla Loss(w_{i})+\epsilon_{i}) wi+1=wis(Loss(wi)+ϵi),其中噪声项 ϵ i \mathcal{\epsilon}_{i} ϵi满足 E ϵ i = 0 \mathbb{E}\mathcal{\epsilon}_{i}=0 Eϵi=0 E ϵ i ϵ i ⊤ = M ( w i ) / b \mathbb{E}\mathcal{\epsilon}_{i}\mathcal{\epsilon}_{i}^{\top}=M(w_{i})/b Eϵiϵi=M(wi)/b, b b b是mini-batch的大小。假设协方差矩阵 M M M

Σ = 1 m ∑ j = 1 m ∇ F ( x j ; w ∗ ) ∇ F ( x j ; w ∗ ) ⊤ \Sigma=\frac{1}{m}\sum_{j=1}^{m}\nabla F(x_{j};w^*)\nabla F(x_{j};w^*)^{\top} Σ=m1j=1mF(xj;w)F(xj;w)

在以下意义上对齐:

T r ( M ( w ) Σ ) 2 ( L o s s ( w ) ) 3 2 ∥ Σ ∥ F 2 ≥ δ \frac{Tr(M(w)\Sigma)}{2(Loss(w))^{\frac{3}{2}}\|\Sigma\|_F^2}\geq\delta 2(Loss(w))23∥ΣF2Tr(M(w)Σ)δ

对于 δ > 0 \delta>0 δ>0和所有 w w w成立。这里 ∥ ⋅ ∥ F \lVert\cdot\rVert_F F表示Frobenius范数。

(1) 对于梯度下降,证明如果 Σ \Sigma Σ的谱范数满足

∥ Σ ∥ 2 ≤ 2 s , \lVert\Sigma\rVert_2\leq\frac{2}{s}, Σ2s2则梯度下降是局部稳定的(即对所有t,Loss ( w t ) (w_t) (wt)是有界的)。(注意,这蕴含了一个依赖维度的界: ∥ Σ ∥ F ≤ 2 d s \lVert\Sigma\rVert_F\leq\frac{2\sqrt{d}}{s} ΣFs2d ,其中 d d d w w w的维度。)

(2) 对于随机梯度下降,如果 E L o s s ( w t ) \mathbb{E}Loss(w_t) ELoss(wt)对所有 t t t都有界,则以独立于维度的不等式必须成立:

∥ Σ ∥ F ≤ b / δ s \lVert\Sigma\rVert_F\leq\frac{\sqrt{b/\delta}}{s} ΣFsb/δ

证:

(1)梯度下降的局部稳定性

我们需要证明在使用梯度下降时,损失函数 Loss ( w t ) \text{Loss}(w_t) Loss(wt)是有界的。

考虑梯度下降的更新规则: w i + 1 = w i − s ∇ Loss ( w i ) w_{i+1}=w_i-s \nabla \text{Loss}(w_i) wi+1=wisLoss(wi)

首先,我们计算损失函数的梯度:

∇ Loss ( w ) = 1 m ∑ j = 1 m ( F ^ ( x j ; w ) − y j ) ∇ F ^ ( x j ; w ) \nabla \text{Loss}(w) = \frac{1}{m} \sum_{j=1}^{m} \left( \widehat{F}(x_j; w)-y_j \right) \nabla \widehat{F}(x_j; w) Loss(w)=m1j=1m(F (xj;w)yj)F (xj;w)

由于 F ^ ( x ; w ) = F ( x ; w ∗ ) + ( w − w ∗ ) ⊤ ∇ F ( x ; w ∗ ) \widehat{F}(x; w) = F(x; w^*) + (w- w^*)^\top \nabla F(x; w^*) F (x;w)=F(x;w)+(ww)F(x;w)

我们有: ∇ F ^ ( x j ; w ) = ∇ F ( x j ; w ∗ ) \nabla \widehat{F}(x_j; w) = \nabla F(x_j;w^*) F (xj;w)=F(xj;w)

因此:

∇ Loss ( w ) = 1 m ∑ j = 1 m ( ( w − w ∗ ) ⊤ ∇ F ( x j ; w ∗ ) ∇ F ( x j ; w ∗ ) ⊤ ) \nabla \text{Loss}(w) = \frac{1}{m} \sum_{j=1}^{m}\left( (w - w^*)^\top \nabla F(x_j; w^*) \nabla F(x j; w^*)^\top \right) Loss(w)=m1j=1m((ww)F(xj;w)F(xj;w))

定义矩阵(\Sigmal) 为:

Σ = 1 m ∑ j = 1 m ∇ F ( x j ; w ∗ ) ∇ F ( x j ; w ∗ ) ⊤ \Sigma = \frac{1}{m} \sum_{j=1}^{m}\nabla F(x_j;w^*) \nabla F(x_j; w^*)^\top Σ=m1j=1mF(xj;w)F(xj;w)

于是:

∇ Loss ( w ) = Σ ( w − W ∗ ) \nabla \text{Loss}(w) = \Sigma (w-W^*) Loss(w)=Σ(wW)

现在考虑梯度下降的更新:

w i + 1 − w ∗ = w j − w ∗ − s ∇ Loss ( w i ) w_{i+1} - w^* =w_j-w^*- s \nabla \text{Loss}(w_i) wi+1w=wjwsLoss(wi) = w i − w ∗ − s Σ ( w i − w ∗ ) =w_i-w^*-s\Sigma(w_i-w^*) =wiwsΣ(wiw)

= ( l − s Σ ) ( w i − w ∗ ) =(l-s \Sigma) (w_i - w^*) =(lsΣ)(wiw)

取范数:

∥ w i + 1 − w ∗ ∥ 2 = ∥ 1 − s Σ ∥ 2 ∥ w i − w ∗ ∥ 2 \|w_{i+1} - w^*\|_2 =\|1 - s \Sigma\|_2\|w_i -w^*\|_2 wi+1w2=∥1sΣ2wiw2

由于 I − s Σ ∣ 2 ≤ 1 I-s\Sigma|_2\leq 1 IsΣ21当且仅当 s ≤ 2 λ max ⁡ ( Σ ) s \leq \frac{2}{\lambda_{\max}(\Sigma)} sλmax(Σ)2,即 Σ 2 ≤ 2 s \Sigma_2\leq \frac{2}{s} Σ2s2,我们可以得到:

∥ w i − w ∗ ∥ 2 ≤ ∥ w 0 − w ∗ ∥ 2 \|w_i -w^*\|_2\leq \|w_0 - w^*\|_2 wiw2w0w2

这意味着 ∥ w i − w ∗ ∥ 2 \|w_i - w^*\|_2 wiw2 是有界的,因此 Loss ( w t ) \text{Loss}(w_t) Loss(wt)也是有界的。

(2)随机梯度下降的有界性

对于随机梯度下降,我们需要证明如果 E Loss ( w t ) \mathbb{E}\text{Loss}(w_t) ELoss(wt)对所有 t t t都有界,则必须满足独立于维度的约束 ∥ Σ ∥ F ≤ b / δ s \|\Sigma\|_F\leq\frac{\sqrt{b/\delta}}{s} ∥ΣFsb/δ

考虑随机梯度下降的更新规则:

w i + 1 = w i − s ( ∇ Loss ( w i ) + ϵ i ) w_{i+1}=w_i-s (\nabla \text{Loss}(w_i) + \epsilon_i) wi+1=wis(Loss(wi)+ϵi)

其中 ϵ i \epsilon_i ϵi是噪声项,满足 E [ ϵ i ] = 0 \mathbb{E}[\epsilon_i]= 0 E[ϵi]=0 E [ ϵ i ϵ i ⊤ ] = M ( w i ) b \mathbb{E}[\epsilon_i \epsilon_i^\top] = \frac{M(w_i)}{b} E[ϵiϵi]=bM(wi)

我们需要分析 E [ Loss ( w i + 1 ) ] \mathbb{E} [\text{Loss}(w_{i+1})] E[Loss(wi+1)]。令 w i − w ∗ = z i w_i-w^*=z_i wiw=zi。则: z i + 1 = z i − s ( Σ z i + ϵ i ) = ( I − s Σ ) z i − s ϵ i z {i+1}=z_i- s (\Sigma z_i+\epsilon_i)=(I-s\Sigma)zi-s\epsilon_i zi+1=zis(Σzi+ϵi)=(IsΣ)zisϵi

取范数的平方并取期望:

E [ ∥ z i + 1 ∥ 2 2 ] = E [ ∥ ( l − s Σ ) z i − s ϵ − i _ 2 2 ] \mathbb{E}[\|z_{i+1}\|_2^2] = \mathbb{E}[\|(l- s\Sigma)z_i- s \epsilon-i\_2^2] E[zi+122]=E[(lsΣ)zii_22]

= E [ ∥ ( 1 − s Σ ) z i _ 2 2 ] + s 2 E [ ∥ ϵ i ∥ 2 2 ] = \mathbb{E}[\|(1 -s \Sigma)z_i\_2^2]+ s^2\mathbb{E}[\|\epsilon_i\|_2^2] =E[(1sΣ)zi_22]+s2E[ϵi22]

由于 ϵ i \epsilon_i ϵi的协方差为 M ( w i ) b \frac{M(w_i)}{b} bM(wi)。我们有:

E [ ∥ ϵ i ∥ 2 2 ] = Tr ( M ( w i ) b ) \mathbb{E}[\|\epsilon_i\|_2^2] = \text{Tr}\left(\frac{M(w_i)}{b}\right) E[ϵi22]=Tr(bM(wi))

并且:

E [ ∥ z i + 1 ∥ 2 2 ] = ∥ I − s Σ ∥ 2 2 E [ ∥ z i ∥ 2 2 ] + s 2 b Tr ( M ( w i ) ) \mathbb{E}[\|z_{i+1}\|_2^2]=\|I - s \Sigma\|_2^2\mathbb{E}[\|z_i\|_2^2] +\frac{s^2}{b} \text{Tr}(M(w_i)) E[zi+122]=IsΣ22E[zi22]+bs2Tr(M(wi))

为了确保 E [ ∥ z i ∥ 2 2 ] \mathbb{E}[\|z_i\|_2^2] E[zi22]的有界性,我们需要: ∥ I − s Σ ∥ 2 2 ≤ 1 \|I- s \Sigma\|_2^2\leq 1 IsΣ221

即:

∥ Σ ∥ 2 ≤ 2 s \|\Sigma\|_2\leq \frac{2}{s} ∥Σ2s2

并且我们需要控制噪声项:

s 2 b Tr ( M ( w i ) ) ≤ C \frac{s^2}{b} \text{Tr}(M(w_i)) \leq C bs2Tr(M(wi))C

根据题目中的对齐条件:

Tr ( M ( w ) Σ ) 2 ( Loss ( w ) ) 3 / 2 ∥ Σ ∥ F 2 ≥ δ \frac{\text{Tr}(M(w) \Sigma)}{2 (\text{Loss}(w))^{3/2}\|\Sigma\|_F^2}\geq \delta 2(Loss(w))3/2∥ΣF2Tr(M(w)Σ)δ

我们有:

Tr ( M ( w ) Σ ) ≥ 2 δ ( Loss ( w ) ) 3 / 2 Σ ∥ F 2 \text{Tr}(M(w) \Sigma) \geq 2 \delta (\text{Loss}(w))^{3/2}\Sigma\|_F^2 Tr(M(w)Σ)2δ(Loss(w))3/2ΣF2

由于 Tr ( M ( w ) ) = Tr ( M ( w ) l ) ≤ ∥ Σ ∥ 2 Tr ( M ( w ) ) \text{Tr}(M(w)) = \text{Tr}(M(w) l)\leq \|\Sigma\|_2 \text{Tr}(M(w)) Tr(M(w))=Tr(M(w)l)∥Σ2Tr(M(w)),我们有: Tr ( M ( w ) ) ≤ Tr ( M ( w ) Σ ) ∥ Σ ∥ 2 \text{Tr}(M(w)) \leq \frac{\text{Tr}(M(w) \Sigma)}{\|\Sigma\|_2} Tr(M(w))∥Σ2Tr(M(w)Σ)

因此:

Tr ( M ( w ) ) ≤ 2 δ ( Loss ( w ) ) 3 / 2 ∥ Σ ∥ F 2 ∥ Σ ∥ 2 \text{Tr}(M(w)) \leq \frac{2 \delta (\text{Loss}(w))^{3/2} \|\Sigma\|_F^2}{\|\Sigma\|_2} Tr(M(w))∥Σ22δ(Loss(w))3/2∥ΣF2

为了确保 E [ Loss ( w t ) ] \mathbb{E}[\text{Loss}(w_t)] E[Loss(wt)]有界,我们需要满足:

s 2 b ⋅ 2 δ ( Loss ( w ) ) 3 / 2 ∥ Σ ∥ F 2 ∥ Σ ∥ 2 ≤ C \frac{s^2}{b} \cdot \frac{2 \delta (\text{Loss}(w))^{3/2}\|\Sigma\|_F^2}{\|\Sigma\|_2}\leq C bs2∥Σ22δ(Loss(w))3/2∥ΣF2C

简化并得出:

∥ Σ ∥ F ≤ b / δ s \|\Sigma\|_F \leq \frac{\sqrt{b/\delta}}{s} ∥ΣFsb/δ

综上,我们得到了独立于维度的界,这证明了随机梯度下降的有界性条件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/2391.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

新160个crackme - 091-DOSKEY-CRACKME2

运行分析 需破解Name和Password PE分析 upx壳,32位 手动脱壳 x32dbg打开程序,按一下F8,根据ESP定律,在此处下断点按一下F9,两下F8,来到OEP处00401000打开Scylla,点击转储保存文件点击IAT自动搜索…

Python(包和模块)

包 定义 包是将模块以文件夹的组织形式进行分组管理的方法,以便更好地组织和管理相关模块。 包是一个包含一个特殊的__init__.py文件的目录,这个文件可以为空,但必须存在,以标识目录为Python包。 包可以包含子包(子…

ClickHouse安装

一,ClickHouse介绍 ClickHouse 是一个开源的列式数据库管理系统(Column-Oriented DBMS),由俄罗斯的 Yandex 公司开发。它最初是为 Yandex 的 Metrica 分析服务设计的,用于处理大规模的数据分析任务。ClickHouse 能够提…

网络设置:静态IP与动态IP,何去何从?

在配置网络设备时,一个基础而重要的选择便是决定使用静态IP地址还是动态IP地址。这一决策直接影响到网络的连接性、管理便捷性以及安全性。静态IP与动态IP各有其独特的优势与适用场景,选择何种方式,需根据实际需求与网络环境来权衡。本文旨在…

po、dto、vo的使用场景

现在项目中有两类模型类:DTO数据传输对象、PO持久化对象,DTO用于接口层向业务层之间传输数据,PO用于业务层与持久层之间传输数据,有些项目还会设置VO对象,VO对象用在前端与接口层之间传输数据,如下图&#…

不用买PSP,画质甚至更好,这款免费神器让你玩遍经典游戏

作为掌机游戏爱好者的福音,PPSSPP模拟器为玩家带来了前所未有的PSP游戏体验,彻底改变了掌机游戏的体验方式。这款精湛的软件不仅完美复刻了PSP主机的游戏体验,更通过先进的模拟技术,将经典游戏提升到了全新的高度。对于那些珍藏PS…

如何新建CANoe工程

本文将从启动CANoe软件开始,一步步引导您完成新工程的创建与基本配置,确保您的仿真测试工作能够顺利进行。 启动CANoe软件:打开CANoe软件,进入主界面。 新建工程:点击菜单栏的 File --> New --> CAN FD&#x…

Facebook群控策略详解

Facebook群控早在前几年就很火爆了,对于做Facebook营销或者电商的跨境选手来说,这是个不错的提高效率扩大增长的办法。具体来说,Facebook群控是一种通过同时管理多个Facebook账户进行自动化推广活动的方法,它可以实现自动发布帖子…

通讯概念-全双工、串行、同步等

1.单工,半双工,双工概念 2.串行和并行: 并行多根数据总线同时传输,需要考虑波特率情况,串行波特率可以很大,不需要考虑传输总线限制 3.同步和异步概念: 同步需要时钟同步,发送和接收…

经济下行,电商人效通过小程序快速实现多端引流

中国经济下行周期,消费者趋向于理性消费,更注重产品的实用性和性价比。中端商品的需求减少,低端消费人群的消费能力下降,导致“消费降级”现象明显。 许多线下实体店以及传统电商,仅仅依靠现在的模式,很难…

Fish Agent:集成 ASR 和 TTS 的端到端语音处理模型,支持多语言转换

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 🥦 微信公众号&#xff…

软件测试工程师面试整理 —— 编程与自动化!

在软件测试领域,编程与自动化是提升测试效率、覆盖率和可靠性的关键因素。掌握编程技术和自动化测试框架,能够帮助测试人员有效地执行大量重复性测试任务,并迅速反馈软件的质量状况。以下是编程与自动化在测试中的主要应用及相关技术介绍&…

04字符串算法/代码随想录

四、字符串 反转字符串 力扣344 遇到数组双指针真是太好用了&#xff0c;左右指针不断逼近即可&#xff0c;代码也很简单 class Solution {public void reverseString(char[] s) {int fast s.length - 1;int slow 0;while (slow < fast) {char temp s[fast];s[fast] s[…

Unreal5从入门到精通之如何使用C++实现一个剧情系统

前言 说到剧情系统,大家可能会说,UE的关卡序列Sequencer,做剧情不是很方便吗?没错,Sequencer确实方便,而且它可以让你为场景中的角色,物体等创建精确的动画,并使用关键帧来控制他们的运动和状态变化。 它还可以做相机的移动,剪辑,音效,特效等故事情节,相机特效,多…

袋鼠云产品功能更新报告12期|让数据资产管理更高效

本期&#xff0c;我们更新和优化了数据资产平台相关功能&#xff0c;为您提供更高效的产品能力。以下为第12期袋鼠云产品功能更新报告&#xff0c;请继续阅读。 一、【元数据】重点更新 &#xff5c;01 元数据管理优化&#xff0c;支持配置表生命周期 之前系统中缺少一个可以…

将多个commit合并成一个commit并提交

0 Preface/foreword 1 压缩多个commit方法 1.1 git merge --squash 主分支&#xff1a;main 开发分支&#xff1a;test 当前在test分支提交了8个commits&#xff0c;功能已经开发完成&#xff0c;需要将test分支合并到main分支&#xff0c;但是不想在合并时候&#xff0c;看…

大数据新视界 -- 大数据大厂之提升 Impala 查询效率:重写查询语句的黄金法则(下)(4/30)

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

我想让AI帮我生成一点不正经的东西……

前言 最近突发奇想&#xff1a;为啥我一定要不断得翻找各种壁纸呢&#xff1f;为啥就不能让AI给我生成一张专属的壁纸&#xff0c;上面有我喜欢的内容&#xff0c;这样&#xff0c;我这张壁纸就是独一无二的了&#xff01; 说干就干&#xff0c;小白默默打开了AI工具…… 点我…

17、电话号码的字母组合-cangjie

题目 17、电话号码的字母组合 思路 输入处理&#xff1a; 接收一个字符串 digits&#xff0c;表示手机键盘上的数字&#xff0c;数字可以对应不同的字母组合。 边界检查&#xff1a; 如果输入字符串 digits 为空&#xff0c;返回一个空的结果列表。 按钮映射&#xff1a; 初…

ZYNQ: AXI DMA 环路测试

环境 vivado 2022 vitis 2022 简介 DMA&#xff0c;即Direct Memory Access&#xff0c;指直接存储器访问。这是一种内存访问技术&#xff0c;允许某些计算机内部的硬件子系统&#xff08;如计算机外设&#xff09;独立地直接读写系统内存&#xff0c;而无需中央处理器&…