随着Batch size增加,最佳learning rate如何选择?

最近读到《Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling》这篇论文,里面通过实验和理论证明了learning rate和batch size之间的关系,觉得很有意思,就简答写个blog记录下。

1. 简介

  • 在影响模型训练效果的所有参数中,batch size与learning rate是最为重要的。随着训练数据的增加,为了加快训练效率,batch size变的越来越大,那么如果选择最佳的learning rate就成为了难题。
  • 在SGD优化器中,一些研究表明,learning rate与batch size之间有平方根[1],线性关系[2]等。在比较大的batch size下,一些理论和实验表明:
    在这里插入图片描述
  • 在类Adam优化器中,batch size与learning rate之间并没有上面的关系。一开始learning rate随着batch size增大而增大,随后达到一个点后,会随着batch size增加而降低,同时,随着训练不断进行, B n o i s e B_{noise} Bnoise会不断后移。 具体关系可以参考下面的图:
    在这里插入图片描述
    根据empirical model[3],batch size与optimal learning rate之间有下述的关系:
    在这里插入图片描述
    这里的 B n o i s e B_{noise} Bnoise表示数据有效性与训练速度之间的trade-off,当Batch size等于 B n o i s e B_{noise} Bnoise时,optimal learning rate达到局部最大。对于SGD,当B<< B n o i s e B_{noise} Bnoise时,learning rate与batch size呈现线性关系。
    在这里插入图片描述
    对于Adam优化器,则呈现平方根关系。
    在这里插入图片描述

2. 理论

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 实验

在这里插入图片描述

  • 记录在每个batch size下,不同的实际处理的step数S与处理的训练样本数E在达到具体loss的时候对应的optimal learning rate,可以得到:
    在这里插入图片描述
    然后,用不同batch size下的optimal learning rate搜索结果估计出类Adam优化器的最大的optimal learning rate:
    在这里插入图片描述
    类SGD的最大optimal learning rate为:
    在这里插入图片描述

  • 训练参数如上表所示,总共训练了三个模型,分别为5层的CNN,ResNet18及DiltilGPT2.
    在这里插入图片描述
    从上图中可以看出,在达到 B n o i s e B_{noise} Bnoise前,optimal learning rate随着batch size增加而增加,当达到 B n o i s e B_{noise} Bnoise后,optimal learning rate会逐渐降低。同时,随着训练的不断进行, B n o i s e B_{noise} Bnoise会不断的向右偏移。
    在这里插入图片描述

4. 总结

  • 一开始learning rate随着batch size增大而增大,随后达到一个点后,会随着batch size增加而降低,同时,随着训练不断进行, B n o i s e B_{noise} Bnoise会不断后移。
  • 为了加速训练进程,可以设计自适应的learning rate和batch size。

5. 参考文献

  • [1] One weird trick for parallelizing convolutional neural networks
  • [2] Learning rates as a function of batch size: A random matrix theory approach to neural network training
  • [3] An empirical model of large-batch training

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1535069.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

PD虚拟机占用多少内存?使用电脑的虚拟内存会损害电脑吗

当我们讨论虚拟机及其对电脑性能的影响时&#xff0c;常常会出现两个关键问题&#xff1a;“PD虚拟机需要占用多少内存&#xff1f;”以及“启用电脑的虚拟内存是否会损害硬件&#xff1f;”对于依赖虚拟机进行日常工作的用户而言&#xff0c;这些问题尤为重要。 在本文中&…

Qt_按钮类控件

目录 1、QAbstractButton 2、设置带图标的按钮 3、设置带有快捷键的按钮 4、QRadioButtion&#xff08;单选按钮&#xff09; 4.1 QButtonGroup 5、QCheckBox 结语 前言&#xff1a; 按钮类控件是Qt中最重要的控件类型之一&#xff0c;该类型的控件可以通过鼠标的点击…

【案例72】Apache检测到目标 URL 存在 http host 头攻击漏洞的解决方案

在网络安全中&#xff0c;我们经常会遇到各种漏洞和攻击&#xff0c;其中 http host 头攻击漏洞是一种比较常见的安全问题。最近&#xff0c;我在处理一个项目时&#xff0c;检测到目标 URL 存在 http host 头攻击漏洞&#xff0c;下面我将分享两种Apache解决这个问题的方法。 …

浅谈线性表——队列

文章目录 一、什么是队列&#xff1f;二、队列底层三、自我实现一个队列3.1、链式存储3.1.1、单向链表实现队列的实现代码3.1.2、双向链表实现队列的实现代码 3.2、顺序存储3.2.1、循环队列的实现代码 一、什么是队列&#xff1f; 队列是只允许在一端进行插入数据操作&#xf…

性能诊断的方法(五):架构和业务诊断

关于性能诊断的方法&#xff0c;我们可以按照“问题现象—直接原因—问题根源”这样一个思路去归纳。我们先从问题的现象去入手&#xff0c;包括时间的分析、资源的分析和异常信息的分析。接下来再去分析产生问题现象的直接原因是什么&#xff0c;这里我们归纳了自上而下的资源…

Streaming OpenAI results from a Lambda function using Python

题意&#xff1a;使用 Python 从 Lambda 函数流式传输 OpenAI 结果 问题背景&#xff1a; Im trying to stream results from Open AI using a Lambda function on AWS using the OpenAI Python library. For the invoke mode I have: RESPONSE_STREAM. And, using the exampl…

调用智谱AI异步请求流式方法回复

官方代码可以去查看https://github.com/MetaGLM/zhipuai-sdk-java-v4/blob/main/src/test/java/com/zhipu/oapi/AllToolsTest.java 效果展示 提问效果: 回答效果: 1、Maven配置 <dependency><groupId>cn.bigmodel.openapi</groupId><artifactId>…

怎么很多张图片拼接成一张?试试这几种图片拼接方法!

怎么很多张图片拼接成一张&#xff1f;在繁忙的现代生活中&#xff0c;我们不断地捕捉和累积着各式各样的图像&#xff0c;它们如同记忆的珍珠&#xff0c;串联起生活的每一个瞬间&#xff0c;然而&#xff0c;随图片数量的激增&#xff0c;管理它们成为了一项挑战&#xff0c;…

JavaScript --函数作用域变量的使用规则(局部和访问)

访问规则&#xff0c;就近原则 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"w…

通过实时平衡生物反馈系统和XSENS动捕系统,改善康复训练流程

最新研究表明&#xff0c;通过将Xsens动作捕捉技术与创新的实时生物反馈设备相结合&#xff0c;可以有效改善患者的康复治疗方式。该解决方案有望显著提高患者的平衡控制和康复效果&#xff0c;帮助其应对各种平衡和运动挑战。 案例关键点一览 一种改善平衡训练的新装置&#x…

C++:STL详解(一)string类的基本介绍与使用方式

✨ Blog’s 主页: 白乐天_ξ( ✿&#xff1e;◡❛) &#x1f308; 个人Motto&#xff1a;实践是检验真理的唯一标准&#xff01;&#xff01;&#xff01;敲代码需要勤快点&#xff01;&#xff01;&#xff01;&#xff01; &#x1f4ab; 欢迎来到我的学习笔记&#xff0…

2024年度10款视频剪辑软件分享

在视频创作日益盛行的今天&#xff0c;一款强大而易于上手的视频剪辑软件成为了每位创作者不可或缺的工具。无论是专业电影制作人、Vlog博主&#xff0c;还是视频编辑爱好者&#xff0c;都能在市场上找到适合自己的那一款。以下是2024年度推荐的10款视频剪辑软件&#xff0c;涵…

OpenHarmony(鸿蒙南向开发)——轻量和小型系统三方库移植指南(二)

往期知识点记录&#xff1a; 鸿蒙&#xff08;HarmonyOS&#xff09;应用层开发&#xff08;北向&#xff09;知识点汇总 鸿蒙&#xff08;OpenHarmony&#xff09;南向开发保姆级知识点汇总~ OpenHarmony&#xff08;鸿蒙南向开发&#xff09;——轻量系统芯片移植指南(一) Op…

Windows 环境下 vscode 配置 C/C++ 环境

vscode Visual Studio Code&#xff08;简称 VSCode&#xff09;是一个由微软开发的免费、开源的代码编辑器。它支持多种编程语言&#xff0c;并提供了代码高亮、智能代码补全、代码重构、调试等功能&#xff0c;非常适合开发者使用。VSCode 通过安装扩展&#xff08;Extension…

Spring Cloud常见面试题

1.请说说你用过Spring Cloud哪些组件&#xff1f;这些组件分别有什么作用&#xff1f; 1、注册中心&#xff1a;Eureka、Nacos、Zookeeper、Consul&#xff1b;&#xff08;服务注册&#xff09; 2、负载均衡&#xff1a;Ribbon、LoadBalancer&#xff1b;&#xff08;客户端的…

SpringBoot框架下的房产销售系统开发

第一章 绪 论 1.1背景及意义 房产销售也都将通过计算机进行整体智能化操作&#xff0c;对于房产销售系统所牵扯的管理及数据保存都是非常多的&#xff0c;例如管理员&#xff1b;首页、个人中心、用户管理、销售经理管理、房源信息管理、房源类型管理、房子户型管理、交易订单管…

MYSQL数据库——InnoDB存储引擎

一.逻辑存储结构 二.架构 1.内存结构 1.缓冲池&#xff08;buffer_pool&#xff09; 缓冲池buffer_pool:缓冲池是主内存中的一个区域&#xff0c;里面可缓存磁盘上经常操作的真实数据&#xff0c;在执行增删改查操作时&#xff0c;先操作缓冲池中的数据&#xff08;若缓冲池没…

一个软件分发和下载的网站源码,带多套模板

PHP游戏应用市场APP软件下载平台网站源码手机版 可自行打包APP&#xff0c;带下载统计&#xff0c;带多套模板&#xff0c;带图文教程 代码下载&#xff1a;百度网盘

19. 删除链表的倒数第 N 个结点【 力扣(LeetCode) 】

零、LeetCode 原题 19. 删除链表的倒数第 N 个结点 一、题目描述 给你一个链表&#xff0c;删除链表的倒数第 n 个结点&#xff0c;并且返回链表的头结点。 进阶&#xff1a;你能尝试使用一趟扫描实现吗&#xff1f; 二、测试用例 示例 1&#xff1a; 输入&#xff1a;hea…

开放式耳机哪个品牌好?分享四款开放式蓝牙耳机排行榜前十名

对于喜欢带耳机的人来说&#xff0c;选择一款适合的开放式耳机是十分重要的。在繁重的学习任务中&#xff0c;一副音质优秀、佩戴舒适的耳机可以大大提高学习效率。在选择开放式蓝牙耳机时&#xff0c;大家常常会面临一个问题&#xff0c;那就是哪个品牌的质量最好&#xff1f;…