强化学习介绍

目录标题

  • 一、什么是强化学习
  • 二、强化学习的环境
  • 三、强化学习的目标
  • 四、强化学习中的数据从哪里来
  • 五、强化学习的独特性

一、什么是强化学习

  强化学习是机器通过与环境交互来实现目标的一种计算方法。
在这里插入图片描述

  机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。
  这种交互式迭代进行的,机器的目标是最大化在多轮交互过程中获得的累积奖励的期望

  相比于有监督学习中的“模型”,强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号。

  智能体和环境之间的交互方式的流程:

  1. 在每一轮交互中,智能体感知到环境目前所处的状态,经过自身的计算给出本轮的动作,并将其作用到环境中;
  2. 环境得到智能体的动作后,产生相应的即时奖励信号并发生相应的状态转移;
  3. 智能体在下一轮交互中感知新的环境状态,以此类推。

智能体三要素 { 1 、感知:智能体在某种程度上感知环境的状态,从而知道自己所处的现状。 2 、决策: { 智能体根据当前的状态计算出到达目标需要采取的动作的过程叫做决策。 策略是智能体最终体现出的智能形式,也是不同智能体之间的核心区别。 3 、奖励: { 环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。 这个标量信号是用来衡量智能体这一轮动作的好坏。 最大化累积奖励期望是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标。 智能体三要素 \begin{cases} 1、感知 :智能体在某种程度上感知环境的状态,从而知道自己所处的现状。\\ 2、决策: \begin{cases} 智能体根据当前的状态计算出到达目标需要采取的动作的过程叫做决策。\\ 策略是智能体最终体现出的智能形式,也是不同智能体之间的核心区别。 \end{cases}\\ 3、奖励:\begin{cases}环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。\\ 这个标量信号是用来衡量智能体这一轮动作的好坏。\\ 最大化累积奖励期望是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标。 \end{cases} \end{cases} 智能体三要素 1、感知:智能体在某种程度上感知环境的状态,从而知道自己所处的现状。2、决策:{智能体根据当前的状态计算出到达目标需要采取的动作的过程叫做决策。策略是智能体最终体现出的智能形式,也是不同智能体之间的核心区别。3、奖励: 环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。这个标量信号是用来衡量智能体这一轮动作的好坏。最大化累积奖励期望是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标。

二、强化学习的环境

  对于一个随机过程,最关键的要素就是状态以及状态转移的条件概率分布。
  如果在环境这样一个自身演变的随机过程中加入一个外来的干扰因素,即智能体的动作,那么环境的下一刻的状态的概率分布将由当前状态和智能体的动作来共同决定,用最简单的数学公式表示如下:
下一状态 ∼ P ( ⋅ ∣ 当前状态,智能体的动作 ) 下一状态 \sim P(\cdot \vert 当前状态,智能体的动作) 下一状态P(当前状态,智能体的动作)
  根据上式可知,智能体决策的动作作用到环境中,使得环境发生相应的状态改变,而智能体接下来则需要再新的状态下进一步做出决策。

总结:
  与面向决策任务的智能体进行交互是一个动态的随机过程,其未来状态的分布由当前状态和智能体决策的动作来共同决定,并且每一轮状态转移都伴随着两方面的随机性。
随机性 { 1 、智能体决策的动作的随机性 2 、环境基于当前状态和智能体动作来采样下一刻状态的随机性 随机性\begin{cases} 1、智能体决策的动作的随机性 \\ 2、环境基于当前状态和智能体动作来采样下一刻状态的随机性\end{cases}\\ 随机性{1、智能体决策的动作的随机性2、环境基于当前状态和智能体动作来采样下一刻状态的随机性

三、强化学习的目标

  根据环境的动态性可以得出,即使环境和智能体策略不变,智能体的初始状态不变,智能体和环境交互产生的结果也很可能是不同的,对应获得的回报也会不同。
  因此,在强化学习中,我们关注汇报的期望,并将其定义为价值(value),这就是强化学习中智能体学习的优化目标。
  但是价值的计算有些复杂,因为需要对交互过程中每一轮智能体采取动作的概率分布和环境相应的状态转移的概率分布做积分运算。

四、强化学习中的数据从哪里来

  从数据层面分析有监督学习和强化学习的区别:
  有监督学习的任务建立在从给定的数据分布中采样得到的训练数据集上,通过优化在训练数据集中设定的目标函数(如最小化预测误差)来找到模型的最优参数。训练数据集中的数据分布是完全不变的。
  在强化学习中,数据是在智能体与环境交互的过程中得到的,如果智能体不采取某个决策动作,那么该动作对应的数据就永远无法被观测到,所以当前智能体的训练数据来自之前智能体的决策结果。因此,智能体的策略不同,与环境交互所产生的数据分布就不同。
  强化学习中,有一个关于数据分布的重要概念:占用度量(state-action pair)
  简单陈述:归一化的占用度量用于衡量在一个智能体决策与一个动态环境的交互的过程中,采样到一个具体的状态动作对(state-action pair)
  占用度量的性质:给定两个策略及其与一个动态环境交互得到的两个占用度量,那么当且仅当这两个占用度量相同时,这两个策略相同。同理,如果一个智能体的策略有所改变,那么它和环境交互得到的占用度量也会相应改变。
  强化学习的核心:

  1. 强化学习的策略在训练中会不断更新,其对应的数据分布(即占用度量)也会相应地改变。因此,强化学习的一大难点在于,智能体看到的数据分布是随着智能体的学习而不断发生改变的。
  2. 由于奖励建立在状态动作对之上,一个策略对应的价值其实就是一个占用度量下对应的奖励的期望,因此寻找最优策略对应着寻找最优占用度量。

五、强化学习的独特性

  关于一般的有监督学习和强化学习的区别:
  对于一般的有监督学习任务,我们的目标是找到一个最优的模型函数,使其在训练数据集上最小化一个给定的损失函数。在训练数据独立同分布的假设下,这个优化目标表示最小化模型在整个数据分布上的泛化误差,可以用公式表示如下:
最优模型 = arg min ⁡ 模型 E ( 特征,标签 ) ∼ 数据分布 [ 损失函数 ( 标签,模型(特征) ) ] 最优模型=\argmin_{模型} \mathbb{E}_{(特征,标签) \sim 数据分布} [损失函数(标签,模型(特征))] 最优模型=模型argminE(特征,标签)数据分布[损失函数(标签,模型(特征))]
  强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值,策略的价值可以等价转换成奖励函数在策略的占用度量上的期望。
最优策略 = arg max ⁡ 策略 E ( 状态,动作 ) ∼ 策略的占用度量 [ 奖励函数 ( 状态,动作 ) ] 最优策略=\argmax_{策略} \mathbb{E}_{(状态,动作) \sim 策略的占用度量} [奖励函数(状态,动作)] 最优策略=策略argmaxE(状态,动作)策略的占用度量[奖励函数(状态,动作)]

有监督学习和强化学习的相似点和不同点:
有监督学习强化学习
相似点优化目标相似,都是优化在某个数据分布下的一个分数值的期望
区别优化途径优化模型;修改目标函数而数据分布不变改变策略;修改数据分布而目标函数不变
范式关注寻找一个模型,使其在给定数据分布下得到的损失函数的期望最小寻找一个智能体策略,使其在与动态环境交互的过程中产生最优的数据分布,即最大化该分布下一个给定奖励函数的期望

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/4313.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【算法】【优选算法】滑动窗口(上)

目录 一、滑动窗口简介二、209.⻓度最⼩的⼦数组2.1 滑动窗口2.2 暴力枚举 三、3.⽆重复字符的最⻓⼦串3.1 滑动窗口3.2 暴力枚举 四、1004.最⼤连续1的个数III4.1 滑动窗口4.2 暴力枚举 五、1658.将x减到0的最⼩操作数5.1 滑动窗口5.2 暴力枚举 一、滑动窗口简介 其实就是利用…

软考高级之系统架构师系列之构件开发模型

如标题所述,本文面向于软考高级,具体来说是系统架构师。 有些概念,如生命周期,开发的几个阶段,不同的教程有些许出入。 本文偏理论,要在理解的基础上加以记忆,用于应付软考,有些地…

机器人零位、工作空间、坐标系及其变换,以UR5e机器人为例

机器人中的主要坐标系 在机器人中,常用的坐标系包括: 基坐标系(Base Frame):固定在机器人基座上的坐标系,用于描述机器人的整体位置和方向,是其他所有坐标系的参考点。 连杆坐标系&#xff08…

VMWARE ESXI VMFS阵列故障 服务器数据恢复

1:河南用户一台DELL R740 3块2.4T硬盘组的RAID5,早期坏了一个盘没有及时更换,这次又坏了一个,导致整组RAID5处于数据丢失的状态, 2:该服务器装的是VMware ESXI 6.7,用户把3块硬盘寄过来进行数据…

程序员开发速查表

作为一名苦逼的程序员,在开发的过程中,我们总是在各种编程语言中来回穿梭,忙完后端整前端,还得做一部分的运维工作,忙的我们有时候忘记语法,忘记编写规则,甚至混淆。这时候我们就希望有一个综合…

「Mac畅玩鸿蒙与硬件30」UI互动应用篇7 - 简易计步器

本篇将带你实现一个简易计步器应用,用户通过点击按钮增加步数并实时查看步数进度,目标步数为 10000 步。该项目示例展示了如何使用 Progress 组件和 Button 组件,并结合状态管理,实现交互式应用。 关键词 UI互动应用计步器Button…

直播系统搭建教程安装说明

需要安装的软件(宝塔【软件商店】中查找安装): 1.PHP7.0 ~ PHP7.3 需要安装的扩展:(宝塔【PHP管理】【安装扩展】中安装) *PDO PHP Extension * MBstring PHP Extension * CURL PHP Extension * Mylsqi PHP Extension * Redis PHP Extension * fileinfo PHP Extension …

@Async注解提升Spring Boot项目中API接口并发能力

文章目录 同步调用异步调用1: 启用异步支持2: 修改 Task 类异步回调基本概念使用 Future<String>使用 CompletableFuture<String>Future<String> 和 CompletableFuture<String>区别1. 基本概念2. 主要区别同步调用 同步调用是最直接的调用方式,调用方…

对齐自治 Aligned autonomy

对于有效的产品开发&#xff0c;我们想要的自主权不是 “随心所欲” &#xff0c;而是一种自主权&#xff0c;使团队能够自由行动&#xff0c;利用他们所有的能力朝着集体成果前进。这也称为“对齐自治”。 Aligned autonomy 2x2&#xff0c;来自 Spotify 的 Henrik Kniberg 工…

Spring Boot 与 Vue 共筑二手书籍交易卓越平台

作者介绍&#xff1a;✌️大厂全栈码农|毕设实战开发&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。 &#x1f345;获取源码联系方式请查看文末&#x1f345; 推荐订阅精彩专栏 &#x1f447;&#x1f3fb; 避免错过下次更新 Springboot项目精选实战案例 更多项目…

物理验证Calibre LVS Debug案例之通过deleteEmptyModule解决LVS问题

上周帮助T12nm A55训练营学员debug一个Calibre LVS问题&#xff0c;小编觉得挺好的一个问题。这个问题之前没有遇到过&#xff0c;今天分享给大家。 数字IC后端先进工艺设计实现之TSMC 12nm 6Track工艺数字IC后端实现重点难点盘点 下图所示为Calibre LVS的报告。从报告中看到…

【系统面试篇】进程与线程类(2)(笔记)——进程调度、中断、异常、用户态、核心态

目录 一、相关面试题 1. 进程的调度算法有哪些&#xff1f; 调度原则 &#xff08;1&#xff09;先来先服务调度算法 &#xff08;2&#xff09;最短作业优先调度算法 &#xff08;3&#xff09;高响应比优先调度算法 &#xff08;4&#xff09;时间片轮转调度算法 &am…

这下热闹了:电商巨头粗暴杀入物流自动化领域

导语 大家好&#xff0c;我是社长&#xff0c;老K。专注分享智能制造和智能仓储物流等内容。 在全球物流行业竞争日趋白热化的今天&#xff0c;一向以互联网和电商见长的阿里巴巴集团旗下菜鸟&#xff0c;突然以一记重拳杀入物流自动化设备领域。 其自主研发的直线窄带分拣机不…

新安装的Ubuntu 24.04.1安装Python模块报错?(error: externally-managed-environment)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 文章内容 📒📝 错误现象及原因📝 解决方案1. **创建虚拟环境**创建虚拟环境的步骤:2. **使用 pipx 管理应用**安装 `pipx`:3. **直接覆盖安装(不推荐)**4. **使用 `apt` 安装系统级包**📝 总结⚓️ 相关链接 ⚓️�…

前后端分离,Jackson,Long精度丢失

案例:后端接口放回一个Long数据 GetMapping("/testForLong")public Map<String, Object> testForLong() {Map<String, Object> map new HashMap<>();map.put("aaa", 1234567890123456789L);return map;}实际前端接收的数据 前后端数据…

【主机游戏】森林之子游戏介绍

《森林之子》是一款开放世界恐怖生存模拟游戏&#xff0c;玩家被派到孤岛上寻找失踪的亿万富翁&#xff0c;却陷入被食人生物占领的炼狱之地。他一经上线不仅饱受好评&#xff0c;还被玩家开发出来众多奇奇怪怪的玩法 https://pan.quark.cn/s/f903c978b071 当然他里边包含不限…

解线性方程组(一)

实验类型&#xff1a;●验证性实验 ○综合性实验 ○设计性实验 实验目的&#xff1a;进一步熟练掌握高斯顺序消去法解线性方程组的算法并编写程序&#xff0c;进一步熟练掌握高斯列主元消去法解线性方程组的算法并编写程序&#xff0c;提高编程能力和解算线性方程组问题的实践…

Ubuntu使用Qt虚拟键盘,支持中英文切换

前言 ​最近领导给了个需求&#xff0c;希望将web嵌入到客户端里面&#xff0c;做一个客户端外壳&#xff0c;可以控制程序的启动、停止、重启&#xff0c;并且可以调出键盘在触摸屏上使用(我们的程序虽然是BS架构&#xff0c;但程序还是运行在本地工控机上的)&#xff0c;我研…

数学建模(基于Python实现)--灰色关联分析法讲解,含案例

前言 这是去年底学数学建模老哥的建模课程笔记&#xff1b; 未来本人将陆陆续续的更新数学建模相关的一些基础算法&#xff0c;大家可以持续关注一下&#xff0c;主要在于运用&#xff1b; 提示&#xff1a;数学建模只有实战才能提升&#x1f525;​&#x1f525;​&#x1f…

jmeter结合ansible分布式压测--1数据准备

一、搭建ansible环境 ansible是基于python开发&#xff0c;通过ssh连接客户机执行任务。ansible可以批量系统配置、批量程序部署、批量运行命令等。 1、安装yum install ansible 2、检查ansible的版本:ansible --version 二、利用ansible在其他机器上准备压测数据 1、本地准…