【强化学习】基础概念

【强化学习】基础概念

news/2024/9/21 0:47:59/文章来源:https://blog.csdn.net/HYY_2000/article/details/133434896

1. Agent (智能体)

智能体是进行决策和学习的实体，它能感知环境的状态，并基于策略采取动作以影响环境。智能体的目标是通过与环境的交互获得最大化的累积奖励。

2. Environment (环境)

环境是智能体所处的外部系统，它与智能体交互。环境的状态可能对智能体可见（如游戏中的棋盘状态），也可能对智能体不可见（如对手的策略）。

例如：在无人驾驶中智能体是无人驾驶系统，环境则是汽车本身、其他的汽车及建筑等。

他们之间关系如下：

3. Action (动作)

动作是智能体基于观察到的状态所做出的决策或行为，影响环境的转移。动作可以是离散的（如移动棋子）或连续的（如调整机器人的速度）。

4. Reward (奖励)

奖励是环境提供的数值反馈，用于评估智能体的动作质量。智能体的目标是通过选择动作最大化长期累积的奖励。

5. History (历史)

历史是指在交互过程中智能体观察到的状态、执行的动作和获得的奖励的序列。它是智能体进行决策的依据。

6. State (状态)

状态是描述环境的特定情况或配置的信息。智能体状态（Agent State）指其内部的信息，而环境状态（Environment State）指外部的环境信息。

有时候智能体状态可能会等同于环境状态，相当于开了上帝视角（没有战争迷雾），这时候两个state等同。

7. Policy (策略)

策略是智能体在特定状态下选择动作的规则或概率分布。良好的策略能使智能体获得更高的奖励。

我们一般用 $\pi$ 来表示，表示在state下采取什么action（从 state 到 action的函数）。

8. Return (回报)

回报是指智能体在一个决策序列中获得的奖励的总和，可以用来评估策略的好坏以及选择最优策略。回报可以选择计算总奖励、折扣奖励以及平均奖励。

当游戏没有具体的轮次时，不确定时间，通常采用折扣奖励：

9. Model and State Transition (模型与状态转移)

模型是对环境的内部表示，用于预测状态转移和奖励。状态转移指从一个状态到另一个状态的转变过程。

10. Exploration and Exploitation (探索与利用)

在强化学习中，智能体需要在已知最佳动作的基础上进行利用以获得奖励，同时也需要探索未知动作以发现更优的策略。

Exploration 可以发现更多关于环境的信息

Exploitation 利用已知信息实现回报最大化

（我们需要定义一个概率使得模型进行随机探索，初期时占比应该更大一点。）

11. Model Free and Model Based (无模型学习与基于模型学习)

强化学习可以分为无模型学习，即不依赖模型直接学习策略，和基于模型学习，即利用环境模型进行规划和学习。

12. On-policy and off-policy (在策略和离策略)

在线策略方法（On-policy）是指智能体在学习过程中采用与它当前策略相符的样本进行学习。

（每一轮迭代的样本都直接拿来训练。）

离线策略方法（Off-policy）允许智能体从与其当前策略不符的样本中学习。

（具有经验缓冲区，可以随机抽样来训练。）

13. Classification of RL (强化学习分类)

13-1. Value based (基于值的方法)
- 这类方法主要关注值函数的学习，如Q-Learning、DQN等。
13-2. Policy based (基于策略的方法)
- 这类方法直接学习最优策略，如策略梯度算法等。
13-3. Actor-Critic (演员-评论家方法)
- 这类方法结合了值函数和策略的学习，同时使用演员（Actor）学习策略，评论家（Critic）学习值函数。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/145670.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

相关文章

【数据结构-图】图介绍

【数据结构-图】图介绍

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan 的首页,持续学…

阅读更多...

高数：第二章:一元函数微分学

高数：第二章:一元函数微分学

文章目录一、导数与微分1.导数的概念(1)导数的定义(2)左右导数(3)定理：可导与左右导数的关系(4)可导三要素(5)用导数定义判断可导性 2.微分的概念(1)微分的定义(2)微分与可导的关系 3.导数与微分的几何意义(1)导数 f ′ ( x 0 ) f(x_0) f′(x0)的几何意义&#x…

阅读更多...

1.6.C++项目：仿mudou库实现并发服务器之channel模块的设计

1.6.C++项目：仿mudou库实现并发服务器之channel模块的设计

项目完整版在： 文章目录一、channel模块：事件管理Channel类实现二、提供的功能三、实现思想（一）功能（二）意义（三）功能设计四、代码（一）框架（二…

阅读更多...

python监控ES索引数量变化

python监控ES索引数量变化

文章目录 1, datafram根据相同的key聚合2, 数据合并：获取采集10,20,30分钟es索引数据脚本测试验证 1, datafram根据相同的key聚合 # 创建df1 > json {key:A, value:1 } {key:B, value:2 } data1 {key: [A, B], value: [1, 2]} df1 pd.DataFrame(data1)# 创建d…

阅读更多...

【QT开发（6）】0926-QT 中加入 fastDDS 通信库的程序使用说明

【QT开发（6）】0926-QT 中加入 fastDDS 通信库的程序使用说明

在智能驾驶中，DDS有可能被广泛使用，因此推出这篇说明教程。 1、基于【QT开发（5）】教程的项目文档进行开发 2、安装DDS 查看《【eProsima Fast DDS（1）】安装eProsima Fast DDS》至少安装: foonathan_m…

阅读更多...

Sentinel学习（2）——sentinel的使用，引入依赖和配置对消费者进行流控对生产者进行熔断降级

Sentinel学习（2）——sentinel的使用，引入依赖和配置对消费者进行流控对生产者进行熔断降级

前言 Sentinel 是面向分布式、多语言异构化服务架构的流量治理组件，主要以流量为切入点，从流量路由、流量控制、流量整形、熔断降级、系统自适应过载保护、热点流量防护等多个维度来帮助开发者保障微服务的稳定性。本篇博客介绍sentinel的使用&#x…

阅读更多...

Source Insight 工具栏图标功能介绍

Source Insight 工具栏图标功能介绍

这篇文章并不介绍 Source Insight 的具体使用方法，这类教程网上有很多，这里只分析 Souce Insight 工具栏图标的功能。文章目录 Source Insight 简介Souce Insight 工具栏文件操作新建（CtrlN）打开（CtrlO）保…

阅读更多...

35 LRU缓存

35 LRU缓存

LRU缓存题解1 双map（差2个testcases）题解2 哈希表双向链表（参考）题解3 STL:listunordered_map 请你设计并实现一个满足 LRU (最近最少使用) 缓存约束的数据结构。实现 LRUCache 类： LRUCache(int capacity) 以正…

阅读更多...

无人直播间

无人直播间

失败！！ 采用 ffmpeg 技术进行推流推流代码： 【需要将rtmp替换为你的推流地址】 ffmpeg -re -stream_loop -1 -i "rain.mp4" -c copy -f flv ""推流地址获取以哔哩哔哩为例点击下方链接开播设置 - 个人中心 - …

阅读更多...

CCF CSP认证历年题目自练Day17

CCF CSP认证历年题目自练Day17

CCF CSP认证历年题目自练Day17 题目一试题编号： 201803-1 试题名称： 跳一跳时间限制： 1.0s 内存限制： 256.0MB 问题描述： 问题描述　　近来，跳一跳这款小游戏风靡全国，受到不少玩家的喜爱…

阅读更多...

小黑子的java项目开发理解

小黑子的java项目开发理解

小黑子的理解一、基于Maven模板构建的三种常见Java项目——基于maven二、通常的java目录结构utils层工具包model层（pojo层）exceptions层报错包dao层（mapper层）[impl包—查询数据库]service层定义接口 [impl—实现事务]control…

阅读更多...

Backblaze发布2023中期SSD故障数据质量报告

Backblaze发布2023中期SSD故障数据质量报告

作为一家在2021年在美国纳斯达克上市的云端备份公司，Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告，给大家提供了一份真实应用场景下的稳定性分析参考数据。本文我们主要看下Backblaze最新发布的2023中期SSD相关故障稳定性数据报告。…

阅读更多...

施耐德电气：勾勒未来工业愿景，赋能中国市场

施耐德电气：勾勒未来工业愿景，赋能中国市场

9月19日，第23届中国国际工业博览会（简称“工博会”）在上海隆重召开。作为全球能源管理和自动化领域的数字化转型专家，施耐德电气在工博会现场全方位展现了自身对未来工业的全新视野与深刻见解，不仅展示了其贯通企业设计…

阅读更多...

ubuntu 18.04安装libjasper-dev 亲测可行

ubuntu 18.04安装libjasper-dev 亲测可行

情况： ubuntu 18.04 LTS安装OpenCV 3.4.16之前，需要安装几个依赖项： sudo apt-get install build-essential sudo apt-get install cmake git libgtk2.0-dev pkg-config libavcodec-dev libavformat-dev libswscale-dev sudo apt-get instal…

阅读更多...

计算机网络 - 应用层

计算机网络 - 应用层

计算机网络 - 应用层计算机网络 - 应用层域名系统文件传送协议动态主机配置协议远程登录协议电子邮件协议 1. SMTP2. POP33. IMAP 常用端口Web 页面请求过程 1. DHCP 配置主机信息2. ARP 解析 MAC 地址3. DNS 解析域名4. HTTP 请求页面域名系统 DNS 是一个分布式数据库&a…

阅读更多...

python -m pip install --upgrade pip失败

python -m pip install --upgrade pip失败

显示这样的报错： You are using pip version 9.0.1, however version 23.2.1 is available. You should consider upgrading via the python -m pip install --upgrade pip command. 换源安装 python -m pip install --upgrade pip -i https://pypi.douban.com/s…

阅读更多...

基于SpringBoot的服装生产管理系统的设计与实现

基于SpringBoot的服装生产管理系统的设计与实现

目录前言一、技术栈二、系统功能介绍登录界面的实现系统主界面的实现用户管理模块的实现人事安排管理模块的实现工资管理模块的实现考勤管理模块的实现样板管理模块的实现三、核心代码 1、登录模块 2、文件上传模块 3、代码封装前言本协力服装厂服装生…

阅读更多...

TensorFlow-Federated简介与安装

TensorFlow-Federated简介与安装

1、简介 TensorFlow Federated（TFF）是一个用于机器学习和其他分布式数据计算的开源框架。TFF 的开发旨在促进联邦学习 （FL）的开放研究和实验。联邦学习是一种机器学习方法，其中一个共享的全局模型在许多参与的客户之间…

阅读更多...

【GDB】用 python 扩展 gdb

【GDB】用 python 扩展 gdb

用 python 扩展 GDB .gdbinit 文件中实现自定义命令 mv 代码如下 define mvif $argc 2delete $arg0# 注意新创建的断点编号和被删除断点的编号不同break $arg1elseprint "输入参数数目不对，help mv 以获得用法"end end# (gdb) help mv 会输出以下帮助文…

阅读更多...

centos 6使用yum安装软件

centos 6使用yum安装软件

1. 执行以下命令，查看当前操作系统 CentOS 版本。 cat /etc/centos-release返回结果如下图所示，则说明当前操作系统版本为 CentOS 6.9。 2. 执行以下命令，编辑 CentOS-Base.repo 和CentOS-Epel.repo文件。 vim /etc/yum.repos.d/CentOS-Bas…

阅读更多...

最新文章