目录标题
- 一、什么是强化学习
- 二、强化学习的环境
- 三、强化学习的目标
- 四、强化学习中的数据从哪里来
- 五、强化学习的独特性
一、什么是强化学习
强化学习是机器通过与环境交互来实现目标的一种计算方法。
机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。
这种交互式迭代进行的,机器的目标是最大化在多轮交互过程中获得的累积奖励的期望。
相比于有监督学习中的“模型”,强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号。
智能体和环境之间的交互方式的流程:
- 在每一轮交互中,智能体感知到环境目前所处的状态,经过自身的计算给出本轮的动作,并将其作用到环境中;
- 环境得到智能体的动作后,产生相应的即时奖励信号并发生相应的状态转移;
- 智能体在下一轮交互中感知新的环境状态,以此类推。
智能体三要素 { 1 、感知:智能体在某种程度上感知环境的状态,从而知道自己所处的现状。 2 、决策: { 智能体根据当前的状态计算出到达目标需要采取的动作的过程叫做决策。 策略是智能体最终体现出的智能形式,也是不同智能体之间的核心区别。 3 、奖励: { 环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。 这个标量信号是用来衡量智能体这一轮动作的好坏。 最大化累积奖励期望是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标。 智能体三要素 \begin{cases} 1、感知 :智能体在某种程度上感知环境的状态,从而知道自己所处的现状。\\ 2、决策: \begin{cases} 智能体根据当前的状态计算出到达目标需要采取的动作的过程叫做决策。\\ 策略是智能体最终体现出的智能形式,也是不同智能体之间的核心区别。 \end{cases}\\ 3、奖励:\begin{cases}环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。\\ 这个标量信号是用来衡量智能体这一轮动作的好坏。\\ 最大化累积奖励期望是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标。 \end{cases} \end{cases} 智能体三要素⎩ ⎨ ⎧1、感知:智能体在某种程度上感知环境的状态,从而知道自己所处的现状。2、决策:{智能体根据当前的状态计算出到达目标需要采取的动作的过程叫做决策。策略是智能体最终体现出的智能形式,也是不同智能体之间的核心区别。3、奖励:⎩ ⎨ ⎧环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。这个标量信号是用来衡量智能体这一轮动作的好坏。最大化累积奖励期望是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标。
二、强化学习的环境
对于一个随机过程,最关键的要素就是状态以及状态转移的条件概率分布。
如果在环境这样一个自身演变的随机过程中加入一个外来的干扰因素,即智能体的动作,那么环境的下一刻的状态的概率分布将由当前状态和智能体的动作来共同决定,用最简单的数学公式表示如下:
下一状态 ∼ P ( ⋅ ∣ 当前状态,智能体的动作 ) 下一状态 \sim P(\cdot \vert 当前状态,智能体的动作) 下一状态∼P(⋅∣当前状态,智能体的动作)
根据上式可知,智能体决策的动作作用到环境中,使得环境发生相应的状态改变,而智能体接下来则需要再新的状态下进一步做出决策。
总结:
与面向决策任务的智能体进行交互是一个动态的随机过程,其未来状态的分布由当前状态和智能体决策的动作来共同决定,并且每一轮状态转移都伴随着两方面的随机性。
随机性 { 1 、智能体决策的动作的随机性 2 、环境基于当前状态和智能体动作来采样下一刻状态的随机性 随机性\begin{cases} 1、智能体决策的动作的随机性 \\ 2、环境基于当前状态和智能体动作来采样下一刻状态的随机性\end{cases}\\ 随机性{1、智能体决策的动作的随机性2、环境基于当前状态和智能体动作来采样下一刻状态的随机性
三、强化学习的目标
根据环境的动态性可以得出,即使环境和智能体策略不变,智能体的初始状态不变,智能体和环境交互产生的结果也很可能是不同的,对应获得的回报也会不同。
因此,在强化学习中,我们关注汇报的期望,并将其定义为价值(value),这就是强化学习中智能体学习的优化目标。
但是价值的计算有些复杂,因为需要对交互过程中每一轮智能体采取动作的概率分布和环境相应的状态转移的概率分布做积分运算。
四、强化学习中的数据从哪里来
从数据层面分析有监督学习和强化学习的区别:
有监督学习的任务建立在从给定的数据分布中采样得到的训练数据集上,通过优化在训练数据集中设定的目标函数(如最小化预测误差)来找到模型的最优参数。训练数据集中的数据分布是完全不变的。
在强化学习中,数据是在智能体与环境交互的过程中得到的,如果智能体不采取某个决策动作,那么该动作对应的数据就永远无法被观测到,所以当前智能体的训练数据来自之前智能体的决策结果。因此,智能体的策略不同,与环境交互所产生的数据分布就不同。
强化学习中,有一个关于数据分布的重要概念:占用度量(state-action pair)。
简单陈述:归一化的占用度量用于衡量在一个智能体决策与一个动态环境的交互的过程中,采样到一个具体的状态动作对(state-action pair)
占用度量的性质:给定两个策略及其与一个动态环境交互得到的两个占用度量,那么当且仅当这两个占用度量相同时,这两个策略相同。同理,如果一个智能体的策略有所改变,那么它和环境交互得到的占用度量也会相应改变。
强化学习的核心:
- 强化学习的策略在训练中会不断更新,其对应的数据分布(即占用度量)也会相应地改变。因此,强化学习的一大难点在于,智能体看到的数据分布是随着智能体的学习而不断发生改变的。
- 由于奖励建立在状态动作对之上,一个策略对应的价值其实就是一个占用度量下对应的奖励的期望,因此寻找最优策略对应着寻找最优占用度量。
五、强化学习的独特性
关于一般的有监督学习和强化学习的区别:
对于一般的有监督学习任务,我们的目标是找到一个最优的模型函数,使其在训练数据集上最小化一个给定的损失函数。在训练数据独立同分布的假设下,这个优化目标表示最小化模型在整个数据分布上的泛化误差,可以用公式表示如下:
最优模型 = arg min 模型 E ( 特征,标签 ) ∼ 数据分布 [ 损失函数 ( 标签,模型(特征) ) ] 最优模型=\argmin_{模型} \mathbb{E}_{(特征,标签) \sim 数据分布} [损失函数(标签,模型(特征))] 最优模型=模型argminE(特征,标签)∼数据分布[损失函数(标签,模型(特征))]
强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值,策略的价值可以等价转换成奖励函数在策略的占用度量上的期望。
最优策略 = arg max 策略 E ( 状态,动作 ) ∼ 策略的占用度量 [ 奖励函数 ( 状态,动作 ) ] 最优策略=\argmax_{策略} \mathbb{E}_{(状态,动作) \sim 策略的占用度量} [奖励函数(状态,动作)] 最优策略=策略argmaxE(状态,动作)∼策略的占用度量[奖励函数(状态,动作)]
有监督学习和强化学习的相似点和不同点:
有监督学习 | 强化学习 | ||
---|---|---|---|
相似点 | 优化目标相似,都是优化在某个数据分布下的一个分数值的期望 | ||
区别 | 优化途径 | 优化模型;修改目标函数而数据分布不变 | 改变策略;修改数据分布而目标函数不变 |
范式 | 关注寻找一个模型,使其在给定数据分布下得到的损失函数的期望最小 | 寻找一个智能体策略,使其在与动态环境交互的过程中产生最优的数据分布,即最大化该分布下一个给定奖励函数的期望 |