一、Q-Learning
强化学习大致可以分为两类:无模型强化学习算法和基于模型的强化学习算法。无模型强化学习算法不会学习环境转换函数的模型来预测未来状态和奖励。Q 学习、深度 Q 网络和策略梯度方法是无模型算法,因为它们不创建环境转换函数的模型。
1、Q-学习算法
Q-学习算法的流程为:
1. 初始化您的 Q 表
2. 使用 Epsilon-Greedy 探索策略选择一个操作
3. 使用贝尔曼方程更新 Q 表
强化学习大致可以分为两类:无模型强化学习算法和基于模型的强化学习算法。无模型强化学习算法不会学习环境转换函数的模型来预测未来状态和奖励。Q 学习、深度 Q 网络和策略梯度方法是无模型算法,因为它们不创建环境转换函数的模型。
Q-学习算法的流程为:
1. 初始化您的 Q 表
2. 使用 Epsilon-Greedy 探索策略选择一个操作
3. 使用贝尔曼方程更新 Q 表
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/146958.html
如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!