强化学习导论

2023-10-02 11:32| 来源: 网络整理| 查看: 265

强化学习导论¶

本项目为《Reinforcement Learning: An Introduction》（第二版）中文翻译，旨在帮助喜欢强化学习（Reinforcement Learning）的各位能更好的学习交流。

本书正在翻译中，请查看具体进度。

目前第二版原版已完成，大家可以前往下载。

深度强化学习¶

OpenAI 推出了深度强化学习 Spinning Up 项目，旨在让深度强化学习的学习变得更加简单，可以作为后续强化深度学习入门。

本书的著作权归作者(Richard S. Sutton 和 Andrew G. Barto)所有。你可以：

下载、保存以及打印本书网络链接、转载本书的部分或者全部内容，但是必须在明显处提供读者访问本书发布网站的链接在你的程序中任意使用本书所附的程序代码，但是由本书的程序所引起的任何问题，作者不承担任何责任

你不可以：

以任何形式出售本书的电子版或者打印版擅自印刷、出版本书以纸媒出版为目的，改写、改编以及摘抄本书的内容在课程设计、毕业设计以及作业中大段摘抄本书文字，或直接使用本书的程序代码第二版前言第一版前言符号一览第1章简介 1.1 强化学习 1.2 例子 1.3 强化学习的要素 1.4 局限性和范围 1.5 拓展例子：井字棋 1.6 小结 1.7 强化学习早期历史书目备注第一部分表格解决方法第2章多臂赌博机问题 2.1 一个 \(k\) 臂赌博机问题 2.2 行动价值方法 2.3 10臂赌博机试验 2.4 增量实现 2.5 追踪非平稳问题 2.6 乐观的初始值 2.7 上限置信区间动作选择 2.8 赌博机问题的梯度算法 2.9 关联搜索（语境赌博机） 2.10 总结书目和历史评论第3章有限马尔可夫决策过程 3.1 个体环境接口 3.2 目标和奖励 3.3 回报和情节 3.4 情节和持续任务的统一符号 3.5 策略和价值函数 3.6 最优策略和最优价值函数 3.7 优化和近似 3.8 总结书目和历史评论第4章动态规划 4.1 策略评估（预测） 4.2 策略提升 4.3 策略迭代 4.4 价值迭代 4.5 异步动态规划 4.6 广义策略迭代 4.7 动态规划的效率 4.8 总结书目和历史评论第5章蒙特卡洛方法 5.1 蒙特卡洛预测 5.2 动作价值的蒙特卡洛估计 5.3 蒙特卡洛控制 5.4 非探索开端的蒙特卡洛控制 5.5 通过重要性采样的离策略预测 5.6 增量式的实现 5.7 离策略蒙特卡洛控制 5.8 *折扣感知的重要性采样 5.9 *每决策重要性抽样 5.10 小结书目和历史评论第6章时序差分学习 6.1 TD预测 6.2 TD预测方法的优势 6.3 TD(0)的最优性 6.4 Sarsa：在策略TD控制 6.5 Q-learning：离策略TD控制 6.6 预期的Sarsa 6.8 最大化偏差和双学习 6.9 游戏，Afterstates和其他特殊情况 6.10 总结书目和历史评论第7章 \(n\) 步引导（Bootstrapping）方法 7.1 \(n\) 步TD预测 7.2 \(n\) 步Sarsa 7.3 \(n\) 步离策略学习 7.4 *具有控制变量的每个决策（per-decision）方法 7.5 无重要性采样的离策略学习：n步树备份算法 7.6 *统一算法：n步 \(Q(\sigma)\) 7.7 总结书目和历史评论第8章表格方法规划和学习 8.1 模型和规划 8.2 Dyna：集成规划，行动和学习 8.3 当模型错误时 8.4 优先扫描 8.5 预期与样本更新 8.6 轨迹采样 8.7 实时动态规划 8.8 决策时规划 8.9 启发式搜索 8.10 Rollout算法 8.11 蒙特卡洛树搜索 8.12 本章总结 8.13 第一部分总结：维度书目和历史评论第二部分近似解决方法第9章在策略预测近似方法 9.1 价值函数近似 9.2 预测目标（\(\overline{\mathrm{VE}}\)） 9.3 随机梯度和半梯度方法 9.4 线性方法 9.5 线性方法的特征构造 9.6 手动选择步长参数 9.7 非线性函数近似：人工神经网络 9.8 最小二乘TD 9.9 基于内存的函数近似 9.10 基于核的函数近似 9.11 深入研究在策略学习：兴趣和重点 9.12 总结书目和历史评论第10章在策略控制近似方法 10.1 回合半梯度控制 10.2 半梯度n步Sarsa 10.3 平均奖励：持续任务的新问题设置 10.4 弃用折扣设置 10.5 差分半梯度n步Sarsa 10.6 总结书目和历史评论第11章 *离策略近似方法 11.1 半梯度方法 11.2 离策略发散例子 11.3 致命的三元组 11.4 线性价值函数几何 11.5 Bellman误差中的梯度下降 11.6 Bellman误差是不可学习的 11.7 梯度TD方法 11.8 强调TD方法（Emphatic-TD） 11.9 减小误差 11.10 总结书目和历史评论第12章资格迹（Eligibility Traces） 12.1 \(\lambda\) 回报 12.2 TD(\(\lambda\)) 12.3 \(n\) 步截断 \(\lambda\) 回报方法 12.4 重做更新：在线 \(\lambda\) 回报算法 12.5 真正的在线TD(\(\lambda\)) 12.6 蒙特卡洛学习中的Dutch迹 12.7 Sarsa(\(\lambda\)) 12.8 变量 \(\lambda\) 和 \(\gamma\) 12.9 具有控制变量的离策略迹 12.10 Watkins的Q(\(\lambda\))到Tree-Backup(\(\lambda\)) 12.11 具有迹的稳定离策略方法 12.12 实施问题 12.13 结论书目和历史评论第13章策略梯度方法 13.1 策略近似及其优势 13.2 策略梯度定理 13.3 强化：蒙特卡罗策略梯度 13.4 带基线强化 13.5 演员-评论家方法 13.6 持续问题的策略梯度 13.7 持续动作的策略参数化 13.8 总结书目和历史评论第三部分深入研究第14章心理学 14.1 预测与控制 14.2 经典条件反射第15章神经科学 15.1 神经科学基础 15.2 收益信号、强化信号、价值和预测误差 15.3 收益预测误差假说 15.4 多巴胺 15.5 收益预测误差假说的实验支持 15.6 TD误差／多巴胺对应 15.7 神经“行动器-评判器” 15.8 行动器与评判器学习规则 15.9 享乐主义神经元 15.10 集体强化学习 15.11 大脑中的基于模型的算法 15.12 成瘾 15.13 本章小结参考文献和历史评注第16章应用及案例分析第17章前沿技术参考文献索引模块索引搜索页面

【本文地址】

公司简介

联系我们