强化学习导论 您所在的位置:网站首页 医学探索第二版答案chapter3 强化学习导论

强化学习导论

2023-10-02 11:32| 来源: 网络整理| 查看: 265

强化学习导论¶

本项目为《Reinforcement Learning: An Introduction》(第二版)中文翻译, 旨在帮助喜欢强化学习(Reinforcement Learning)的各位能更好的学习交流。

本书正在翻译中,请查看具体 进度。

目前第二版原版已完成,大家可以前往 下载。

深度强化学习¶

OpenAI 推出了 深度强化学习 Spinning Up 项目, 旨在让深度强化学习的学习变得更加简单,可以作为后续强化深度学习入门。

版权声明¶

本书的著作权归作者(Richard S. Sutton 和 Andrew G. Barto)所有。你可以:

下载、保存以及打印本书 网络链接、转载本书的部分或者全部内容,但是必须在明显处提供读者访问本书发布网站的链接 在你的程序中任意使用本书所附的程序代码,但是由本书的程序所引起的任何问题,作者不承担任何责任

你不可以:

以任何形式出售本书的电子版或者打印版 擅自印刷、出版本书 以纸媒出版为目的,改写、改编以及摘抄本书的内容 在课程设计、毕业设计以及作业中大段摘抄本书文字,或直接使用本书的程序代码 第二版前言 第一版前言 符号一览 第1章 简介 1.1 强化学习 1.2 例子 1.3 强化学习的要素 1.4 局限性和范围 1.5 拓展例子:井字棋 1.6 小结 1.7 强化学习早期历史 书目备注 第一部分 表格解决方法 第2章 多臂赌博机问题 2.1 一个 \(k\) 臂赌博机问题 2.2 行动价值方法 2.3 10臂赌博机试验 2.4 增量实现 2.5 追踪非平稳问题 2.6 乐观的初始值 2.7 上限置信区间动作选择 2.8 赌博机问题的梯度算法 2.9 关联搜索(语境赌博机) 2.10 总结 书目和历史评论 第3章 有限马尔可夫决策过程 3.1 个体环境接口 3.2 目标和奖励 3.3 回报和情节 3.4 情节和持续任务的统一符号 3.5 策略和价值函数 3.6 最优策略和最优价值函数 3.7 优化和近似 3.8 总结 书目和历史评论 第4章 动态规划 4.1 策略评估(预测) 4.2 策略提升 4.3 策略迭代 4.4 价值迭代 4.5 异步动态规划 4.6 广义策略迭代 4.7 动态规划的效率 4.8 总结 书目和历史评论 第5章 蒙特卡洛方法 5.1 蒙特卡洛预测 5.2 动作价值的蒙特卡洛估计 5.3 蒙特卡洛控制 5.4 非探索开端的蒙特卡洛控制 5.5 通过重要性采样的离策略预测 5.6 增量式的实现 5.7 离策略蒙特卡洛控制 5.8 *折扣感知的重要性采样 5.9 *每决策重要性抽样 5.10 小结 书目和历史评论 第6章 时序差分学习 6.1 TD预测 6.2 TD预测方法的优势 6.3 TD(0)的最优性 6.4 Sarsa:在策略TD控制 6.5 Q-learning:离策略TD控制 6.6 预期的Sarsa 6.8 最大化偏差和双学习 6.9 游戏,Afterstates和其他特殊情况 6.10 总结 书目和历史评论 第7章 \(n\) 步引导(Bootstrapping)方法 7.1 \(n\) 步TD预测 7.2 \(n\) 步Sarsa 7.3 \(n\) 步离策略学习 7.4 *具有控制变量的每个决策(per-decision)方法 7.5 无重要性采样的离策略学习:n步树备份算法 7.6 *统一算法:n步 \(Q(\sigma)\) 7.7 总结 书目和历史评论 第8章 表格方法规划和学习 8.1 模型和规划 8.2 Dyna:集成规划,行动和学习 8.3 当模型错误时 8.4 优先扫描 8.5 预期与样本更新 8.6 轨迹采样 8.7 实时动态规划 8.8 决策时规划 8.9 启发式搜索 8.10 Rollout算法 8.11 蒙特卡洛树搜索 8.12 本章总结 8.13 第一部分总结:维度 书目和历史评论 第二部分 近似解决方法 第9章 在策略预测近似方法 9.1 价值函数近似 9.2 预测目标(\(\overline{\mathrm{VE}}\)) 9.3 随机梯度和半梯度方法 9.4 线性方法 9.5 线性方法的特征构造 9.6 手动选择步长参数 9.7 非线性函数近似:人工神经网络 9.8 最小二乘TD 9.9 基于内存的函数近似 9.10 基于核的函数近似 9.11 深入研究在策略学习:兴趣和重点 9.12 总结 书目和历史评论 第10章 在策略控制近似方法 10.1 回合半梯度控制 10.2 半梯度n步Sarsa 10.3 平均奖励:持续任务的新问题设置 10.4 弃用折扣设置 10.5 差分半梯度n步Sarsa 10.6 总结 书目和历史评论 第11章 *离策略近似方法 11.1 半梯度方法 11.2 离策略发散例子 11.3 致命的三元组 11.4 线性价值函数几何 11.5 Bellman误差中的梯度下降 11.6 Bellman误差是不可学习的 11.7 梯度TD方法 11.8 强调TD方法(Emphatic-TD) 11.9 减小误差 11.10 总结 书目和历史评论 第12章 资格迹(Eligibility Traces) 12.1 \(\lambda\) 回报 12.2 TD(\(\lambda\)) 12.3 \(n\) 步截断 \(\lambda\) 回报方法 12.4 重做更新:在线 \(\lambda\) 回报算法 12.5 真正的在线TD(\(\lambda\)) 12.6 蒙特卡洛学习中的Dutch迹 12.7 Sarsa(\(\lambda\)) 12.8 变量 \(\lambda\) 和 \(\gamma\) 12.9 具有控制变量的离策略迹 12.10 Watkins的Q(\(\lambda\))到Tree-Backup(\(\lambda\)) 12.11 具有迹的稳定离策略方法 12.12 实施问题 12.13 结论 书目和历史评论 第13章 策略梯度方法 13.1 策略近似及其优势 13.2 策略梯度定理 13.3 强化:蒙特卡罗策略梯度 13.4 带基线强化 13.5 演员-评论家方法 13.6 持续问题的策略梯度 13.7 持续动作的策略参数化 13.8 总结 书目和历史评论 第三部分 深入研究 第14章 心理学 14.1 预测与控制 14.2 经典条件反射 第15章 神经科学 15.1 神经科学基础 15.2 收益信号、强化信号、价值和预测误差 15.3 收益预测误差假说 15.4 多巴胺 15.5 收益预测误差假说的实验支持 15.6 TD误差/多巴胺对应 15.7 神经“行动器-评判器” 15.8 行动器与评判器学习规则 15.9 享乐主义神经元 15.10 集体强化学习 15.11 大脑中的基于模型的算法 15.12 成瘾 15.13 本章小结 参考文献和历史评注 第16章 应用及案例分析 第17章 前沿技术 参考文献 索引 模块索引 搜索页面


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有