店铺推荐
【推荐语】
1.详细讲解深度强化学习基础知识,内容丰富

2.提供多个实战案例,学习更有效,实践更有用

3.包含核心算法+PyTorch、OpenAI Gym等流行工具,新颖实用

4.作者在深度强化学习领域经验丰富,知识点梳理清晰,易懂易学
【作者】
Alexander Zai曾担任Codesmith(一个沉浸式的编码训练营)首席技术官和技术顾问、Uber 软件工程师、Bonjo和AmazonAI机器学习工程师,他也是开源深度学习框架Apache MXNet的贡献者。此外,他还是两家公司的联合创立人,其中一家曾是Y-combinator的参与者。 Brandon Brown从很小的时候就开始编程,大学期间做过兼职软件工程师,但最终选择投身医疗行业(在此期间,他在医疗保健科技领域担任软件工程师)。受深度强化学习的启发,他近期专注于计算精神病学的研究。
【内容】
本书先介绍深度强化学习的基础知识及相关算法,然后给出多个实战项目,以期让读者可以根据环境的直接反馈对智能体加以调整和改进,提升运用深度强化学习技术解决实际问题的能力。本书涵盖深度Q网络、策略梯度法、演员-评论家算法、进化算法、Dist-DQN、多智能体强化学习、可解释性强化学习等内容。本书给出的实战项目紧跟深度强化学习技术的发展趋势,且所有项目示例以Jupter Notebook样式给出,便于读者修改代码、观察结果并及时获取经验,能够带给读者交互式的学习体验。
本书适合有一定深度学习和机器学习基础并对强化学习感兴趣的读者阅读。
【目录】
第一部分基础篇
第1章什么是强化学习3
1.1深度强化学习中的“深度”4
1.2强化学习5
1.3动态规划与蒙特卡洛7
1.4强化学习框架9
1.5强化学习可以做什么12
1.6为什么是深度强化学习14
1.7教学工具:线图15
1.8后续内容概述17
小结18
第2章强化学习问题建模:马尔可夫决策过程19
2.1线图与本书的教学方法19
2.2解决多臂老虎机问题22
2.2.1探索与利用23
2.2.2贪婪策略24
2.2.3Softmax选择策略29
2.3应用老虎机算法优化广告投放31
2.3.1上下文老虎机31
2.3.2状态、动作和奖励32
2.4利用PyTorch构建网络33
2.4.1自动微分33
2.4.2构建模型34
2.5解决上下文老虎机问题35
2.6马尔可夫性质39
2.7预测未来奖励:价值和策略函数41
2.7.1策略函数42
2.7.2很优策略43
2.7.3价值函数43
小结44
第3章预测很好状态和动作:深度Q网络46
3.1Q函数46
3.2Q-learning导航47
3.2.1Q-learning是什么48
3.2.2应用于Gridworld游戏49
3.2.3超参数50
3.2.4贴现因子50
3.2.5构建网络52
3.2.6介绍Gridworld游戏引擎53
3.2.7构建Q函数的神经网络55
3.3防止灾难性遗忘:经验回放64
3.3.1灾难性遗忘64
3.3.2经验回放65
3.4利用目标网络提高稳定性69
学习的不稳定性70
3.5回顾74
小结76
第4章学习选择很好策略:策略梯度法77
4.1使用神经网络的策略函数77
4.1.1神经网络作为策略函数78
4.1.2随机策略梯度78
4.1.3探索80
4.2强化良好动作:策略梯度算法81
4.2.1定义目标81
4.2.2强化动作82
4.2.3对数概率84
4.2.4信用分配84
4.3与OpenAIGym配合85
4.3.1CartPole87
4.3.2OpenAIGymAPI87
4.4REINFORCE算法88
4.4.1创建策略网络88
4.4.2使智能体与环境交互89
4.4.3训练模型89
4.4.4完整训练循环91
4.4.5所得到的结论93
小结93
第5章利用演员-评论家算法解决更复杂的问题94
5.1重构价值-策略函数95
5.2分布式训练99
5.3演员-评论家优势算法104
5.4N-step演员-评论家算法112
小结116
第二部分进阶篇
第6章可替代的优化方法:进化算法119
6.1另一种强化学习方法119
6.2具有进化策略的强化学习121
6.2.1进化理论121
6.2.2进化实践123
6.3CartPole的遗传算法128
6.4进化算法的优缺点134
6.4.1进化算法探索更多134
6.4.2进化算法令人难以置信的样本密集性134
6.4.3模拟器135
6.5进化算法作为一种可扩展的替代方案135
6.5.1扩展的进化算法135
6.5.2并行与串行处理137
6.5.3扩展效率138
6.5.4节点间通信138
6.5.5线性扩展140
6.5.6扩展基于梯度的算法140
小结141
第7章Dist-DQN:获取完整故事142
7.1Q-learning存在的问题143
7.2再论概率统计147
7.2.1先验和后验148
7.2.2期望和方差149
7.3贝尔曼方程153
分布式贝尔曼方程153
7.4分布式Q-learning154
7.4.1使用Python表示概率分布154
7.4.2实现Dist-DQN162
7.5比较概率分布164
7.6模拟数据上的Dist-DQN167
7.7使用分布式Q-learning玩Freeway172
小结177
第8章好奇心驱动的探索178
8.1利用预测编码处理稀疏奖励179
8.2反向动态预测182
8.3搭建《超级马里奥兄弟》环境184
8.4预处理和Q网络186
8.5创建Q网络和策略函数188
8.6内在好奇心模块191
8.7可替代的内在奖励机制203
小结205
第9章多智能体强化学习206
9.1从单个到多个智能体206
9.2邻域Q-learning210
9.3一维伊辛模型213
9.4平均场Q-learning和二维伊辛模型221
9.5混合合作竞技游戏230
小结239
第10章强化学习可解释性:注意力和关系模型241
10.1带注意力和关系偏差的机器学习可解释性242
不变性和等变性243
10.2利用注意力进行关系推理244
10.2.1注意力模型245
10.2.2关系推理246
10.2.3自注意力模型251
10.3对MNIST实现自注意力253
10.3.1转换的MNIST254
10.3.2关系模块255
10.3.3张量缩并和爱因斯坦标记法258
10.3.4训练关系模块261
10.4多头注意力和关系DQN264
10.5双Q-learning270
10.6训练和注意力可视化271
10.6.1优选熵学习275
10.6.2课程学习275
10.6.3可视化注意力权重276
小结278
第11章总结:回顾和路线图280
11.1我们学到了什么280
11.2深度强化学习中的未知课题282
11.2.1优先经验回放282
11.2.2近端策略优化282
11.2.3分层强化学习和options框架283
11.2.4基于模型的规划283
11.2.5蒙特卡洛树搜索284
全书结语284
附录A数学、深度学习和
PyTorch285
A.1线性代数285
A.2微积分287
A.3深度学习290
A.4PyTorch291
参考资料295
返回顶部