时间安排 | 大 纲 | 具体内容 | 实操案例 | |
三天 | 关键点 | 1.强化学习的发展历程 2.马尔可夫决策过程 3.动态规划 4.无模型预测学习 5.无模型控制学习 6.价值函数逼近 7.策略梯度方法 8.深度强化学习-DQN算法系列 9.深度策略梯度-DDPG,PPO等 | ||
第一天 9:00-12:00 14:00-17:00 | 一、强化学习概述 | 1.强化学习介绍 2.强化学习与其它机器学习的不同 3.强化学习发展历史 4.强化学习典型应用 5.强化学习基本元素 6.强化学习算法分类 | ||
二、马尔科夫决策过程 | 1.马尔可夫性 2.马尔可夫决策过程 3.策略与价值 4.最优化原理 5.MDPs扩展 | |||
三、动态规划 | 1.动态规划 2.价值迭代 3.策略迭代 4.迭代策略评估 5.广义策略迭代 6.维数灾 | 1.python环境下简单扫地机器人环境 2.价值迭代python实现 3.策略迭代python实现 4.迭代策略评估python实现 | ||
四、无模型预测学习 | 1.蒙特卡洛方法 2.时间差分学习 3.n-步回报 4.TD(lambda) 5.资格迹 | 1.蒙特卡洛方法python实现 2.时间差分方法python实现 | ||
第二天 9:00-12:00 14:00-17:00 | 五、无模型控制学习 | 1.蒙特卡洛控制 2.Sarsa 3.重要性采样 4.Q-学习 4.Double Q学习 5.探索与利用 | 1. Sarsa方法python实现 2. Q学习方法python实现 3. Sarsa(lambda)方法python实现 | |
六、价值函数逼近 | 1.函数逼近器 2.线性函数逼近 3.常见的特征表示方法 4.价值迭代+离散化方法 5.Fitted Q Iteration 6.策略迭代+最小二乘 7.预测学习+随机梯度下降法 8.控制学习+随机梯度下降法 | 1. 离散化Q迭代方法python实现 2. LSPI方法python实现 | ||
七、策略梯度方法 | 1.基于策略的强化学习 2.有限差分策略梯度 3.解析法策略梯度 4.REINFORCE算法 5.Actor-Critic 6.策略梯度引入基准 7.自然梯度 8.确定型Actor-Critic | 1. 策略迭代方法python实现 2. actor-critic方法python实现 | ||
第三天 9:00-12:00 14:00-17:00 | 八、深度强化学习 | 1.Deep Q learning(DQN) 2.Double DQN 3.Dueling DQN 4.Prioritized Experience Replay 5.A3C/A2C 6.DDPG 7.PPO 8.SAC | 1.深度强化学习训练场-OpenAI Gym 安装与使用 2.Pytorch安装与使用 3.自动驾驶赛车任务 4.月球飞船降落任务 | |
实操解析与训练一 | 实验:倒立摆和冰壶控制实践 1.环境编写 2.算法设计 3.实验结果 高频问题: 如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练 关键点: 1.基于模型的离线强化学习方法 2.基于数据的在线强化学习方法 | |||
实操解析与训练二 | 实验:OpenAI Gym实践 1.Gym安装 2.Gym使用 3.强化学习 高频问题: 1.如何基于Gym实现强化学习训练与测试 关键点: 1.掌握马尔可夫决策过程 2.低维输入的强化学习方法 | |||
实操解析与训练三 | 实验:月球飞船降落任务 1.DQN/Double DQN/Dueling DQN 2.PER 高频问题: 1.深度强化学习网络训练稳定性 2.探索与利用 关键点: 1.经验回放技术的实现 2.目标网络更新 | |||
实操解析与训练四 | 实验:自动驾驶赛车任务 1.连续控制任务 2.策略梯度方法DDPG/PPO 高频问题: 1.适用于高维输入的连续控制任务的深度强化学习方法 关键点: 1.掌握DDPG和PPO具体编程实现 2.根据实际需求,选用合理的深度强化学习方法 |
更多回帖