第一課 強化學習綜述
1.強化學習要解決的問題
2.強化學習的發(fā)展歷史
3.強化學習方法的分類
4.強化學習方法的發(fā)展趨勢
5.環(huán)境搭建實驗(Gym,TensorFlow等)
6.Gym環(huán)境的基本使用方法
7.TensorFlow基本使用方法
第二課 馬爾科夫決策過程
1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程
2.MDP基本元素:策略、回報、值函數(shù)、狀態(tài)行為值函數(shù)
3.貝爾曼方程
4.最優(yōu)策略
5.Python介紹及簡單的代碼演示
案例:構建機器人找金幣和迷宮的環(huán)境
第三課 基于模型的動態(tài)規(guī)劃方法
1.動態(tài)規(guī)劃概念介紹
2.策略評估過程介紹
3.策略改進方法介紹
4.策略迭代和值迭代
5.值迭代與最優(yōu)控制介紹
6.基于 python 的動態(tài)規(guī)劃方法演示
案例:實現(xiàn)基于模型的強化學習算法
第四課 蒙特卡羅方法
1.蒙特卡羅策略評估方法
2.蒙特卡羅策略改進方法
3.基于蒙特卡羅的強化學習方法
4.同策略和異策略強化學習
5.重要性采樣
6.基于 python 的蒙特卡羅強化學習方法演示
案例:利用蒙特卡羅方法實現(xiàn)機器人找金幣和迷宮
第五課 時序差分方法
1.DP,MC 和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法:Sarsa 方法
4.異策略TD方法:Q-learning 方法
5.N步預測及的前向和后向觀點
案例:Q-learning和Sarsa的實現(xiàn)
第六課 基于值函數(shù)逼近方法
1.值函數(shù)的參數(shù)化表示
2.值函數(shù)的估計過程
3.神經網絡基礎講解
4.DQN 方法介紹
5.DQN變種:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戲——flappy bird
第七課 策略梯度方法
1.策略梯度方法介紹
2.似然率策略梯度推導及重要性采樣視角推導
3.似然率策略梯度的直觀理解
4.常見的策略表示
5.常見的減小方差的方法:引入基函數(shù)法,修改估計值函數(shù)法
案例:利用gym和tensorflow實現(xiàn)小車倒立擺系統(tǒng),乒乓球游戲
第八課 TRPO方法介紹及推導
1.替代回報函數(shù)的構建
2.單調的改進策略
3.TRPO 實用算法介紹
4.共軛梯度法搜索可行方向
5.PPO方法
6.基于python的TRPO方法實現(xiàn)
案例:trpo算法和ppo算法實現(xiàn)
第九課 AC方法
1.隨機策略與確定性策略比較
2.隨機策略AC的方法
3.確定性策略梯度方法
4.DDPG 方法及實現(xiàn)
5.A3C方法講解
案例:基于 python 的 DDPG 方法實現(xiàn)
第十課 逆向強化學習
1.基于最大邊際的方法
2.學徒學習、MMP
3.結構化分類、神經逆向強化學習
4.基于概率模型的方法
5.最大熵、相對熵
6.深度逆向強化學習
案例:略