強化學習

主講老師：葉梓

課程領域：管理者技能提升培訓課程

課程詳情：

第一課強化學習綜述

1.強化學習要解決的問題

2.強化學習的發(fā)展歷史

3.強化學習方法的分類

4.強化學習方法的發(fā)展趨勢

5.環(huán)境搭建實驗（Gym，TensorFlow等）

6.Gym環(huán)境的基本使用方法

7.TensorFlow基本使用方法

第二課馬爾科夫決策過程

1.基本概念：馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

2.MDP基本元素:策略、回報、值函數(shù)、狀態(tài)行為值函數(shù)

3.貝爾曼方程

4.最優(yōu)策略

5.Python介紹及簡單的代碼演示

案例：構建機器人找金幣和迷宮的環(huán)境

第三課基于模型的動態(tài)規(guī)劃方法

1.動態(tài)規(guī)劃概念介紹

2.策略評估過程介紹

3.策略改進方法介紹

4.策略迭代和值迭代

5.值迭代與最優(yōu)控制介紹

6.基于 python 的動態(tài)規(guī)劃方法演示

案例：實現(xiàn)基于模型的強化學習算法

第四課蒙特卡羅方法

1.蒙特卡羅策略評估方法

2.蒙特卡羅策略改進方法

3.基于蒙特卡羅的強化學習方法

4.同策略和異策略強化學習

5.重要性采樣

6.基于 python 的蒙特卡羅強化學習方法演示

案例：利用蒙特卡羅方法實現(xiàn)機器人找金幣和迷宮

第五課時序差分方法

1.DP，MC 和TD方法比較

2.MC和TD方法偏差與方差平衡

3.同策略TD方法：Sarsa 方法

4.異策略TD方法：Q-learning 方法

5.N步預測及的前向和后向觀點

案例：Q-learning和Sarsa的實現(xiàn)

第六課基于值函數(shù)逼近方法

1.值函數(shù)的參數(shù)化表示

2.值函數(shù)的估計過程

3.神經網絡基礎講解

4.DQN 方法介紹

5.DQN變種：Double DQN, Prioritized Replay, Dueling Network

案例：用DQN玩游戲——flappy bird

第七課策略梯度方法

1.策略梯度方法介紹

2.似然率策略梯度推導及重要性采樣視角推導

3.似然率策略梯度的直觀理解

4.常見的策略表示

5.常見的減小方差的方法:引入基函數(shù)法，修改估計值函數(shù)法

案例：利用gym和tensorflow實現(xiàn)小車倒立擺系統(tǒng)，乒乓球游戲

第八課 TRPO方法介紹及推導

1.替代回報函數(shù)的構建

2.單調的改進策略

3.TRPO 實用算法介紹

4.共軛梯度法搜索可行方向

5.PPO方法

6.基于python的TRPO方法實現(xiàn)

案例：trpo算法和ppo算法實現(xiàn)

第九課 AC方法

1.隨機策略與確定性策略比較

2.隨機策略AC的方法

3.確定性策略梯度方法

4.DDPG 方法及實現(xiàn)

5.A3C方法講解

案例：基于 python 的 DDPG 方法實現(xiàn)

第十課逆向強化學習

1.基于最大邊際的方法

2.學徒學習、MMP

3.結構化分類、神經逆向強化學習

4.基于概率模型的方法

5.最大熵、相對熵

6.深度逆向強化學習

案例：略

其他課程

強化學習: 培訓課程

數(shù)據(jù)分析與數(shù)據(jù)挖掘: 培訓課程

人工智能之最新自然語言處理技術與實戰(zhàn): 培訓課程

人工智能與深度學習: 培訓課程

人工智能自然語言處理: 培訓課程

授課見證

葉梓還沒有發(fā)布授課見證

推薦講師

馬成功

Office超級實戰(zhàn)派講師,國內IPO排版第一人

講師課酬：面議

常駐城市：北京市

學員評價：

賈倩

注冊形象設計師,國家二級企業(yè)培訓師,國家二級人力資源管理師

講師課酬：面議

常駐城市：深圳市

學員評價：

鄭惠芳

人力資源專家

講師課酬：面議

常駐城市：上海市

學員評價：

晏世樂

資深培訓師,職業(yè)演說家,專業(yè)咨詢顧問

講師課酬：面議

常駐城市：深圳市

學員評價：

文小林

實戰(zhàn)人才培養(yǎng)應用專家

講師課酬：面議

常駐城市：深圳市

學員評價：

日韩三区_亚洲日日操_午夜精品_中文字幕二区_91精品久久_岛国视频

強化學習

其他課程

馬成功

賈倩

鄭惠芳

晏世樂

文小林