日韩三区_亚洲日日操_午夜精品_中文字幕二区_91精品久久_岛国视频

葉梓
  • 葉梓國內知名上市IT企業的資深技術專家,高級工程師
  • 擅長領域: 人工智能 大數據
  • 講師報價: 面議
  • 常駐城市:上海市
  • 學員評價: 暫無評價 發表評價
  • 助理電話: 13006597891 QQ:2116768103 微信掃碼加我好友
  • 在線咨詢

強化學習與深度強化學習

主講老師:葉梓
發布時間:2021-05-21 14:51:35
課程詳情:

【課程時長】

3天(6小時/天)

 

【課程簡介】

強化學習是當前最熱門的研究方向之一,廣泛應用于機器人學、電子競技等領域。本課程系統性的介紹了強化學習(深度強化學習)的基本理論和關鍵算法,包括:馬爾科夫決策過程、動態規劃法、蒙特卡羅法、時間差分法、值函數逼近法,策略梯度法等;以及該領域的最新前沿發展,包括:DQN及其變種、信賴域系方法、Actor-Critic類方法、多Agent深度強化學習等;同時也介紹大量的實際案例,包括深度強化學習中最著名的工程應用:Alpha Go。

 

【課程對象】

計算機相關專業本科;或理工科本科,具備初步的IT基礎知識的人員

 

第一天 強化學習

 

第一課 強化學習綜述

1.強化學習要解決的問題

2.強化學習方法的分類

3.強化學習方法的發展趨勢

4.環境搭建實驗(Gym,TensorFlow等)

5.Gym環境的基本使用方法

 

第二課 馬爾科夫決策過程

1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

2.MDP基本元素:策略、回報、值函數、狀態行為值函數

3.貝爾曼方程

4.最優策略

案例:構建機器人找金幣和迷宮的環境

 

第三課 基于模型的動態規劃方法

1.動態規劃概念介紹

2.策略評估過程介紹

3.策略改進方法介紹

4.策略迭代和值迭代

案例:實現基于模型的強化學習算法

 

第四課 蒙特卡羅方法

1.蒙特卡羅策略評估

2.蒙特卡羅策略改進

3.基于蒙特卡羅的強化學習

4.同策略和異策略

案例:利用蒙特卡羅方法實現機器人找金幣和迷宮

 

第五課 時序差分方法

1.DP,MC和TD方法比較

2.MC和TD方法偏差與方差平衡

3.同策略TD方法:Sarsa 方法

4.異策略TD方法:Q-learning 方法

案例:Q-learning和Sarsa的實現

 

第二天 從強化學習到深度強化學習

 

第一課 基于值函數逼近方法(強化學習)

1.維數災難與表格型強化學習

2.值函數的參數化表示

3.值函數的估計過程

4.常用的基函數

 

第二課 基于值函數逼近方法(深度學習與強化學習的結合)

1.簡單提一下深度學習

2.深度學習與強化學習的結合

3.DQN 方法介紹

4.DQN變種:Double DQN, Prioritized Replay, Dueling Network

案例:用DQN玩游戲——flappy bird

 

第三課 策略梯度方法(強化學習)

1.策略梯度方法介紹

2.常見的策略表示

3.常見的減小方差的方法:引入基函數法,修改估計值函數法

案例:利用gym和tensorflow實現小車倒立擺系統等

 

第四課 Alpha Go(深度學習與強化學習的結合)

1.MCTS

2.策略網絡與價值網絡

3.Alpha Go的完整架構

 

第五課 GAN(深度學習)

1.VAE與基本GAN

2.DCGAN

3.WGAN

案例:生成手寫數字的GAN

 

第三天 深度強化學習進階

 

第一課 AC類方法-1

1. PG的問題與AC的思路

2. AC類方法的發展歷程

3. Actor-Critic基本原理

 

第二課 AC類方法-2

1. DPG方法

2. DDPG方法

3. A3C方法

案例:AC類方法的案例

 

第三課 信賴域系方法-1

1.信賴域系方法背景

2.信賴域系方法發展路線圖

3.TRPO方法

案例:TRPO方法的案例

 

第四課 信賴域系方法-2

1.PPO方法

2.DPPO方法簡介

3.ACER方法

案例:PPO方法的案例

 

第五課 多Agent強化學習

1.矩陣博弈

2.納什均衡

3.多人隨機博弈學習

4.完全合作、完全競爭與混合任務

5.MADDPG

案例:MADDPG的案例等


授課見證
推薦講師

馬成功

Office超級實戰派講師,國內IPO排版第一人

講師課酬: 面議

常駐城市:北京市

學員評價:

賈倩

注冊形象設計師,國家二級企業培訓師,國家二級人力資源管理師

講師課酬: 面議

常駐城市:深圳市

學員評價:

鄭惠芳

人力資源專家

講師課酬: 面議

常駐城市:上海市

學員評價:

晏世樂

資深培訓師,職業演說家,專業咨詢顧問

講師課酬: 面議

常駐城市:深圳市

學員評價:

文小林

實戰人才培養應用專家

講師課酬: 面議

常駐城市:深圳市

學員評價:

主站蜘蛛池模板: 视频三区 | 天天夜天天操 | 男女深夜网站 | 久久不卡区 | 中文欧美日韩 | 久久99精品久久久97夜夜嗨 | 色婷婷一区二区三区四区 | 夫妻午夜影院 | 久国产 | 日韩一二区 | 中文字幕在线精品 | 日韩欧美1区2区 | 人妖videosex高潮另类 | 亚洲小说图片 | 国产欧美精品一区二区三区 | av一级在线观看 | 国产精品一二三区在线观看 | 亚洲精品一区二区三区在线 | 99久久精品国产一区二区三区 | 91精品国产综合久久福利软件 | 久久av网| 欧美综合一区二区三区 | 日韩欧美二区 | 色吊丝2288sds中文字幕 | 国产精品久久久久久久免费大片 | 久热免费| 亚洲天堂网站 | 99久久精品国产一区二区三区 | 日韩一区欧美一区 | 日韩久久中文字幕 | 好好的日在线视频 | 91在线视频免费观看 | 久久99久久99精品免视看婷婷 | 午夜免费网站 | 日本精品一区二区三区视频 | 欧美成视频 | 亚洲精品视频一区二区三区 | 亚洲欧美激情精品一区二区 | 亚洲香蕉 | 久草视频在线播放 | 成人国产精品色哟哟 |