,

您現(xiàn)在的位置：哪里有培訓(xùn)網(wǎng) > 公開課程培訓(xùn) > 其它課程培訓(xùn)課程

強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)

2025-07-02 04:57:41

講師：葉梓瀏覽次數(shù)：2943

課程介紹
日程安排
課程大綱
在線報(bào)名

課程描述INTRODUCTION

強(qiáng)化學(xué)習(xí)是當(dāng)前最熱門的研究方向之一，廣泛應(yīng)用于機(jī)器人學(xué)、電子競(jìng)技等領(lǐng)域。本課程系統(tǒng)性的介紹了強(qiáng)化學(xué)習(xí)（深度強(qiáng)化學(xué)習(xí)）的基本理論和關(guān)鍵算法，包括：馬爾科夫決策過(guò)程、動(dòng)態(tài)規(guī)劃法、蒙特卡羅法、時(shí)間差分法、值函數(shù)逼近法，策略梯度法等；以及該領(lǐng)域的*前沿發(fā)展，包括：DQN及其變種、信賴域系方法、Actor-Critic類方法、多Agent深度強(qiáng)化學(xué)習(xí)等；同時(shí)也介紹大量的實(shí)際案例，包括深度強(qiáng)化學(xué)習(xí)中最*的工程應(yīng)用：Alpha Go。

· IT人士· 技術(shù)總監(jiān)· 軟件工程師· 技術(shù)主管· 研發(fā)經(jīng)理

培訓(xùn)講師：葉梓

課程價(jià)格：￥元/人

培訓(xùn)天數(shù)：3天

日程安排SCHEDULE

課程大綱Syllabus

強(qiáng)化學(xué)習(xí)課程

第一天強(qiáng)化學(xué)習(xí)
第一課強(qiáng)化學(xué)習(xí)綜述
1.強(qiáng)化學(xué)習(xí)要解決的問(wèn)題
2.強(qiáng)化學(xué)習(xí)方法的分類
3.強(qiáng)化學(xué)習(xí)方法的發(fā)展趨勢(shì)
4.環(huán)境搭建實(shí)驗(yàn)（Gym，TensorFlow等）
5.Gym環(huán)境的基本使用方法

第二課馬爾科夫決策過(guò)程
1.基本概念：馬爾科夫性、馬爾科夫過(guò)程、馬爾科夫決策過(guò)程
2.MDP基本元素:策略、回報(bào)、值函數(shù)、狀態(tài)行為值函數(shù)
3.貝爾曼方程
4.最優(yōu)策略
案例：構(gòu)建機(jī)器人找金幣和迷宮的環(huán)境

第三課基于模型的動(dòng)態(tài)規(guī)劃方法
1.動(dòng)態(tài)規(guī)劃概念介紹
2.策略評(píng)估過(guò)程介紹
3.策略改進(jìn)方法介紹
4.策略迭代和值迭代
案例：實(shí)現(xiàn)基于模型的強(qiáng)化學(xué)習(xí)算法

第四課蒙特卡羅方法
1.蒙特卡羅策略評(píng)估
2.蒙特卡羅策略改進(jìn)
3.基于蒙特卡羅的強(qiáng)化學(xué)習(xí)
4.同策略和異策略
案例：利用蒙特卡羅方法實(shí)現(xiàn)機(jī)器人找金幣和迷宮

第五課時(shí)序差分方法
1.DP，MC和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法：Sarsa 方法
4.異策略TD方法：Q-learning 方法
案例：Q-learning和Sarsa的實(shí)現(xiàn)

第二天從強(qiáng)化學(xué)習(xí)到深度強(qiáng)化學(xué)習(xí)
第一課基于值函數(shù)逼近方法（強(qiáng)化學(xué)習(xí)）
1.維數(shù)災(zāi)難與表格型強(qiáng)化學(xué)習(xí)
2.值函數(shù)的參數(shù)化表示
3.值函數(shù)的估計(jì)過(guò)程
4.常用的基函數(shù)

第二課基于值函數(shù)逼近方法（深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合）
1.簡(jiǎn)單提一下深度學(xué)習(xí)
2.深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合
3.DQN 方法介紹
4.DQN變種：Double DQN, Prioritized Replay, Dueling Network
案例：用DQN玩游戲——flappy bird
第三課策略梯度方法（強(qiáng)化學(xué)習(xí)）
1.策略梯度方法介紹
2.常見的策略表示
3.常見的減小方差的方法:引入基函數(shù)法，修改估計(jì)值函數(shù)法
案例：利用gym和tensorflow實(shí)現(xiàn)小車倒立擺系統(tǒng)等

第四課 Alpha Go（深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合）
1.MCTS
2.策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)
3.Alpha Go的完整架構(gòu)
第五課 GAN（深度學(xué)習(xí)）
1.VAE與基本GAN
2.DCGAN
3.WGAN
案例：生成手寫數(shù)字的GAN

第三天深度強(qiáng)化學(xué)習(xí)進(jìn)階
第一課 AC類方法-1
1. PG的問(wèn)題與AC的思路
2. AC類方法的發(fā)展歷程
3. Actor-Critic基本原理
第二課 AC類方法-2
1. DPG方法
2. DDPG方法
3. A3C方法
案例：AC類方法的案例

第三課信賴域系方法-1
1.信賴域系方法背景
2.信賴域系方法發(fā)展路線圖
3.TRPO方法
案例：TRPO方法的案例

第四課信賴域系方法-2
1.PPO方法
2.DPPO方法簡(jiǎn)介
3.ACER方法
案例：PPO方法的案例

第五課多Agent強(qiáng)化學(xué)習(xí)
1.矩陣博弈
2.納什均衡
3.多人隨機(jī)博弈學(xué)習(xí)
4.完全合作、完全競(jìng)爭(zhēng)與混合任務(wù)
5.MADDPG
案例：MADDPG的案例等

強(qiáng)化學(xué)習(xí)課程

轉(zhuǎn)載：http://www.caprane.cn/gkk_detail/65029.html

已開課時(shí)間Have start time

上一篇：專業(yè)進(jìn)階深度學(xué)習(xí)人工智能下一篇：社群新零售培訓(xùn)

在線報(bào)名Online registration

付款信息：
開戶名：上海投智企業(yè)管理咨詢有限公司
開戶行：中國(guó)銀行股份有限公司上海市長(zhǎng)壽支行
帳號(hào)：454 665 731 584

国产午夜精品一区二区,久久午夜无码鲁丝片午夜精品,黑色午夜,午夜福利视频,电家庭影院午夜精品久久久鲁鲁,精品人妻一区二区三区在线潮喷,天堂网极品盛宴视频,欧美激情一级在线观看

課程描述INTRODUCTION

日程安排SCHEDULE

課程大綱Syllabus

已開課時(shí)間Have start time

在線報(bào)名Online registration

預(yù)約1小時(shí)微咨詢式培訓(xùn)

其它課程公開培訓(xùn)班

其它課程內(nèi)訓(xùn)

国产午夜精品一区二区,久久午夜无码鲁丝片午夜精品,黑色午夜,午夜福利视频,电家庭影院午夜 精品久久久鲁鲁,精品人妻一区二区三区在线潮喷,天堂网极品盛宴视频,欧美激情一级在线观看

課程描述INTRODUCTION

日程安排SCHEDULE

課程大綱Syllabus

已開課時(shí)間Have start time

在線報(bào)名Online registration

預(yù)約1小時(shí)微咨詢式培訓(xùn)

其它課程公開培訓(xùn)班

其它課程內(nèi)訓(xùn)

国产午夜精品一区二区,久久午夜无码鲁丝片午夜精品,黑色午夜,午夜福利视频,电家庭影院午夜精品久久久鲁鲁,精品人妻一区二区三区在线潮喷,天堂网极品盛宴视频,欧美激情一级在线观看