Chapter 1. RL Basis
1.RL Introduction
2.Multi-armed Bandits
3.Finite Markov Decision Processes
4.Dynamic Programming
5.Monte Carlo Methods
6.Temporal-Di?erence Learning
7.n-step Bootstrapping
8.Planning and Learning with Tabular Methods
Chapter 2. Approximate and Deep RL
9.On-policy Prediction with Approximation
10.On-policy Control with Approximation
11.O?-policy Methods with Approximation
12.Eligibility Traces
13.Policy Gradient Methods
Chapter 3. Deeper Research
14.Psychology
15.Neuroscience
16.Applications and Case Studies
Chapter 4. Other RL and Projects
17.Frontiers
18.Project: RL Game Agent
19.Project: Robot Agent
第1章: RL Basis
1 : 強化學習介紹
任務1: text_book.pdf
2 : 井子棋游戲實驗
3 : 值函數與多臂賭徒
4 : 多臂賭徒實驗
5 : 有限馬爾可夫決策過程
6 : 格子游戲實驗
7 : 動態規劃
8 : 動態規劃實驗
9 : 蒙特卡羅方法
10 : 黑杰克(21點)游戲實驗
11 : 時間差分方法
12 : 攀登者游戲實驗
13 : 多時間步差分學習方法
14 : 隨機行走環境編寫與出租車項目挑戰
15 : 基于格子方法的規劃與學習
16 : 靜態與動態迷宮實驗
第2章: Approximate and Deep RL
17 : 近似在線策略計算
18 : Pytorch 實驗
19 : 值近似在線策略控制
20 : Gym 基礎實驗
21 : 并行策略的值估計
22 : DQN論文詳解
23 : 實戰太空侵略者
24 : 實戰DOOM
25 : 對決DQN網絡
26 : 帶優先級的記憶回放技術
27 : DQN FLappy Bird
28 : Double DQN
29 : 對決網絡勇闖死亡回廊 |