- 본 과정은 OpenAI Spinning Up의 Key Papers in Deep RL에 있는 논문 중에 1~21번까지 Model-Free에 관련된 논문을 리뷰하는 과정입니다.
- 강화학습에서 핵심 논문이 어떤 것이 있는지 알 수 있습니다
- 오래 전 논문부터 최신 논문까지 리뷰하면서 어떤 흐름으로 발전해오고 있는지 알 수 있습니다.
Deep RL 핵심 논문 읽기
진행일시
매주 (2시간)
모집현황

0명 신청가능

진행장소
캠퍼스
Untitled-2 학습대상

- 강화학습 핵심 논문을 차근차근 정복하고 싶으신 분
- 강화학습에서 공부 했던 내용을 다시 한번 정리하고 싶으신 분

Untitled-2 선수지식

- 기본적인 강화학습 지식
- 열린 마음으로 서로 격려하는 마음
- 끝까지 읽어보겠다는 의지

Untitled-2 과목난이도

쉬움 (1단계) ~ 어려움(5단계)

학습목표

- 강화학습의 model-free의 핵심 논문을 공부합니다.
- 강화학습의 흐름을 파악합니다.
- 참여자 모두 발표에 대한 자신감을 얻었으면 좋겠습니다.

Untitled-2 학습 및 참고자료
Untitled-2 운영방식

- 매주 2편씩 논문을 요약해서 발표 합니다.
- 첫 시간에 논문 21편에 대해 발표자를 결정합니다.
- 희망자 우선 순위로 희망일에 따라 선정할 예정이며 가급적 모든 사람이 발표에 참여합니다.
- 일정상 변경이 필요한 경우, 조정할 수 있습니다.
- 논문 내용 중에 더 깊게 공부 할 수 있는 자료는 슬랙을 통해 서로 공유합니다.

Untitled-2 커리큘럼
사전학습 / 이론

주차 모임내용 학습자료
1 주차 오리엔테이션
1. Playing Atari with Deep Reinforcement Learning(DQN)
1. https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
2 주차 2, Deep Recurrent Q-Learning for Partially Observable MDPs (Deep Recurrent Q-Learning)
3. Dueling Network Architectures for Deep Reinforcement Learning(Duelling DQN)
2. https://arxiv.org/abs/1507.06527
3. https://arxiv.org/abs/1511.06581
3 주차 4. Deep Reinforcement Learning with Double Q-learning(Dobule DQN)
5. Prioritized Experience Replay
4. https://arxiv.org/abs/1509.06461
5. https://arxiv.org/abs/1511.05952
4 주차 6. Rainbow: Combining Improvements in Deep Reinforcement Learning
7. Asynchronous Methods for Deep Reinforcement Learning (A3C)
6. https://arxiv.org/abs/1710.02298
7.https://arxiv.org/abs/1602.01783
5 주차 8. Trust Region Policy Optimization (TRPO)
9. High-Dimensional Continuous Control Using Generalized Advantage Estimation (GAE)
8, https://arxiv.org/abs/1502.05477
9. https://arxiv.org/abs/1506.02438
6 주차 10. Proximal Policy Optimization Algorithms (PPO)
11. Emergence of Locomotion Behaviours in Rich Environments
10. https://arxiv.org/abs/1707.06347
11. https://arxiv.org/abs/1707.02286
7 주차 12. Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation
13. Sample Efficient Actor-Critic with Experience Replay
12. https://arxiv.org/abs/1708.05144
13. https://arxiv.org/abs/1611.01224
8 주차 14. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
15. Deterministic Policy Gradient Algorithms (DPG)
14. https://arxiv.org/abs/1801.01290
15. http://proceedings.mlr.press/v32/silver14.pdf
9 주차 16. Continuous Control With Deep Reinforcement Learning(DDPG)
17. Addressing Function Approximation Error in Actor-Critic Methods
16. https://arxiv.org/abs/1509.02971
17. https://arxiv.org/abs/1802.09477
10 주차 18. A Distributional Perspective on Reinforcement Learning
19. Distributional Reinforcement Learning with Quantile Regression
18. https://arxiv.org/abs/1707.06887
19. https://arxiv.org/abs/1710.10044
11 주차 20. Implicit Quantile Networks for Distributional Reinforcement Learning
21. Dopamine: A Research Framework for Deep Reinforcement Learning
20. https://arxiv.org/abs/1806.06923
21. https://openreview.net/forum?id=ByG_3s09KX
Untitled-2 퍼실소개
조원양

조원양

- 퍼실소개
영상감시 업체에서 다양한 플랫폼 및 OS에서 소프트웨어를 개발하고 팀을 이끌고 있습니다. 강화학습의 매력에 푹~ 빠져 있습니다.

- 개설 동기
논문 리뷰를 통해 공부했던 것을 다시 한번 정리를 하고 Open AI Spinning Up의 Key Papers in Deep RL에 나와 있는 논문들을 차근차근 정복하고 싶어서 개설했습니다.

월 77,000원 / 3개월 231,000원

2020-01-11 부터 총 11주 진행

모집마감

2019년 12월 20일(금요일) 오후 3시에 모집이 시작됩니다.