<aside>
스크래치부터 시작하는 강화학습의 모든것
1. 강화학습
2. 마르코브 의사결정 과정
1. 강화학습 이란?
마르코프 의사결정 모델
환경에 대한 MDP 모델, Dynamic Programming 을 통한 Agent 강화 알고리즘