Loading [MathJax]/jax/output/CommonHTML/jax.js
반응형

Reinforcement learning의 목표

 결국 강화학습에서 하고자 하는것은 세상이 어떻게 돌아가는지를 모를때 (T(s,a,s),Reward(s,a,s) 등 우리의 행동에 따른 보상을 알 수 없을 때), 현재 상태 s에서 utility를 최대화하기 위한 policy π(s)와 그에 따른 보상 Vopt(s) 또는 Qopt(s,a)를 추정하는 것이다. MDP를 모르는 상황에서 우리가 MDP를 추정하여 만들어가는 과정이라고도 할 수 있다. 이를 위해서 데이터를 수집하고 그를 바탕으로 여러 값들을 추정하게 된다.

방법론 요약

 강화학습의 방법론으로는 크게 4가지가 있는데, 먼저 Model-based Monte Carlo 방법의 경우에는 가장 단순하게 주어진 데이터로 부터 통계적으로 ˆT^Reward를 추정하는 것이다.

 Model-free Monte Carlo 방법의 경우에는 위의 방법과는 다르게 ˆQπ를 추정하게 된다. 즉, 각 Transition probability와 그에 따른 utility를 구하는 것이 아니라 현재 상태에서 얻을 수 있는 utility의 기댓값, 즉 우리가 데이터를 얻은 전략에 따른 Qπ를 직접 구한다.

 SARSA의 경우에도 Model-free MC의 다른 방식으로, ˆQπ를 추정하지만, utility를 u가 아닌 r+ˆQπ로 대체함으로써 target의 variance를 줄인다.

 마지막으로 Q-Learning의 경우에는 ˆQopt를 추정하는데, MDP에서 Qopt를 구하는 방식을 활용하되, target을 ˆQopt에 따른 \Vopt를 활용하여 r+ˆVopt로 한다. 

 

On-policy와 Off-policy

 위의 네 방법을 보면, Model-based Monte Carlo와 Q-Learning의 경우에는 추정하는 값이 π에 독립적이다. 이러한 경우를 Off-policy라고 하며, 반대로 Model-free Monte Carlo와 SARSA의 경우에는 추정하는 값이 내가 데이터를 얻기 위해 취한 π에 의존적이며, 이러한 경우를 On-policy라 한다. 즉, 직접적으로 optimal value를 구하는지 아니면 π에 따른 value를 먼저 구하는지가 두 개의 차이라 할 수 있다.

반응형

+ Recent posts