반응형

요약

 Bayes' theorem을 이용한 Maximum a posteriori estmation(MAP)을 이용한 모델과 MAP과 least mean-square estimation 사이의 관계에 대하여 다룹니다.

Bayes' theorem

 Regressor $x$가 environment $w$와 상호작용하여 response $d$가 관측되었다고 할 때, 확률론을 이용하면 environment $w$에 대한 조건부 확률 $p_{W,D \vert X}(w,d,x)$는 아래와 같이 쓸 수 있다. 

 $p_{W,D \vert X}(w,d,x) = p_{W \vert D,X}(w \vert d,x)p_D(d) =p_{D \vert W,X}(d \vert w,x)p_W(w)$

 또한, 위의 식을 이용하면 조건부 확률 $p_{W \vert D,X}(w \vert d,x)$을 아래와 같이 쓸 수 있는데, 이것이 Bayes' theorem이다.

 $p_{W \vert D,X}(w \vert d,x) = \frac{p_{D \vert W,X}(d \vert w,x)p_W(w)}{p_D(d)} $

 즉, Bayes' theorem이란, $w$에 대한 조건부 확률을 $w$에 대한 사전확률(믿음)과 관측값 $d$에 대한 조건부 확률을 이용하여 나타내는 것이다.

용어정리

 Observation density : $p_{D \vert W,X}(d \vert w,x)$로, 주어진 환경 $w$하에서 stimuli $x$에 대하여 response $d$가 관측될 확률을 나타낸다.

 Prior : $p_W(w)$로, 관측전의 $w$에 대한 information을 나타내며 앞으로는 $\pi(w)$라고 쓰겠습니다.

 Posterior density : $p_{W \vert D,X}(w \vert d,x)$로, 관측 후의 $w$에 대한 조건부 확률로, 앞으로는 $\pi(w \vert d,x)$로 쓰겠습니다.

 Evidence : $p_D(d)$로, $d$에 대한 통계 분석에 의한 information을 나타낸다.

Maximum likelihood estimation(ML)과 Maximum a posteriori estimation(MAP)

 Likelihood function $l(w \vert d,x)는

 $l(w \vert d,x) = p_{D \vert W,X}(d \vert w,x)$,

 즉, observation density라고 할 수 있고, 위의 Bayes' theorem을 통해 posteriori $\pi(w \vert d,x)$는 다음과 같이 쓸 수 있다.

 $\pi(w \vert d,x) \propto l(w \vert d,x)\pi(w) $

 따라서 ML estimation of $w$ $w_{ML}$과 MAP estimation of $w$ $w_{MAP}$은 아래와 같이 쓸 수 있다.

 $w_{ML} = \underset{w}{\operatorname{argmax}}l(w \vert d,x)$

 $w_{MAP} = \underset{w}{\operatorname{argmax}}\pi(w \vert d,x)$

 둘의 차이점을 살펴보면, $w_{ML}$의 경우에는 $w$에 대한 prior를 고려하지 않는다. 또한 많은 경우에 $\pi(w \vert d,x)$ 값 자체보다는 $log(\pi(w \vert d,x))$ 값이 편리한 경우가 많으므로, 계산상의 편의를 위하여 앞으로는 $w_{MAP} = \underset{w}{\operatorname{argmax}}log(\pi(w \vert d,x))$를 사용한다. 

Parameter estimation in a Gaussian Environment

 Gaussian environment에서의 MAP 추정은 우리에게 친숙한 least-square estimation과 연관되는데, 이를 보이겠다.

 이를 보이기 위해서는 세가지 가정이 필요한데, 먼저 N개의 sample data $({\mathbf{x}_i,d_i})_{i=1}^N$은 i.i.d이다. 또한, $d_i = w^T \mathbf{x}_i + \epsilon_i$ 일 때, error $\epsilon_i$ 역시 Gaussian 분포를 따른다. 

 $p_E(\epsilon_i) = \frac{1}{\sqrt{2 \pi} \sigma}exp(-\frac{\epsilon_i^2}{2 \sigma^2})$

 또한 $\mathbf{w}$가 길이 M인 벡터라 할 때, M개의 각각의 요소들은 stationary하다. 여기서는 각각의 요소들이 독립적이며 평균이 0이고, 분산이 $\sigma_w^2$라 가정한다.

 $\pi(w_k) = \frac{1}{\sqrt{2 \pi} \sigma_w}exp(-\frac{w_k^2}{2 \sigma_w^2})$

 위의 가정들을 종합해보면, $\mathbb{E}[D_i] = \mathbf{w}^T \mathbf{x}_i, var[D_i] = \sigma^2$ 가 된다. 이를 가지고 liklihood function을 쓰면 아래와 같다. 

 $ㅣ(\mathbf{w} \vert d_i, x_i) = \Pi_{i=1}^N l(\mathbf{w} \vert d_i, \mathbf{x}_i) = \frac{1}{^\sqrt{2 \pi} \sigma)^N} exp(-\frac{1}{2 \sigma^2}\sum_i (d_i - w^T \mathbf{x}_i))$

 Prior $\pi(\mathbf{w})$의 경우, 앞에서 $w$의 각각의 요소들이 i.i.d임을 가정했으므로 다음과 같이 쓸 수 있다.

$\pi(w) = \Pi_{k=1}^M \pi(w_k) = \frac{1}{(\sqrt{2 \pi} \sigma_w)^M}exp(\frac{1}{2\sigma_w^2}\sum_k w_k^2) = \frac{1}{(\sqrt{2 \pi} \sigma_w)^M}exp(\frac{1}{2\sigma_w^2}\lVert \mathbf{w} \rVert^2) $

 Priori와 likelihood 함수를 모두 구했으므로, Posteiori는 다음과 같이 쓸 수 있다.

 $\pi(w \vert d,x) \propto exp[-\frac{1}{\sqrt{2 \pi} \sigma}\sum_i(d_i - \mathbf{w}^T \mathbf{w}_i)^2 - \frac{1}{\sqrt{2 \pi} \sigma_w}\lVert \mathbf{w} \rVert^2 ]$

 $w_{MAP} = \underset{w}{\operatorname{argmax}}[-\frac{1}{\sqrt{2 \pi}}\sum_i(d_i - \mathbf{w}^T \mathbf{w}_i)^2 - \frac{\lambda}{\sqrt{2 \pi}}\lVert \mathbf{w} \rVert^2], \lambda = \frac{\sigma^2}{\sigma_w^2} $

 

 여기서 argmax 함수 안의 첫 항은 least-square estimation 에서 쓰는 quadratic error function이며, 뒤의 항은 regularization이라 할 수 있다. 즉, 가우시안 환경에서의 MAP 추정은 regularized least-square 추정이 된다. 또한 $\lambda \rightarrow 0 (\sigma_w \rightarrow \infty)$인 경우, 즉, $w$의 분포가 uniform 분포인 경우에는 MAP 추정이 ML 추정과 같아진다.

 

* Neural Networks and Learning Machines -Simon Haykin 의 책을 스터디한 내용을 정리한 것입니다.

반응형

'ML > 이론' 카테고리의 다른 글

Naive Bayes' classifier  (0) 2020.10.16
Least-Mean-Square Algorithm  (0) 2020.03.09

+ Recent posts