Loading [MathJax]/jax/output/CommonHTML/jax.js
반응형

요약

 Bayes' theorem을 이용한 Maximum a posteriori estmation(MAP)을 이용한 모델과 MAP과 least mean-square estimation 사이의 관계에 대하여 다룹니다.

Bayes' theorem

 Regressor x가 environment w와 상호작용하여 response d가 관측되었다고 할 때, 확률론을 이용하면 environment w에 대한 조건부 확률 pW,D|X(w,d,x)는 아래와 같이 쓸 수 있다. 

 pW,D|X(w,d,x)=pW|D,X(w|d,x)pD(d)=pD|W,X(d|w,x)pW(w)

 또한, 위의 식을 이용하면 조건부 확률 pW|D,X(w|d,x)을 아래와 같이 쓸 수 있는데, 이것이 Bayes' theorem이다.

 pW|D,X(w|d,x)=pD|W,X(d|w,x)pW(w)pD(d)

 즉, Bayes' theorem이란, w에 대한 조건부 확률을 w에 대한 사전확률(믿음)과 관측값 d에 대한 조건부 확률을 이용하여 나타내는 것이다.

용어정리

 Observation density : pD|W,X(d|w,x)로, 주어진 환경 w하에서 stimuli x에 대하여 response d가 관측될 확률을 나타낸다.

 Prior : pW(w)로, 관측전의 w에 대한 information을 나타내며 앞으로는 π(w)라고 쓰겠습니다.

 Posterior density : pW|D,X(w|d,x)로, 관측 후의 w에 대한 조건부 확률로, 앞으로는 π(w|d,x)로 쓰겠습니다.

 Evidence : pD(d)로, d에 대한 통계 분석에 의한 information을 나타낸다.

Maximum likelihood estimation(ML)과 Maximum a posteriori estimation(MAP)

 Likelihood function $l(w \vert d,x)는

 l(w|d,x)=pD|W,X(d|w,x),

 즉, observation density라고 할 수 있고, 위의 Bayes' theorem을 통해 posteriori π(w|d,x)는 다음과 같이 쓸 수 있다.

 π(w|d,x)l(w|d,x)π(w)

 따라서 ML estimation of w wML과 MAP estimation of w wMAP은 아래와 같이 쓸 수 있다.

 wML=argmaxwl(w|d,x)

 wMAP=argmaxwπ(w|d,x)

 둘의 차이점을 살펴보면, wML의 경우에는 w에 대한 prior를 고려하지 않는다. 또한 많은 경우에 π(w|d,x) 값 자체보다는 log(π(w|d,x)) 값이 편리한 경우가 많으므로, 계산상의 편의를 위하여 앞으로는 wMAP=argmaxwlog(π(w|d,x))를 사용한다. 

Parameter estimation in a Gaussian Environment

 Gaussian environment에서의 MAP 추정은 우리에게 친숙한 least-square estimation과 연관되는데, 이를 보이겠다.

 이를 보이기 위해서는 세가지 가정이 필요한데, 먼저 N개의 sample data (xi,di)Ni=1은 i.i.d이다. 또한, di=wTxi+ϵi 일 때, error ϵi 역시 Gaussian 분포를 따른다. 

 pE(ϵi)=12πσexp(ϵ2i2σ2)

 또한 w가 길이 M인 벡터라 할 때, M개의 각각의 요소들은 stationary하다. 여기서는 각각의 요소들이 독립적이며 평균이 0이고, 분산이 σ2w라 가정한다.

 π(wk)=12πσwexp(w2k2σ2w)

 위의 가정들을 종합해보면, E[Di]=wTxi,var[Di]=σ2 가 된다. 이를 가지고 liklihood function을 쓰면 아래와 같다. 

 (w|di,xi)=ΠNi=1l(w|di,xi)=12πσ)Nexp(12σ2i(diwTxi))

 Prior π(w)의 경우, 앞에서 w의 각각의 요소들이 i.i.d임을 가정했으므로 다음과 같이 쓸 수 있다.

π(w)=ΠMk=1π(wk)=1(2πσw)Mexp(12σ2wkw2k)=1(2πσw)Mexp(12σ2ww2)

 Priori와 likelihood 함수를 모두 구했으므로, Posteiori는 다음과 같이 쓸 수 있다.

 π(w|d,x)exp[12πσi(diwTwi)212πσww2]

 wMAP=argmaxw[12πi(diwTwi)2λ2πw2],λ=σ2σ2w

 

 여기서 argmax 함수 안의 첫 항은 least-square estimation 에서 쓰는 quadratic error function이며, 뒤의 항은 regularization이라 할 수 있다. 즉, 가우시안 환경에서의 MAP 추정은 regularized least-square 추정이 된다. 또한 λ0(σw)인 경우, 즉, w의 분포가 uniform 분포인 경우에는 MAP 추정이 ML 추정과 같아진다.

 

* Neural Networks and Learning Machines -Simon Haykin 의 책을 스터디한 내용을 정리한 것입니다.

반응형

'ML > 이론' 카테고리의 다른 글

Naive Bayes' classifier  (0) 2020.10.16
Least-Mean-Square Algorithm  (0) 2020.03.09

+ Recent posts