요약
Bayes' theorem을 이용한 Maximum a posteriori estmation(MAP)을 이용한 모델과 MAP과 least mean-square estimation 사이의 관계에 대하여 다룹니다.
Bayes' theorem
Regressor x가 environment w와 상호작용하여 response d가 관측되었다고 할 때, 확률론을 이용하면 environment w에 대한 조건부 확률 pW,D|X(w,d,x)는 아래와 같이 쓸 수 있다.

pW,D|X(w,d,x)=pW|D,X(w|d,x)pD(d)=pD|W,X(d|w,x)pW(w)
또한, 위의 식을 이용하면 조건부 확률 pW|D,X(w|d,x)을 아래와 같이 쓸 수 있는데, 이것이 Bayes' theorem이다.
pW|D,X(w|d,x)=pD|W,X(d|w,x)pW(w)pD(d)
즉, Bayes' theorem이란, w에 대한 조건부 확률을 w에 대한 사전확률(믿음)과 관측값 d에 대한 조건부 확률을 이용하여 나타내는 것이다.
용어정리
Observation density : pD|W,X(d|w,x)로, 주어진 환경 w하에서 stimuli x에 대하여 response d가 관측될 확률을 나타낸다.
Prior : pW(w)로, 관측전의 w에 대한 information을 나타내며 앞으로는 π(w)라고 쓰겠습니다.
Posterior density : pW|D,X(w|d,x)로, 관측 후의 w에 대한 조건부 확률로, 앞으로는 π(w|d,x)로 쓰겠습니다.
Evidence : pD(d)로, d에 대한 통계 분석에 의한 information을 나타낸다.
Maximum likelihood estimation(ML)과 Maximum a posteriori estimation(MAP)
Likelihood function $l(w \vert d,x)는
l(w|d,x)=pD|W,X(d|w,x),
즉, observation density라고 할 수 있고, 위의 Bayes' theorem을 통해 posteriori π(w|d,x)는 다음과 같이 쓸 수 있다.
π(w|d,x)∝l(w|d,x)π(w)
따라서 ML estimation of w wML과 MAP estimation of w wMAP은 아래와 같이 쓸 수 있다.
wML=argmaxwl(w|d,x)
wMAP=argmaxwπ(w|d,x)
둘의 차이점을 살펴보면, wML의 경우에는 w에 대한 prior를 고려하지 않는다. 또한 많은 경우에 π(w|d,x) 값 자체보다는 log(π(w|d,x)) 값이 편리한 경우가 많으므로, 계산상의 편의를 위하여 앞으로는 wMAP=argmaxwlog(π(w|d,x))를 사용한다.
Parameter estimation in a Gaussian Environment
Gaussian environment에서의 MAP 추정은 우리에게 친숙한 least-square estimation과 연관되는데, 이를 보이겠다.
이를 보이기 위해서는 세가지 가정이 필요한데, 먼저 N개의 sample data (xi,di)Ni=1은 i.i.d이다. 또한, di=wTxi+ϵi 일 때, error ϵi 역시 Gaussian 분포를 따른다.
pE(ϵi)=1√2πσexp(−ϵ2i2σ2)
또한 w가 길이 M인 벡터라 할 때, M개의 각각의 요소들은 stationary하다. 여기서는 각각의 요소들이 독립적이며 평균이 0이고, 분산이 σ2w라 가정한다.
π(wk)=1√2πσwexp(−w2k2σ2w)
위의 가정들을 종합해보면, E[Di]=wTxi,var[Di]=σ2 가 된다. 이를 가지고 liklihood function을 쓰면 아래와 같다.
ㅣ(w|di,xi)=ΠNi=1l(w|di,xi)=1√2πσ)Nexp(−12σ2∑i(di−wTxi))
Prior π(w)의 경우, 앞에서 w의 각각의 요소들이 i.i.d임을 가정했으므로 다음과 같이 쓸 수 있다.
π(w)=ΠMk=1π(wk)=1(√2πσw)Mexp(12σ2w∑kw2k)=1(√2πσw)Mexp(12σ2w‖w‖2)
Priori와 likelihood 함수를 모두 구했으므로, Posteiori는 다음과 같이 쓸 수 있다.
π(w|d,x)∝exp[−1√2πσ∑i(di−wTwi)2−1√2πσw‖w‖2]
wMAP=argmaxw[−1√2π∑i(di−wTwi)2−λ√2π‖w‖2],λ=σ2σ2w
여기서 argmax 함수 안의 첫 항은 least-square estimation 에서 쓰는 quadratic error function이며, 뒤의 항은 regularization이라 할 수 있다. 즉, 가우시안 환경에서의 MAP 추정은 regularized least-square 추정이 된다. 또한 λ→0(σw→∞)인 경우, 즉, w의 분포가 uniform 분포인 경우에는 MAP 추정이 ML 추정과 같아진다.
* Neural Networks and Learning Machines -Simon Haykin 의 책을 스터디한 내용을 정리한 것입니다.
'ML > 이론' 카테고리의 다른 글
Naive Bayes' classifier (0) | 2020.10.16 |
---|---|
Least-Mean-Square Algorithm (0) | 2020.03.09 |