Loading [MathJax]/extensions/TeX/boldsymbol.js

CH03: Maximum-likelihood and Bayesian Parameter Estimation

Introduction

사전확률 P(ωi)와 클래스-조건부 밀도 p(x|ωi)를 알 때 최적 분류기를 설계할 수 있다.

  • 이렇게 문제의 확률적 구조에 대한 완전한 지식이 제공되는 경우는 거의
    없다.
    • 상황에 관한 모호하고 일반적인 지식이 주어진다.
    • 제한된 설계 샘플, 훈련 데이터만을 얻는다.(부족함)
  • 문제
    이 정보를 이용해서 분류기를 설계 또는 훈련시키는 방법을 찾는 것.

접근방법

  • 샘플들을 이용해서 미지의 확률들과 확률 밀도들을 추정하고, 이를 통해
    얻은 추정을 참 값처럼 사용하는 것.
    • 사전확률/클래스 조건부 밀도의 추정
    • 가용한 샘플 수는 항상 너무 적음.
    • 특징벡터 x의 차원이 큼
    • 만약 파라미터 수를 미리 알고, 문제에 대한 일반적 지식이 우리가 조건부 밀도들을 파라미터로 나타내는 것을 허용해 준다면, 이 문제의 심각성을 줄일 수 있음.
    • 만약 p(x|ωi)가 평균은 μi이고 공분산은 Σi인 정규분포라고 가정할 수 있다면, p(x|ωi)의 추정에서 parameter μiΣi의 추정으로 문제가 단순해진다.

Parameter Estimation

  • Maximum-likehood estimation
    • parameter들의 값은 고정되어 있지만 미지인 값으로써 간주한다.
    • 가장 훌륭한 추정은 실제로 관찰된 샘플들을 얻을 확률을 최대화하는 추정이다.
  • Bayes Estimation
    • 파라미터들을 어떤 알려진 사전분포를 갖는 랜덤 변수로써 간주한다.
    • 샘플에 대한 관찰은 이를 사후 밀도로 전환한다.
    • 추가 샘플들의 관찰은 사후밀도함수를 선명하게 하는 효과가 있음. : Bayesian learning
  • Supervised/unsupervised learning의 구분
    • (ωi) and p(x|ωi)

매력적인 속성

  • 훈련 샘플 수가 증가함에 따라 거의 항상 좋은 수렴 특성을 가짐
  • 다른 방법들에 비해 단순함.

일반적 원칙

  • D1,,Dc : c개의 dataset을 가진다.
    • 이때 Dj의 샘플들은 확률법칙 p(x|ωj)에 따라 독립적으로
      뽑혀졌다.
      이러한 샘플들을 i.i.d 독립적이며 동일하게 분포하는 랜덤 변수들이라고
      한다.
  • p(x|ωj)가 기지의(known) 파라미터적 형태를 가지며, 그 결과 파라미터 벡터 θj에 의해 유일하게
    결정된다.
    • 예시로 \boldsymbol{\theta}_j\boldsymbol{\mu}_j\boldsymbol{\Sigma}_j의 요소들로 구성되는p\left(\boldsymbol{x} \mid \omega_j\right) \sim N\left(\boldsymbol{\mu}_j, \boldsymbol{\Sigma}_j\right) 를 가질 수 있다.
      \Longrightarrow p( {x} | ω{j},{\theta}{j} ): p({x}|ω{j}){\theta}{j}에 종속됨을 보여주기 위해, p({x}|ω{j})p( {x} | ω{j},{\theta}_{j} )라 쓴다.
  • 문제는 표본 카테고리와 관련된 미지의 벡터 \boldsymbol{\theta}_1, \ldots, \boldsymbol{\theta}_c\left(\text { parameter vector } \boldsymbol{\theta}_j\right) 에 대한 좋은 추정치를 얻기 위해 훈련 샘플들에
    의해 제공되는 정보(훈련에서 제공된 정보)를 이용하는 것.
  • 이 문제를 단순화하기 위해, D_{i}의 샘플들이 i \neq j이면, {\theta}_{j}에 관한 정보를 제공하지 않는다고 가정
    • 다른 클레스에 대한 파라미터들은 함수적으로 독립 - 이렇게 하면 각 클래스를 분리해서 다룰수 있고, c개의 분리된 문제를 가지게 된다.
  • 확률밀도
    p( {x} | \theta )로부터 독립적으로 뽑은 훈련 샘플들의 집합 D를 사용해서 미지의 파라미터 {\theta}를 추정.

특정 분산과 미지의 평균을 가지는 가우시안으로부터 뽑힌 1차원 데이터, 가운데 그림은 우도를 평균의 함수로 보여주고, 마지막 그림은 우도를 최대화하는 값을 표기한다.(log)

  • Dn개의 샘플 {x}_{1}, \ldots, {x}_{n}을 포함한다고 하자. 이 샘플들은 독립적으로 뽑혔기에
    p( D | {\theta} ) = \prod_{k = 1}^{n}{p({x}_{k}|{\theta})}
    : 샘플 집합에 대한 \theta의 우도
  • \widehat{\theta}: p(D|{\theta})를 최대화 하는 {\theta}의 최대 우도추정
    • 실제로 관찰된 훈련 샘플들과 가장 잘 일치 또는 지지하는 \theta의 값에 해당.
  • 해석학적 목적을 위해서는 우도 자체보다는 우도의 로그로 작업하는 것이 더 쉽다.
  • 만일 추정해야 하는 parameters의 수가 p일 경우, \theta로는 p-요소벡터
    \boldsymbol{\theta}=\left(\theta_1, \ldots, \theta_P\right)^t 를 나타낸다.
    로그 우도 함수 l(\boldsymbol{\theta}) \equiv \ln p(D \mid \boldsymbol{\theta})
    \widehat{\boldsymbol{\theta}}=\arg \max _\theta l(\boldsymbol{\theta})
    l(\boldsymbol{\theta})=\sum_{k=1}^n \ln p\left(\boldsymbol{x}_k \mid \boldsymbol{\theta}\right)
    \nabla_{\boldsymbol{\theta}} l(\boldsymbol{\theta})=\sum_{k=1}^n \nabla_{\boldsymbol{\theta}} \ln p\left(\boldsymbol{x}_k \mid \boldsymbol{\theta}\right) \quad{ }^* \nabla_\theta 는 기울기 연산자를 나타낸다
  • \theta에 대한 최대-우도 추정을 위한 일련의 필요 공식들은 p개 공식의 집합 \nabla_{\theta}l( {\theta} ){= 0} 으로부터 얻을 수 있다.
  • 위 식은 true global maximum 또는 local maxmum 또는 최소, 또는(드물게) l(\theta)의 변곡점을 나타낼 수 있다.
  • MAP(최대 사후)추정
    • 관련된 추정자(사후 사후 확률 또는 MAP 추정자)들의 부류가 l(\theta)p(\theta)를 최대화하는 \theta의 값을 찾음을 주목한다. 이때, p(\theta)는 다른 파라미터 값들의 사전 확률을 묘사한다.
    • 균등 또는 균일한 사전 확률에 대한 최대 우도 추정자는 MAP 추정자이다.
    • MAP 추정자는 사후 확률 밀도의 피크를 찾는다.
    • MAP 추정자의 단점은 만약 우리가 파라미터 공간의 어떤 임의의 비선형 변환을 선택했다면, 밀도는 변할 것이며, MAP 솔루션은 더 이상 적합하지 않을수도 있다.

The Gaussian case: Unknown {\mu}(미지의 {\mu})

  • 샘플 point {x}_{k}를 고려하고, \ln{p( {x}{k} | {\mu} )} = - \frac{1}{2}\ln\lbrack (2\pi)^{d}| {\Sigma} | \rbrack - \frac{1}{2}( {x}{k} - {\mu} )^{t}\Sigma^{- 1}( {x}{k} - {\mu} )\nabla_{\mu}\ln{p( {x}{k} | {\mu} )} = \Sigma^{- 1}({x}{k} - {\mu})를 찾자.
    {\theta}{\mu}를 동일하게 놓으면, {\mu}에 대한 우도 추정은 다음을 만족해야 한다.
    \begin{aligned} & \sum_{k=1}^n \Sigma^{-1}\left(\boldsymbol{x}_k-\boldsymbol{\mu}\right)=0 \\ & \rightarrow \boldsymbol{\mu}=\frac{1}{n} \sum_{k=1}^n \boldsymbol{x}_k  \end{aligned}                             \begin{aligned} & l(\boldsymbol{\theta})=\sum_{k=1}^n \ln p\left(\boldsymbol{x}_k \mid \boldsymbol{\theta}\right) \\ & \nabla_{\boldsymbol{\theta}} l(\boldsymbol{\theta})=0 \end{aligned}
  • 미지의 모집단 평균에 대한 최대 우도 추정은 바로 훈련 샘플들의
    산술평균이다.- 샘플 평균
  • 알려지지 않은 파라미터 {\theta}의 구성 요소 (더 일반적인 다변량 정규 분포의 경우는 평균 {\mu}와 공분산
    {\Sigma}가 모두 미지인 상태)
    일변량 경우에서 파라미터 백터 \theta의 요소 \theta_{1} = \mu, \theta_{2} = \sigma^{2}를 고려하자.
    이때, 단일 point의 로그-우도는
    \ln p\left(x_k \mid \boldsymbol{\theta}\right)=-\frac{1}{2} \ln 2 \pi \theta_2-\frac{1}{2 \theta_2}\left(x_k-\theta_1\right)^2 이고,미분은 \nabla_\theta l=\nabla_{\boldsymbol{\theta}} \ln p\left(\boldsymbol{x}_k \mid \boldsymbol{\theta}\right)=\left[\begin{array}{c} \frac{1}{\theta_2}\left(x_k-\theta_1\right) \\ -\frac{1}{2 \theta_2}+\frac{\left(x_k-\theta_1\right)^2}{2 \theta_2^2} \end{array}\right]
    \begin{array}{r} \rightarrow \sum_{k=1}^n \frac{1}{\hat{\boldsymbol{\theta}}_2}\left(x_k-\widehat{\boldsymbol{\theta}}_1\right)=0 \text { and }-\sum_{k=1}^n \frac{1}{\hat{\boldsymbol{\theta}}_2}+\sum_{k=1}^n \frac{\left(x_k-\widehat{\boldsymbol{\theta}}_1\right)^2}{\hat{\boldsymbol{\theta}}_2^2}=0 \\ \rightarrow \hat{\mu}=\frac{1}{n} \sum_{k=1}^n x_k \text { and } \quad \hat{\sigma}^2=\frac{1}{n} \sum_{k=1}^n\left(x_k-\hat{\mu}\right)^2 \end{array}

    다변량 경우:
    \widehat{\boldsymbol{\mu}}=\frac{1}{n} \sum_{k=1}^n \boldsymbol{x}_k \text { and } \quad \widehat{\boldsymbol{\Sigma}}=\frac{1}{n} \sum_{k=1}^n\left(\boldsymbol{x}_k-\widehat{\boldsymbol{\mu}}\right)\left(\boldsymbol{x}_k-\widehat{\boldsymbol{\mu}}\right)^t
    평균 벡터에 대한 최대 우도 추정이 샘플 평균임을 확인했다. 공분산 행렬에 대한 최대 우도 추정은 n개 행렬 ( {x}{k} - \widehat{\mu} )( {x}{k} - \widehat{\mu} )^{t}의 산술 평균이다.

Bayesian Estimation

  • In MLE
    **{\theta}
    가 고정된 것**으로 간주
  • In Batesian learning
    **{\theta}
    가 랜덤 변수인 것으로 간주하며(추정의
    대상**),
    훈련 데이터는 이 변수에 대한 분포를 사후 확률 밀도로 전환.

클래스-조건부 밀도(The class-conditional densities)

P( ω{j} | {x} ) = \frac{p( {x} | ω{j} )P( ω_{j} )}{p({x})}

  • 이러한 양들이 알려져 있지 않을 때 어떻게 진행할 수 있는가?
    • 사용할 수 있는 모든 정보를 사용해서 P( ω_{j} | {x} )를 계산한다.
    • 이 정보의 일부는 미지의 밀도들에 대한 함수 형태와 미지의
      파라미터들의 값의 범위에 대한
      사전 지식일 수 있다.
    • 이 정보의 일부는 훈련 샘플 집합 내에 있을 수 있다.
      (D로 샘플 집합을 나타내면 목표가 사후확률 P( ω{j} | {x,}D )를 계산하는 것이므로, 샘플들의 역할이 또 강조된다. 이 확률들로부터 Bayes 분류기를 얻을 수 있다.)
      P\left(\omega_j \mid \boldsymbol{x}, D\right)=\frac{p\left(\boldsymbol{x} \mid \omega_j, D\right) P\left(\omega_j \mid D\right)}{\sum_{j=1}^c p\left(\boldsymbol{x} \mid \omega_j, D\right) P\left(\omega_j \mid D\right)}
  • 클래스 조건부 밀도들과 사전 확률들 모두를 계산하는 것을 돕기 위해 훈련
    샘플들에 의해 제공되는 정보를 이용할 수 있다.
  • 사전 확률들의 실제 값이 알려져 있거나 사소한 계산에서 얻을 수 있다고
    가정한다.
    P( ω{i} ) = P( ω{i} | D ).(대체가능)
  • Supervise Case
    • 훈련 샘플들을 클래스에 의해 c개의 부분집합 D_{1},\ldots D_{c}
      분리해서 작업할 수 있다.
      이때 D_{i}의 샘플들은 ω_{i}에 속한다.
    • 대부분의 경우 D_{i}의 샘플들은
      p( x | ω{j},D )(i \neq j일\ 때)에 영향을
      주지 않는다.
      P\left(\omega_i \mid \boldsymbol{x}, D\right)=\frac{p\left(\boldsymbol{x} \mid \omega_i, D\right) P\left(\omega_i \mid D\right)}{\sum_{j=1}^c p\left(\boldsymbol{x} \mid \omega_j, D\right) P\left(\omega_j \mid D\right)} \rightarrow \quad P\left(\omega_i \mid \boldsymbol{x}, D\right)=\frac{p\left(\boldsymbol{x} \mid \omega_i, D_i\right) P\left(\omega_i\right)}{\sum_{j=1}^c p\left(\boldsymbol{x} \mid \omega_j, D_j\right) P\left(\omega_j\right)}
    • 각 클래스가 독립적으로 다루어질 수 있기에, 불필요한 클래스 구별을 하지 않아도 되고, 표기를 단순화할 수 있다. 본질적으로 c개의 분리된 문제를 가진다.
    • 고정되어 있으나 미지의 확률 분포인* {p}( {x} )에 따라 독립적으로 뽑힌 샘플들의 집합 {D}를 사용해서 {p}( {x} | {D} )를 계산한다. -- 중심문제

The Parameter Distribution

  • 원하는 확률 밀도 p( {x} )가 미지인 상태더라도
    기지(known)의 파라미터(\mu,\sigma^{2}등) 형태를 갖는다고 가정.
    미지인 것으로 가정되는 것은 파라미터 벡터{\theta}의 값
    뿐이다.
  • 샘플들을 관찰하기 전에 \theta에 관해 가질 수 있는 어떠한 정보도
    알려진 사전밀도 p(\theta)에 포함된 것으로 가정한다.
    샘플들의 관찰은 이것을 경험적 확률 밀도(posterior density)
    p(\theta|D)로 전환하며,
    이것은 \theta의 참 값에서 날카롭게 피크를 이룬다.
  • \begin{aligned} p(\mathbf{x} \mid D) & =\int p(\mathbf{x}, \boldsymbol{\theta} \mid D) d \boldsymbol{\theta} \\ & =\int p(\mathbf{x} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid D) d \boldsymbol{\theta} \end{aligned} 확률-밀도 함수 학습 문제 → 목표는 p({x}|D)의 계산
  • p(\mathbf{x}, \boldsymbol{\theta} \mid D)=p(\mathbf{x} \mid \boldsymbol{\theta}, D) p(\boldsymbol{\theta} \mid D) →  parameter vector 추정
  • 확률밀도 함수를 학습하는 문제를 파라미터 벡터(\theta)를 추정하는
    문제로 전환시켰음에 주목.
    이로 우리의 기본적 목표는 p(x|D)를 계산하는 것이고, 이는 미지의
    p(x)를 얻는것에 가깝다.
    이를 위해 p( x,\theta | D )\theta에 대해 적분하면, 
    p(x \mid D)=\int p(\boldsymbol{x}, \boldsymbol{\theta} \mid D) d \boldsymbol{\theta}
    여기서 적분은 전체 파라미터 공간으로 확장되고, 항상 p(x,\theta|D)를 곱p( x | \theta,D )p(\theta|D)
    쓸 수 있다. x의 선택과 D의 훈련 샘플들의 선정이 독립적으로 이뤄지므로 첫 번째 요소는 단순히 p(x|\theta)이다. 즉 x의 분포는 일단 파라미터 벡터의 값을 알고나면 완전하게 알려지기에,
    p(\boldsymbol{x} \mid D)=\int p(\boldsymbol{x} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid D) d \boldsymbol{\theta}
    이 중요한 공식은 원하는 클래스-조건부 밀도 p(x|D)를 미지의
    파라미터 벡터에 대한
    사후 밀도 p(\theta|D)에 링크시킨다.
    만일 p(\theta|D)가 어떤 값 \widehat{\theta}을 중심으로
    매우 날카로운 피크를 이루면,
    p( x | D ) \cong p( x | \widehat{\theta} )
    즉, 참 파라미터 벡터를 추정 \widehat{\theta}로 대체해서
    얻게되는 결과를 얻는다.

Bayesian Parameter Estimation: Gaussian case

  • 여기서는 p( x | \mu )\sim N(\mu,\Sigma)인 경우에 대해 Bayes 추정 기법을 이용해서 사후밀도 p(\theta|D)와 원하는 확률 밀도 p(x|D)를 계산한다.

The Univariate Case(단변량 경우): {p}( {\mu} | {D} )

  • \mu가 유일한 미지의 파라미터인 경우를 고려하자. (\sigma^{2}는fix)
    p( x | \mu )\sim N( \mu,\sigma^{2} )
  • 이때, 유일한 미지의 parameter은 \mu이다. \mu에 관해서 우리가 알고있는 어떠한 사전 지식이든, 알려진 사전밀도 p(\mu)에 의해 표현될 수 있다고 가정하자.
    p(\mu)\sim N(\mu_{0},\sigma_{0}^{2})
    • \mu_{0}: \mu에 대한 가장 좋은 사전 추측
    • \sigma_{0}^{2}: 이 추측에 대한 불확실성.
  • \mu에 대한 사전 밀도를 선택하고 나면 상황은 다음과 같다. 확률 법칙
    p(\mu)에 의해 지배되는 모집단으로부터 \mu를 위해 어떤 값이
    뽑혔다고 생각해보자. 이제 n개 샘플 x_{1},\ldots,x_{n}이 그 결과
    모집단으로부터 독립적으로 추출되었다고 가정하자.
    D = { x_{1},\ldots,x_{n}}으로 놓고 Bayes 공식을 사용하면
    p( \mu | D ) = \frac{p( D | \mu )p(\mu)}{\int p( D | \mu )p(\mu)d\mu} = \alpha\prod_{k = 1}^{n}{p( x_{k} | \mu )p(\mu)} (훈련 샘플들에 대한 관찰이 \mu값의 참 값에 관한 우리의 생각에 어떻게 영향을 끼치는지를 보여준다.)
  • 이것은 사전밀도 p(\mu)를 사후 밀도
    p( \mu | D )와 관련시킨다. 왜냐하면,
    p( x_{k} | \mu )\sim N( \mu,\sigma^{2} )이고,
    p(\mu)\sim N( \mu_{0},\sigma_{0}^{2} )이기 때문에.
    \begin{aligned} & \left.p(\mu \mid D)=\alpha \prod_{k=1}^n \frac{1}{\sqrt{2 \pi}\left(x_k \mid \mu\right)} \exp \left[-\frac{1}{2}\left(\frac{x_k-\mu}{\sigma}\right)^2\right]\right] \frac{1}{\sqrt{2 \pi} \sigma} \exp \left[-\frac{1}{2}\left(\frac{\mu-\mu_0}{\sigma_0}\right)^2\right] \\ & =\alpha^{\prime} \exp \left[-\frac{1}{2}\left(\sum_{k=1}^n\left(\frac{\mu-x_k}{\sigma}\right)^2+\left(\frac{\mu-\mu_0}{\sigma_0}\right)^2\right)\right] \\ & =\alpha^{\prime \prime} \exp \left[-\frac{1}{2}\left[\left(\frac{n}{\sigma^2}+\frac{1}{\sigma_0^2}\right) \mu^2-2\left(\frac{1}{\sigma^2} \sum_{k=1}^n x_k+\frac{\mu_0}{\sigma_0^2}\right) \mu\right]\right] \end{aligned}
    \mu의 2차 함수의 지수 함수 → nomal density → 밀도 재현
  • 만일 p( \mu | D )\sim N( \mu_{n},\sigma_{n}^{2} )로 쓴다면,
    p(\mu \mid D)=\frac{1}{\sqrt{2 \pi} \sigma_n} \exp \left[-\frac{1}{2}\left(\frac{\mu-\mu_n}{\sigma_n}\right)^2\right]
    이 방법으로 계수들을 찾으면
    \begin{aligned} & \frac{1}{\sigma_n^2}=\frac{n}{\sigma^2}+\frac{1}{\sigma_n^2} \quad \text { and } \quad \frac{\mu}{\sigma_n^2}=\frac{n}{\sigma^2} \hat{\mu}_n+\frac{\mu_0}{\sigma_n^2}, \quad \text { 여기서 } \hat{\mu}_n=\frac{1}{n} \sum_{k=1}^n x_k \\ & \rightarrow \mu_n=\left(\frac{n \sigma_0^2}{n \sigma_0^2+\sigma^2}\right) \hat{\mu}_n+\frac{\sigma^2}{n \sigma_0^2+\sigma^2} \mu_0 \quad \text { and } \quad \sigma_0^2=\frac{\sigma_0^2 \sigma^2}{n \sigma_0^2+\sigma^2} \end{aligned}
    \mu_{n}: n개 샘플을 관찰한 후 \mu에 대한 최선의 추측
    \sigma_{0}^{2}: 이 추측에 대한 우리의 불확실성 n → \infty에 따라 \sigma_{n}^{2} → \sigma^{2}/n에 접근.
    따라서 매 추가 관찰은 \mu의 참 값에 대한 불확실성을 감소

사후 분포 추정들은 추정에 사용된 훈련 샘플의 수로 레이블링.

 

The Univariate Case(단변량 경우): {p(x|D)}

  • 평균에 대한 사후 밀도p( \mu | D )를 얻고 나면, 남은 일은 {p}( {x} | {D} )에 대한 "클래스-조건부"밀도를 구하는 것.
    \begin{aligned} & p(x \mid D)=\int p(x \mid \mu) p(\mu \mid D) d \mu \\ & =\int \frac{1}{\sqrt{2 \pi} \sigma} \exp \left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right] \frac{1}{\sqrt{2 \pi} \sigma_n} \operatorname{ex} p\left[-\frac{1}{2}\left(\frac{\mu-\mu_n}{\sigma_n}\right)^2\right] d \mu \\ & =\frac{1}{2 \pi \sigma \sigma_n} \exp \left[-\frac{1}{2} \frac{\left(x-\mu_n\right)^2}{\sigma^2+\sigma_n^2}\right] f\left(\sigma, \sigma_n\right) \quad * p(x \mid D) \text { 는 평균 } \mu_{\mathrm{n}} \text {, 분산 } \sigma^2+\sigma_n^2 \text { 인 정규분포이다. } \\ & f\left(\sigma, \sigma_n\right)=\int \exp \left[-\frac{1}{2} \frac{\sigma^2+\sigma_n^2}{\sigma^2 \sigma_n^2}\left(\mu-\frac{\sigma_n^2 x+\sigma^2 \mu_n}{\sigma^2+\sigma_n^2}\right)^2\right] d \mu \end{aligned}
    (여기의 모든 샘플은 같은 클래스, 말하자면 ω{i}에서 오며 p( x | D )는 실제로는 p(x|ω{i},D{i})임을 기억해야 한다.
    *MLE: \widehat{\mu}\hat{\sigma}^2에 대한 점
    추정만을 수행한다.
    **B.E
    : p(x|D)에 대한 분포를 추정한다.)

The Multivariate Case(다변량 경우)

  • \Sigma는 알지만 \mu는 모르는 다변량 경우를 다루는 방법은 단변량 경우를 직접적으로 일반화하는 것.
    p(\boldsymbol{x} \mid \boldsymbol{\mu}) \sim N(\boldsymbol{\mu}, \mathbf{\Sigma}) \text { 와 } p(\boldsymbol{\mu}) \sim N\left(\boldsymbol{\mu}_0, \boldsymbol{\Sigma}_0\right) 을 가정한다.
    \begin{aligned} & p(\boldsymbol{\mu} \mid D)=\alpha \prod_{k=1}^n p\left(\boldsymbol{x}_k \mid \boldsymbol{\mu}\right) p(\boldsymbol{\mu})=\alpha^{\prime} \exp \left[-\frac{1}{2}\left(\boldsymbol{\mu}^t\left(n \boldsymbol{\Sigma}^{-1}+\boldsymbol{\Sigma}_0^{-1}\right) \boldsymbol{\mu}-2 \boldsymbol{\mu}^t\left(\boldsymbol{\Sigma}^{-1} \sum_{k=1}^n \boldsymbol{x}_k+\boldsymbol{\Sigma}_0^{-1} \boldsymbol{\mu}_0\right)\right)\right] \\ & \rightarrow p(\boldsymbol{\mu} \mid D)=\alpha^{\prime \prime} \exp \left[-\frac{1}{2}\left(\boldsymbol{\mu}-\boldsymbol{\mu}_n\right)^t \mathbf{\Sigma}_n^{-1}\left(\boldsymbol{\mu}-\boldsymbol{\mu}_n\right)\right] \rightarrow p(\boldsymbol{\mu} \mid D) \sim N\left(\boldsymbol{\mu}_n, \boldsymbol{\Sigma}_n\right) \\ & \boldsymbol{\mu}_n=\boldsymbol{\Sigma}_0\left(\boldsymbol{\Sigma}_0+\frac{1}{n} \boldsymbol{\Sigma}\right)^{-1} \widehat{\boldsymbol{\mu}}_n+\frac{1}{n} \boldsymbol{\Sigma}\left(\boldsymbol{\Sigma}_0+\frac{1}{n} \boldsymbol{\Sigma}\right)^{-1} \boldsymbol{\mu}_0,  \quad \boldsymbol{\Sigma}_n=\boldsymbol{\Sigma}_0\left(\boldsymbol{\Sigma}_0+\frac{1}{n} \boldsymbol{\Sigma}\right)^{-1} \frac{1}{n} \boldsymbol{\Sigma} \\ & p(\boldsymbol{x} \mid D) \sim N\left(\boldsymbol{\mu}_n, \mathbf{\Sigma}+\mathbf{\Sigma}_n\right) \end{aligned}

Bayesian Parameter Estimation: General theory(베이지안 파라미터 추정:일반 이론)

  • 기본 가정
    • 밀도 p( {x} | {\theta} )의 형태는 알려진 것으로 가정하지만, 파라미터 벡터{\theta}의 값은 정확하게 알려져 있지 않다.
    • {\theta}에 관한 초기 지식은 알려진 사전 밀도 p( {\theta} )에 포함된 것으로 가정한다.
    • {\theta}에 관한 우리의 지식의 나머지는 미지의 확률 밀도 p( {x} )에 따라 독립적으로 뽑힌 n 개의 샘플 {x}_{1},\ldots,{x}_{n}의 집합 D에 포함된다.
      p(x \mid D)=\int p(\boldsymbol{x} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid D) d \boldsymbol{\theta}
      bayes 공식에 의해 \cdots \quad p(\boldsymbol{\theta} \mid D)=\frac{p(D \mid \boldsymbol{\theta}) p(\boldsymbol{\theta})}{\int p(D \mid \boldsymbol{\theta}) p(\boldsymbol{\theta}) d \boldsymbol{\theta}}
      독립성 가정에 의해 \cdots p(D \mid \boldsymbol{\theta})=\prod_{k=1}^n p\left(\boldsymbol{x}_k \mid \boldsymbol{\theta}\right)
  • 몇가지 흥미로운 질문이 남아있다:
    • p( {x} )에 대한 p( {x} | D )수렴
    • 계산 수행의 어려움(3.7.2)
    • 단일 부류에 대한 어떤 집합의 샘플 수를 명시적으로 표시하기 위해 D^{n} = { {x}{1},\ldots,\ {x}{n} }으로 쓰자. 
      \begin{aligned} & p(D \mid \boldsymbol{\theta})=\prod_{k=1}^n p\left(\boldsymbol{x}_k \mid \boldsymbol{\theta}\right) \\ & \text { 만일 } n>1 \text { 이면, } \rightarrow p\left(D^n \mid \boldsymbol{\theta}\right)= p\left(\boldsymbol{x}_n \mid \boldsymbol{\theta}\right) p\left(D^{n-1} \mid \boldsymbol{\theta}\right. \\ & \rightarrow p\left(\boldsymbol{\theta} \mid D^n\right)=\frac{p\left(x_n \mid \boldsymbol{\theta}\right) p\left(\boldsymbol{\theta} \mid D^{n-1}\right)}{\int p\left(\boldsymbol{x}_n \mid \boldsymbol{\theta}\right) p\left(\boldsymbol{\theta} \mid D^{n-1}\right) d \boldsymbol{\theta}} \end{aligned} (재귀적 Bayes 방식, 데이터가 수집된에 따라 학습이 진행되는 증분적(incremental) 또는 온라인 학습의 예)
  •  

최대 우도 방법과 Bayes 방법은 언제 다른가?

  • 선택에 영향을 미치는 몇 가지 기준:
    • 계산 복잡성
    • 최대 우도 방법(ML)들의 경우 더 단순하다. \widehat{\theta}을 위해 단지 미분 기법, 경사 탐색 만을 필요로 하기 때문에 보통 선호된다.
    • Bayes추정에서는 복잡한 다차원 적분이 필요할 수 있다
    • 해석 가능성
    • 최대 우도 방법(ML)솔루션이 해석하고 이해하기 더 쉽다.(설계자가 제공한 집합으로부터 단 하나의 최선의 모델을 반환)
    • Bayes 방법은 모델(파라미터)들의 가중치 평균을 제공한다.(설계자가 제공한 것들보다 더 복잡하고 이해하기 어려운 솔루션으로 이끈다.)
      bayes 방식은 가능한 모델들에 남아 있는 불확실성을 반영한다.
      p\left( \mathbf{x} \middle| D \right) = \int_{}^{}{p\left( \mathbf{x} \middle| \mathbf{\theta} \right)p\left(\mathbf{\theta} \middle| D \right)d\mathbf{\theta}}
    • 근원적 분포 p(x|\theta)의 형태와 같은 사전정보에 대한 확신.
    • 최대 우도(ML) 솔루션 p\left( \mathbf{x} \middle| \widehat{\mathbf{\theta}} \right)은 가정된 파라미터 형태이여야 한다.
    • Bayes 방법은 그렇지 않다. ML방법보다 문제에 전달된 정보의 더 많은 부분을 사용한다.
      p(\mathbf{\theta}|D)분포를 full로 사용한다.
  • 최종 시스템의 세 가지 분류 에러 원인
    • bayes 또는 판별 불가(indistinguishable) 에러: 다른 i값들에 대해 겹쳐진 밀도 p\left( x \middle| \omega_{i} \right)에 기인하는 에러. 이 에러는 본질적인 특성이며, 제거될 수 없다.
    • 모델 에러: 그른 모델에 기인하는 에러. 이 에러는 데이터를 생성한 참 모델을 포함하는 모델을 설계자가 규정한다면 제거될 수 있다.
      설계자들은 일반적으로 수반하는 추정 방법에 대해서보다는 문제 도메인에 관한 지식에 기반해서 모델을 선택하며 따라서 최대 우도 방법과 Bayes 방법에서의 모델 에러는 거의 다르지 않다.
    • 추정 에러: 파라미터들이 유한한 샘플로부터 추정된다는 사실로부터 발생하는 에러. 이 에러를 줄이는 가장 좋은 방법은 훈련 데이터 수를 증가시키는 것이다.

Noninformative Prior and Invariance (비정보제공적 사전 밀도와 불변성(3.5.2))(pass) 

  • 일반적으로, 사전 밀도 p(\theta)에 관한 정보는 문제 도메인에 관한 설계자의 지식으로부터 유래한다.
    • c개 부류의 각각이 똑 같은 확률을 가진다고 가정한다.
    • Bayes 프레임 워크에서 단일 부류의 분포에 대한 어떤 파라미터에 관해 "비정보제공적" 사전 밀도를
      가질 수 있다.
    • Bayes 방법들을 사용해서 데이터로부터 어떤 위치 및 스케일 파라미터들(\mu,\sigma로 표기하고, 가우시언의
      평균과 표준편차 또는 삼각 분포의 위치와 폭 또는 기타 등등일 수 있음)을 추론한다 하자.
    • 여기엔 이동 불변성(translation invariance)가 필요
    • 스케일 불변성(scale invariance) 도 필요

Gibbs Algorithm(pass)

p\left( \mathbf{x} \middle| D \right) = \int_{}^{}{p\left( \mathbf{x} \middle| \mathbf{\theta} \right)p\left( \mathbf{\theta} \middle| D \right)d\mathbf{\theta}}

  • 위 적분은 매우 어려울 수 있다.
  • 간단한 대안은 파라미터 벡터 \mathbf{\theta}
    p(\mathbf{\theta}|D)에 따라 뽑고 그 단일 값을 마치 참 값처럼
    사용하는 것이다.
  • 이 Gibbs 알고리즘은 Bayes최적 분류기의 기대 에러보다 많아야 두배의
    오분류 에러를 낸다.

PRML 2.3.9: Mixture of Gaussians(가우시안 분포의 혼합) 

‘오래된 믿음’ 데이터의 도표로, 확률 밀도의 상수 경로가 파란색 곡선으로 그려져 있다. 왼쪽은 단일 가우시안 분포를 최대 가능도 방법으로 데이터에 근사한 것이다. 이 분포는 데이터의 두 큰 무리를 잡아내는 데 실패하였으며, 대부분의 확률 질량이 두 무리 사이의 상대적으로 비어있는 공간에 집중되어 있다. 오른쪽 도표는 두 가우시안 분포의 선형 결합을 이용하여 데이터에 최대 가능도 방법으로 근사한 결과다. 이 방법이 데이터 집합을 더 잘 표현하고 있음을 그림에서 확인할 수 있다.

  • 그림의 데이터셋에서
    • 간단한 가우시안 분포는 이 구조를
      잡아낼수 없었다.
  • p(x) = \sum_{k = 1}^{k}{\pi_{k}N\left( \mathbf{x} \middle| \mathbf{\mu}{k},\mathbf{\Sigma}{k} \right)}
    • \sum_{k = 1}^{k}\pi_{k} = 1
  • 3개의 가우스 혼합.

Problems of Dimensionality(차원의 문제 3.7) 

  • 우리는 대체로 각 특징(feature)이 적어도 판별식들의 일부에라도 유용할
    것이라고 믿을 것이다.
  • 여기에는 두가지 이슈를 직면하게 된다.
    • 가장 중요한 것은 분류 정확도가 차원(그리고 훈련 데이터의 양)에
      어떻게 종속되는가 이다.
    • 두 번째는 분류기 설계에서의 계산 복잡도이다.

3.7.1 Accuracy, dimension, and training sample size(정확도, 차원, 훈련 샘플 사이즈) 

  • 베이즈 오류율 (p\left( x \middle| \omega_{j} \right)\sim N\left( \mu_{j},\Sigma \right),j = 1,2)
    P(e) = \frac{1}{\sqrt{2\pi}}\int_{r/2}^{\infty}{e^{- u^{2}/2}du}\ \ \ 여기서\ r^{2}는\ 제곱\ 마할노비스\ 거리\ r^{2} = \left( \mathbf{\mu}{i} - \mathbf{\mu}{2} \right)^{t}\mathbf{\Sigma}^{- 1}(\mathbf{\mu}{1} - \mathbf{\mu}{2}) - 에러P(e)의 확률은 \mathbf{r}이 증가함에 따라 감소하고(r이 무한대로 접근함에 따라 0에 접근한다.)
    • 조건부 독립적인 경우에,
      \Sigma = diag\left( \sigma_{1}^{2},\ldots,\sigma_{d}^{2} \right)
      이며,
      r^{2} = \sum_{i = 1}^{d}\left( \frac{\mu_{i1} - \mu_{i2}}{\sigma_{i}} \right)^{2}
      • 이것은 각 특징이 어떻게 에러P(e)의 확률을 줄이는 데 기여하는
        지를 보여준다.
    • - 가장 유용한 특징:
      • **표준 편차들에 비해 평균들 간의 차이가 큰 것들.
    • 그러나 두 클래스에 대한 평균들이 다르다면 쓸모 없는 특징은 없다.
  • 일반적으로 주어진 특징 집합으로 얻어진 성능이 부족하다면, 새 특징들, 특히 가장 자주 혼동되는 클래스쌍들을 분리시키는 데 도움을 줄 특징들의 추가를 고려하는 것은 당연하다.
    • 특징 수를 증가시키면, 특징 추출기와 분류기 모두의 비용과 복잡성이 증가한다.
    • 문제의 확률적 구조가 완전히 알려져 있다면, Bayes리스크는 새 특징들의 추가에 의해 증가될 가능성이 없다.

두 개의 3차원 분포들이 겹치지 않는 밀도들을 가지며, 따라서 3차원에서 Bayes에러는 사라진다. 부분공간(여기서는 2차원 x_1-x_2부분공간 또는 1차원 x_1부분공간)에 투영될 때, 투영된 분포들은 겹치게 될 수 있으며, 따라서 Bayes 에러가 더 커질 수 있다.

 

  • 불행이도, 어떤 점을 넘으면 추가적 특징들을 산입해서 성능이 좋아지기보다는 나빠지는게 실제로 자주 관찰되어 왔다.
    • 이 난점의 근본:
    • 잘못된 모델(e.g: 가우시안 가정 또는 조건부 가정이 틀린)인 경우
    • 설계 또는 훈련 샘플 수가 유한(부족)하기에,
    • 분포가 정확하게 추정되지 않는다는 점

3.7.2 Computational complexity(계산 복잡성)

  • 계산 복잡성의 기술적 개념
    • page 111 and A.8 at page633 번역본은 128, A8 at page740
      설계 방법론에 영향을 주는 고려사항은 계산적 어려움이다.
      여기서 계산 복잡성에 대한 기술적 개념이 유용할 것이다.
      우선 함수\mathbf{f(x)}의 등급(order)이라는 개념을 이해해야
      한다. 만일
      모든 x > x_{0}에 대해
      \left| f(x) \right| \leq c\left| h(x) \right|를 만족시키는 상수
      c,\ x_{0}가 존재한다면
      f(x)가 "h(x)의 등급(of the order of h(x))"이다. 라고
      말한다.
    • f(x) = O\left( h(x) \right)라고 쓰며 일반적으로 "h(x)의 빅오(big
      oh of h(x))"라고 읽는다.
      이것은 단순히 충분히 큰 x에 대해서 이 함수의 상한이 h(x)보다 더
      커지지 않음을 의미한다. (자세한 내용은 책 참조)
  • 어떤 알고리즘의 계산 복잡성을 기술할 때, 일반적으로 우리는 필요한
    더하기, 곱하기, 나누기 같은 기본적 수학 연산들의 수나 컴퓨터에서
    필요한 시간과 메모리에 관심이 있다.
    • 이 개념을 예시하기 위해 MLE 즉, d차원의 가우스 사전 밀도들에 대해 한 분류기의 파라미터들의 최대 우도 추정의 복잡도를 c개 분류 각각에 대해 n개의 훈련 샘플을 갖고 고찰한다.
      {g\left( \mathbf{x} \right) = - \frac{1}{2}\left( \mathbf{x} - \boxed{\widehat{\mathbf{\mu}}} \right)^{t}\ \boxed{\mathbf{\Sigma}^{- 1}}\ \left( \mathbf{x} - \widehat{\mathbf{\mu}} \right) - \boxed{\frac{d}{2}\ln{2\pi}} - \boxed{{\frac{1}{2}\ln}\left| \widehat{\mathbf{\Sigma}} \right|} + \boxed{\ln{P(\omega)}} }{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \uparrow O(dn)\ \ \uparrow O\left( nd^{2} \right)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \uparrow O(1)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \uparrow O\left( d^{2}n \right)\ \ \ \ \ \ \ \ \ \ \ \ \ \uparrow O(n) }
      \begin{array}{llll} \uparrow O(d n) \uparrow O\left(n d^2\right) & \uparrow O(1) & \uparrow O\left(d^2 n\right) & \uparrow O(n) \end{array}
    •  당연히 n > d로 가정하며(아니면, 공분산 행렬은 잘 정의된 역을 갖지 않을 것임), 따라서 큰 문제들에 대해 함수 계산의 전체 복잡도는 위 식의 O(d^{2}n)항에 의해 지배될 것이다. 이것은 부류 각각에 대해 수행된다.
    • 따라서 이 Bayes 분류기에서의 학습을 위한 전체 계산 복잡도는 O\left( cd^{2}n \right)이다.
  • 때때로 우리는 공간 복잡도(space complexities)시간 복잡도(time complexities)를 강조하며, 이들은 특히 병렬 구현을 계획할 때 관련이 있다.
    • 시간-공간의 절충
    • 단일 프로세서를 여러 번 사용하거나 여러 프로세서를 병렬로 더 짧은 시간동안 사용하는 것.
  • 일반적인 성질적 구별
    • 다항적으로 복잡한 알고리즘
    • 지수적으로 복잡한 알고리즘(어떤 상수 a와 문제의 양상 또는 변수 k에 대해 \left( O\left( a^{k} \right) \right) 지수적 알고리즘들은 일반적으로 복잡하기에, 적당한 규모의 경우들에서 우리는 이들을 피하고, 다항적으로 복잡한 알고리즘들에 의해 찾아낼 수 있는 근사화 솔루션들로 만족한다.

3.7.3 Overfitting(과적합) {#overfitting과적합}

"훈련 데이터"(흑색 점들)는 가우스 노이즈가 더해진 2차 함수로부터 선택되었다. 즉, f(x) = ax^{2} + bx + c + \epsilon\ \ \ \ \ \ \ \ \ \left( 여기서\ p(\epsilon)\sim N\left( 0,\ \sigma^{2} \right) \right). 그림의 10차 다항식 함수는 데이터에 완벽하게 맞추나, 우리는 그 대신에 2차함수 f(x)를 원한다. 그 이유는 2차 함수가 새로운 샘플들에 대해 더 나은 예측을 제공할 것이기 때문이다.

 

3.8.1 Principal Component Analysis(PCA) (주성분 분석) 

  • 과도한 차원 문제에 대처하는 한 방법은 특징들을 결합해서 차원을 줄이는 것이다.
    선형 결합은 계산이 간단하고 해석학적으로 다루기 쉽기에, 특히 매력적이다.
    • 단일 벡터\mathbf{x}_{0}에 의해 n개의 d-차원 샘플 \mathbf{x}_{1},\ldots,\mathbf{x}_{n}의 집합 내 모든 벡터들을 나타내는 문제를 고찰하는 것으로 시작한다. 더 구체적으로 \mathbf{x}_{0}와 다양한 \mathbf{x}{k}간의 제곱 거리들의 합을 가능한 작게 하는 벡터 \mathbf{x}_{0}을 찾아내길 원한다고 하자.
    • 제곱-에러 기준 함수 J_{0}(\mathbf{x}_{0})J{0}\left( \mathbf{x}_{0} \right) = \sum{k = 1}^{n}\left| \mathbf{x}_{0} - \mathbf{x}_{k} \right|^{2} 로 정의하고, J_{0}을 최소화하는 \mathbf{x}_{0}을 찾기로 한다.
    • 이 문제에 대한 솔루션이 \mathbf{x}_{0} = m으로 주어짐을 보이는 것은 간단하다. 여기서 m은 샘플 평균이다.
      • (아주 간단..?-데이터의 변동성을 드러내지 않는다.)
  • 샘플 평균을 지나는 선에 데이터를 투영시키면, 더 흥미로운 1차원 표현을
    얻을 수 있다.
    • e가 그 선의 방향에 있는 단위 벡터라고 놓자. 그러면 그 선의 식은 \mathbf{x} = \mathbf{m} + a\mathbf{e} 으로 쓸 수 있으며, 여기서 스칼라 a(임의의 실수 값을 취함)는 평균 \mathbf{m}으로부터 임의의 점 \mathbf{x}까지의 거리에 해당한다.
      \mathbf{x}_{k}\mathbf{m} + a_{k}\mathbf{e}\ 로 표현하면, 아래의 제곱-에러 기준 함수를 최소화해서 계수들a_{k}의 최적 집합을 찾을수 있다.

 

pca과정에서 찾게 되는 주 부분 공간이  자주색으로 그려져 있다. 주 부분 공간은 데이터 포인트들(빨간색)의 부분 공간에 대한 직교  투영(녹색)의 분산이 최대가 되는 공간이다. 또다른 PCA의 정의는 파란  선으로 나타난 투영 오류의 제곱합을 최소화하는 것을 기반으로 하고 있다.

\begin{aligned} & J_1\left(a_1, \ldots, a_n, \mathbf{e}\right)=\sum_{k=1}^n\left\|\left(\boldsymbol{m}+a_k \mathbf{e}\right)-\boldsymbol{x}_k\right\|^2=\sum_{k=1}^n\left\|a_k \mathbf{e}-\left(\boldsymbol{x}_k-\boldsymbol{m}\right)\right\|^2 \\ & =\sum_{k=1}^n a_k^2\|\mathbf{e}\|^2-\sum_{k=1}^n a_k \mathbf{e}^t\left(\boldsymbol{x}_k-\boldsymbol{m}\right)+\sum_{k=1}^n\left\|\boldsymbol{x}_k-\boldsymbol{m}\right\|^2 \\ & a_k=\mathbf{e}^t\left(\boldsymbol{x}_k-\boldsymbol{m}\right) \end{aligned}

 

  • 기하학적으로 이 결과는 단순히 샘플 평균을 통과하는 \mathbf{e}의 방향에 있는 선에 벡터 \mathbf{x}_{k}를 투영해서 최소-제곱 솔루션을 얻는다는 것을 말한다.
    이것은 우리를 그 선에 대한 최선의 방향 \mathbf{e}를 찾는 흥미로운 문제로 이끈다.
  • 이 문제의 솔루션은 아래 식으로 정의되는 소위 산포(scatter) 행렬 \mathbf{S}를 포함한다.
    \begin{aligned} & \boldsymbol{S}=\sum_{k=1}^n\left(\boldsymbol{x}_k-\boldsymbol{m}\right)\left(\boldsymbol{x}_k-\boldsymbol{m}\right)^t  \\ & J_1(\mathbf{e})=\sum_{k=1}^n a_k^2-2 \sum_{k=1}^n a_k^2+\sum_{k=1}^n\left\|\boldsymbol{x}_k-\boldsymbol{m}\right\|^2 \\ & =-\sum_{k=1}^n\left[\mathbf{e}^t\left(\boldsymbol{x}_k-\boldsymbol{m}\right)\right]^2+\sum_{k=1}^n\left\|\boldsymbol{x}_k-\boldsymbol{m}\right\|^2  \\ & =-\sum_{k=1}^n \mathbf{e}^t\left(\boldsymbol{x}_k-\boldsymbol{m}\right)\left(\boldsymbol{x}_k-\boldsymbol{m}\right)^t \mathbf{e}+\sum_{k=1}^n\left\|\boldsymbol{x}_k-\boldsymbol{m}\right\|^2 \\ & =-\mathbf{e}^t \boldsymbol{S} \mathbf{e}+\sum_{k=1}^n\left\|\boldsymbol{x}_k-\boldsymbol{m}\right\|^2 \end{aligned}
    J{1}을 최소화하는 벡터 \mathbf{e}\mathbf{e}^{t}\mathbf{S}\mathbf{e}를 최대화한다.
    제한조건 \left| \mathbf{e} \right| = 1을 따라서 \mathbf{e}^{t}\mathbf{S}\mathbf{e}를 최대화하기 위해 Lagrange 승수법을 사용한다.
    \lambda를 미결정 승수라고 놓고,
    \begin{aligned} &u=\mathbf{e}^{\mathbf{t}} \mathbf{S} \mathbf{e}-\lambda\left(\mathbf{e}^{\mathrm{t}} \mathbf{e}-1\right) \text { 을 } \mathbf{e} \text { 에 대해 미분하면 } \\ &\begin{aligned} & \frac{\partial u}{\partial \mathbf{e}}=2 \boldsymbol{S} \mathbf{e}-2 \lambda \mathbf{e} \text { 이 기울기 벡터를 } 0 \text { 으로 놓으면, } \mathrm{e} \text { 가 산포행렬의 고유 벡터이므로 } \\ & \boldsymbol{S} \mathbf{e}=\lambda \mathbf{e} \\ & \mathbf{e}^{\mathrm{t}} \boldsymbol{S}=-\lambda \mathbf{e}^{\mathrm{t}} \mathbf{e}=\lambda  \end{aligned} \end{aligned}
    우리는 \mathbf{e}^{t}\mathbf{S}\mathbf{e}를 최대화하기 위해서 산포행렬의 최대 고윳값에 해당하는 고유 벡터를 선택하기 원한다.
    데이터의 최선의 1차 투영(최소-제곱-에러-합 관점에서 최선인)을 찾기 위해서 산포행렬의 가장 큰 고윳값에 해당하는 고유 벡터의 방향의 샘플 평균을 지나는 선에 데이터를 투영한다.
  • 이 결과는 1차원 투영에서 d^{'}-차원 투영으로 쉽게 확장될 수 있다.
    \mathbf{x} = \mathbf{m} + \sum_{i = 1}^{d^{'}}{a_{i}\mathbf{e}{i}}\ \ \ \ \ \ \ \ \ \ \cdots 여기서\ d^{'} \leq d이다. * a{i}는 평균 \mathbf{m}에서 임의의 점 \mathbf{x}까지의 거리에 해당
  • 기하학적으로, 데이터 점들 \mathbf{x}{1},\ldots,\ \mathbf{x}{n}d-차원 초타원 형태의 무리를 형성하는 것으로 본다면, 산포 행렬의 고유 벡터들은 그 초타원체의 주축들이다.
  • 주성분분석(Principal Component Analysis:PCA)는 무리의 산포가 가장 큰 방향들에 주의를 제한해서 특징 공간의 차원을 줄인다.

 

3.8.2 Fisher Linear discriminant (Fisher 선형 판별식) 

  • PCA
    • 데이터를 표현하는데 유용한 성분을 찾아낸다.
    • 하지만 이 성분들이 서로 다른 클래스의 데이터를 판별하는데 유용해야 한다고 가정할 이유가 없음.
  • 만약 모들 샘플을 풀링한다면, PCA에 의해 버려진 방향들은 바로 클래스들을 구분하는 데 필요한 방향들이 될 것이다.
    • 예시로 인쇄체 대문자 O와Q에 대한 데이터를 갖고있을 때, 이를 특징짓는 특징을 발견할 수도 있으나, 구분에 필요한 꼬리부분을 무시할 수도 있다.
      PCA가 표현에 효율적인 방향들을 찾는다면, 판별분석은 판별에 효율적인 방향들을 찾는다.

 

선형 차원 감소 테크닉으로써의 PCA와 피셔 선형 판별을 비교한 도식, 여기서 데이터는 이차원이며, 빨간색과 파란색으로 표현한 두 클래스에 속해 있다. 각 테크닉을 이용해서 이 데이터들을 일차원에 투영한 것이다. PCA는 가장 분산이 큰 방향(자주색 선)을 선택하게 되는데, 그 결과 클래스 간에 심한 중첩이 발생하는 것을 볼 수 있다. 반면에 피셔 선형 분석은 클래스 라벨을 고려한다. 그 결과로 얻게 된 녹색 선은 클래스들을 분리하는 데 있어서 훨씬 용이하다.

  • d차원들로부터의 데이터를 선에 투영하는 문제를 고찰하는 것으로 시작한다.
    • n개의 d-차원 샘플 x_{1},\ldots,\ x_{n}의 집합과 \omega_{1}로 레이블링된 부분집합 D_{1}n_{1}개 샘플, \omega_{2}로 레이블링된 부분집합 D_{2}n_{2}개 샘플이 있다고 하자.
      \mathbf{x}의 요소들의 선형 결합을 형성하면, 스칼라 내적(dot product)을 얻는다.
      y = \mathbf{w}^{t}\mathbf{x}
    • 선을 이리저리 움직여 보면, 투영된 샘플들이 잘 분리되는 방향을 찾을수 있다.
    • 방향 \mathbf{w}가 중요하다.
w로 표시된 방향의 두 개의 서로 다른 선으로의 같은 샘플 집합의 투영, 오른쪽 그림이 빨강색 및 흑색 점들 간의 더 큰 분리를 보여준다.
  • 가장 좋은 \mathbf{w}방향을 찾아보자. 투영된 점들 간의 분리의 척도는 샘플 평균의 거리이다.
    \begin{array}{ll} \boldsymbol{m}_i=\frac{1}{n_i} \sum_{\boldsymbol{x} \in D_i} \boldsymbol{x} \ \ \ \ \ \ \cdots d \text { 차원 샘플 평균 }  \\ \tilde{m}_i=\frac{1}{n_i} \sum_{y \in y_i} y=\frac{1}{n_i} \sum_{\boldsymbol{x} \in D_i} \boldsymbol{w}^t \boldsymbol{x}=\boldsymbol{w}^t \boldsymbol{m}_i \cdots \text { 투영된 점들에 대한 샘플 평군(단순히 } m_i \text { 의 투영이다.) } \\ \left|\widetilde{m}_1-\widetilde{m}_2\right|=\left|\boldsymbol{w}^t\left(\boldsymbol{m}_1-\boldsymbol{m}_2\right)\right|  \ \ \ \ \ldots \text { 투영된 평균들 간의 거리. } \end{array}

단순히 w를 스케일링해서 이 차이를 원하는 만큼 크게 만들 수 있다.
투영된 데이터의 좋은 분리를 위해, 평균들 간의 거리가 각 클래스에 대한
어떤 척도의 표준편차에 비해 크기를 원한다. 샘플 분산들을 만들기보다는
\omega_{i}로 레이블링 된 투영된 샘플들에 대한 산포(scatter)를 아래
식으로 정의한다.
{\widetilde{s}}{i}^{2} = \sum{y \in \mathcal{Y}{i}}^{}\left( y - {\widetilde{m}}{i} \right)^{2}

  • Fisher 선형 판별은 기준함수J(w) = \frac{|{\widetilde{m}}{1} - {\widetilde{m}}{2}|}{{\widetilde{s}}{1}^{2} + {\widetilde{s}}{2}^{2}}가 최대가 되며, \left| \mathbf{w} \right|에 독립적인 선형 함수 \mathbf{w}^{t}\mathbf{x}를 채택한다.
  • 다중 판별 분석
    • c-클래스 문제에 대한 선형 판별식의 일반화 문제.

3.9 Expectation-Maximization(EM)(기대-최대화) 

  • 특징의 일부가 누락된 훈련 점 들로부터의 분포를 제어하는 파라미터들의 학습을 가능하게 하기 위해 최대 우도 (maximum-likelihood)기법의 적용을 확장할 수 있다.
  • EM 알고리즘의 기본적 개념은 데이터가 주어졌을 때 반복적으로 존재하는 우도를 추정하는 것이다.

3.10 Hidden Markov Models

-skip

Posted by creatoryoon
,