Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

Intreoduction

Bayesian Decision Theory

-       근본적인 통계 패턴 분류 문제에 대한 접근
-       
다양한 분류간의 트레이드 오프를 정량화하는 것을 기반
-       
확률을 이용한 결정과 그러한 결정에 수반되는 비용

State of nature ω  자연의 상태

-        ω=ω1 을 위한 sea bass, ω=ω2 를 위한 salmon

-       자연의 상태는 예측불가
-       
확률적으로 기술되어야 하는 변수

A priori probability

-       Seabass, salmon에 대한 사전지식의 반영

P(ω1): Seabass일 사전확률

P(ω2): Salmon일 사전확률

P(ω1)+P(ω2)=1 (, 다른 생선이 없다면.)

Decision Rule

-       물고기를 보지 못하고 결정해야 한다면?
P(ω1)>P(ω2) 
ω1 판정, 반대라면 반대로 판정

 

클레스-조건부(class-conditional)확률 밀도 함수 p(xω)

-       자연의 상태가 ω  라고 주어졌을 때, 에 대한 확률 밀도 함수

p(xω1),p(xω2)간의 차이는 SeabassSalmon의 모집단 간 밝기의 차이를 묘사

 

부류 ωj 에 있고 특징 값를 갖는 패턴을 발견할 결합 확률 밀도는 두 가지 방법을 쓸 수 있다:

p(ωj,x)=P(ωjx)p(x)=p(xωj)P(ωj)

Bayes formula

P(ωjx)=p(xωj)P(ωj)p(x)

이때 이 두부류의 경우는 p(x)=2j=1p(xωj)P(ωj). posterior = likelihood × prior  evidence 

Bayes 공식은x 의 값을 관찰함으로써 사전확률prior을 사후확률posterior(특징x 가 측정되었을 때 자연 상태가ωj 일 확률) 로 전환할 수 있다. p(xωj)x에 대한 ωj우도(likelihood)라고 부른다.

 

클레스 조건부 확률 밀도에 대한 특정 사정 확률에 대한 사후 확률. 모든 x에서 사후확률의 합은 1.0이다.

P(ω1)=23 and P(ω2)=13

 

Probability of error when decision is made

결정 방법은 P( error x)={P(ω1x) if decide ω2P(ω2x) if decide ω1

- 결정을 내릴 때 오류가 나올 확률은,P( error )=p( error,x)dx=P( error x)p(x)dx 만일 모든 x에 대해 P(errorx) 를 작게 만든다면 이 적분은 가능한 작아야 한다.

 

P(ωjx)=p(xωj)P(ωj)p(x)

Bayes Decision Rule (for minimizing the probability of error)

- Decide ω1 if p(ω1x)P(ω1)>p(ω2x)P(ω2);ω2 로 판정 otherwise

- p(x) : 는 결정에 있어서는 크게 중요하지 않음 (P(ω1x)+P(ω2x)=1)

 

Decide ω1 if p(ω1x)P(ω1)>p(ω2x)P(ω2);ω2 로 판정 otherwise

사후 확률의 역할을 강조.
-
만일 어떤 x에 대해서 p(xω1)=p(xω2)라면 판정은 전적으로 사전 확률에 의해 정해진다.
- P(ω1)=P(ω2)라면 판정은 전적으로 우도p(xωj) 근거하게 된다.

 

 

Bayesion decion theory – continuious features(연속적 특징)

Bayesian Theory의 일반화

-       둘 이상(more than one feature)의 특징을 사용하는 것을 허용하는 것
-
스칼라 x

를 특징vector x

로 대체
-
x

특징공간이라고 부르는 d

-차원 유클리드 공간 Rd

에 속함

Bayesion decion theory – continuious features(연속적 특징)

Bayesian Theory의 일반화

- 둘 이상(more than one feature)의 특징을 사용하는 것을 허용하는 것
-
스칼라 를 특징vector 로 대체
-
특징공간이라고 부르는 d-차원 유클리드 공간 Rd 에 속함

 

- 셋 이상(more than two states)의 자연의 상태를 허용하는 경우

- {ω1,,ωc}:c개의 자연의 상태(“categories”)의 유한 집합

 

- 분류 외의 행동을 허용하는 것

- {α1,,αa}: a개의 가능한 행동의 유한 집합

 

그림은 분류기준을 만들 때, 일정 수준 이하는 결정을 못하게 하는경우. - 사람이 해야함 .....확실한 것만 분류기가 분류하게 한다.

- 오류 확률(probability of error)보다 더 일반적이라 할 수 있는 손실 함수(loss function)를 도입.
  -
손실 함수는 각 행동의 비용을 정확하게 나타내며, 확률 측정을 판정으로 전환에 사용된다.
λ(αiωj) : 자연의 상태가 αi 일 때, ωj 라는 행동을 취해서 초래되는 손실

P(ωjx)=p(xωj)P(ωj)p(x) 이때, p(x)=cj=1p(xωj)P(ωj)

 

행동 αi를 취하는 것과 관련된 기대 손실은 단순하게 R(αix)=cj=1λ(αiωj)P(ωjx)

-       판정-이론 용어로는 기대 손실을 리스크라고 부르며, R(αix) 를 조건부 리스크라고 부른다.

-      문제는 P(ωj)에 대해 전체적 리스크를 최소화하는 판정 룰을 찾는 것.

R=R(α(x)x)p(x)dxR : 최소화된 전체적 리스크

 

-      전체적 리스크를 최소화하기 위한 조건부 리스크 계산 R(αi(x)) 가 가능한 작도록 α(x)가 선택된다면 전체적 리스크는 최소화

R(αix)=cj=1λ(αiωj)(ωjx)

i=1,,a 에 대해 계산하고, R(αix) 가 최소인 행동 αi 를 선택

 

Bayesion decion theory – 두 부류(Two-Category) 분류

-     α1 자연의 참 상태가 ω1 이라고 판정을 내리는 것

-     α2 자연의 참 상태가 ω2 이라고 판정을 내리는 것

-     λij=λ(αiωj): 자연의 참 상태가 ωj일 때 ωi라고 판정시 따르는 손실 이를 적용해서 R(αix)=cj=1λ(αiωj)(ωjx) 를 다시 쓰면

-      조건부 리스크 R(α1x)=λ11P(ω1x)+λ12P(ω2x)R(α2x)=λ21P(ω1x)+λ22P(ω2x)
λ11,λ22 는 잘한 것

-      최소 리스크 판정 룰을 표현하는 다양한 방법 
1. R(α1x)<R(α2x) 이면 ω1 로 판정
2. (λ21λ11)P(ω1x)>(λ12λ22)P(ω2x) 일 때 ω1 이라고 판정(사후확률로 표현)
3. (λ21λ11)p(xω1)P(ω1)>(λ12λ22)p(xω2)P(ω2) 이면 ω1 로 판정하고 아니면 ω2 로 판정 (Bayes공식을 사용함으로 사후 확률을 사전 확률과 조건부 밀도로 대체)
4. λ21>λ11 이라는 논리적 가정 하에서 만약 p(xω1)p(xω2)>λ12λ22λ21λ11P(ω2)P(ω1) 이면 ω1 로 판정 

(Likelihood ratio: 이 형태의 판정 룰은 확률 밀도들의 x-종속성에 초점을 맞춘다. p(xωj)ωj 의 함수(즉, 우도 함수)로 간주하고 우도 비 p(xω1)p(xω2) 를 만들 수 있다. 따라서 Bayes 판정 룰은 관찰 x 에 독립적인 어떤 문턱 값을 우도비가 넘으면 ω1 로 판정할 것을 요구하는 것으로 해석)

 

Bayesion decion theory – Minimum-error-rate Classification(최소 에러율 분류)

에러를 피하기 위해서는 자연의 상태와 차이가 가장 적은(오류를 최소화하는) 판정 룰을 찾는 것이 당연하다.

Zero-One loss function

λ(αiωj)={0i=j1iji,j=1,,c

 

-       옳은 판정에 대해서는 손실이 없음

-       모든 에러에 단위 손실을 부여

-       모든 에러는 같은 비용이 든다.

 

cj=1λ(αiωj)P(ωjx)=jiP(ωjx)=1P(ωix)

조건부 리스크를 최소화하는 행동을 선택 if. P(ωix)>P(ωjx) we decide ωiji

 

The likelihood ratio p(xω1)/p(xω2)

p(xω1)p(xω2)>λ12λ22λ21λ11P(ω2)P(ω1)

만일 0-1 분류 손실을 채택하면 판정 경계들은 문턱치 θa 에 의해 결정된다. 만약 손실함수가 ω2ω1 로 오분류하는 것에 큰 패널티를 가한다면, 더 큰 문턱치  thetab 를 가지고, R1 은 더 작아진다.

 

 

 

Classifiers, Discriminant functions, and Decision surfaces

다분류 경우

패턴 분류기를 표현하는 다양한 방법중에 가장 쓸만한 방법중 하나
-
판별함수gi(x),i=1,,c 에 의한 것

- 만일 gi(x)>gj(x)ji 이면 특징 벡터 x 를 클레스 ωi 에 할당한다.

 

분류기

-      분류기는 c개의 판별 함수를 계산하고 최대 판별식에 해당하는 부류를 선택하는 네트워크 또는 기계

gi(x)={g1(x)=0.1g2(x)=0.05gn(x)=0.85 중 가장 큰 것 선택

 

 

판별 함수들의 선택은 유일하지 않다.

gi(x)=R(αix) (for risk)
gi(x)=P(ωix)( for minimum  error  rate )

 

판별함수의 수정이 가능

판정에 영향을 주지 않고 우리는 항상 모든 판별 함수들을 같은 양의 상수로 곱하거나 같은 상수를 더해서 이동시킬 수 있다. 더 일반적으로는 모든 gi(x) 를 단조증가함수 f() 에 의해 f(gi(x)) 로 대체시, 그로인한 분류는 변하지 않는다. 이것은 현저한 분석 및 계산 단순화로 이끌 수 있다.

{gi(x)=P(ωix)=p(xωi)P(ωi)Σcp(xωj)P(ωj)gi(x)=p(xωi)P(ωi)gi(x)=lnp(xωi)+lnP(ωi)

모든 판정 룰의 효과는 특징 공간을 c 개의 판정 영역 R1,,Rc 로 나누는 것 

 

두 분류 경우

이분기(dichotomizer)
두 부류 경우는 다부류의 일종이나 정통적으로 독립해 다뤄왔다.
두 판별 함수 대신 단일 판별 함수를 정의하고 판정하는 것이 더 보편적이다.
g(x)g1(x)g2(x)

g(x)>0 이면 ω1, 아니면 ω2 로 판정
g(x)=P(ω1x)P(ω2x)
g(x)=lnp(xω1)p(xω2)+lnP(ω1)P(ω2)

 

The normal density

Normal density인가?

-       분석의 용이함(해석학적으로 다루기 쉬움)으로, 다변량 normal밀도, 또는 Gaussian밀도는 많은 관심을 받았다.

-        중요한 상황에 적합한 모델. class ωj에 특징벡터 x가 단일 또는 프로토타입 벡터 μi의 연속적 값을 가지고 랜덤하게 오염된 버전일 경우에 적합.

Expectation (expected value)
E[f(x)]=f(x)p(x)dx
만약 특징 x 의 값들이 이산 집합 D 의 점이라면.
E[f(x)]=xDf(x)P(x)

The normal density – 단변량 밀도

p(x)=12πσexp[12(xμσ)2]

 

- 평균
μ=E[x]=xp(x)dx
- 분산
σ2=E[(xμ)2]=(xμ)2p(x)dxp(x)N(μ,σ2)
x 는 평균 μ 와 분산 σ2 에 의해 분포된다.

 

 

The normal density – 다변량 분포

 

p(x)N(μ,Σ)p(x)=1(2π)d/2|Σ|1/2exp[12(xμ)tΣ1(xμ)]
- 평균 벡터
 - μ=E[x]=xp(x)dx
- 공분산 행렬 (Convariance)
Σ=E[(xμ)(xμ)t]=(xμ)(xμ)tp(x)dx[xμ]=[σ11σnn]
- 통계적 독립성(statistical independence)
만약 xixj 가 통계적으로 독립적이면, σij=0 일 것이다. 만약 모든 비대각선 요소들이 0 이면, p(x)x 의 요소들에 대한 단변량 노멀 밀도들의 곱으로 축소된다.

 

 

- 독립적이거나 아니거나, 결합적으로(jointly) 노멀하게 분포 하는 랜덤 변수들의 선형 결합(combination)은 노멀하게 분포한다.
p(x)N(μ,Σ)y=Atxp(y)N(Atμ,AtΣA)y=Aty=[y1y2]=[10A01][x1x2]
-임의의 다변량 분포를 구형(spherical)분포로 변환(공분산 행렬이 항등 행렬 I 에 비례하는 분포)할 수 있다. (백색변환)
Aω=ΦΛ1/2
Φ : 열들이 Σ 인 정규직교 고유 벡터들인 행렬
Λ : 해당 고윳값들의 대각선 행렬

 

- 다변량 정규분포는 d+d(d+1)/2 개의 파라미터 즉, 평균 벡터 μ 의 요소들과 공분산 행렬 Σ 에 의해 완전하게 정의된다.

 

- 아래 그림에서:↓
- 클러스터의 중심은 평균 벡터에 의해 결정 
- 클러스터의 모양은 공분산 행렬에 의해 결정.
- 상수 밀도의 점들의 위치는 (xμ)tΣ1(xμ) 가 상수 인 초타원체들이다
- 이 초타원체들의 주축은 Φ 에 의해 묘사되는 Σ 의 고유 벡터들에 의해 주어지며,  
고윳값들 (Λ) 은 이 축들의 길이를 결정한다.
- Mahalanobis distance (from x to μ ) 마할라노비스 거리 $r^2=(\boldsymbol{x}-\boldsymbol{\mu})^t \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}) 
(분산이 커지면, 거리는 작게 해석)

(PRML 2.3) The Gaussian Distribution

빨간색 선은 이차원 공간 x=(x1,x2) 상에서의 상수 가우시안 확률 분포의 타원형 표면을 나타낸다. 여기서 말도는 x=μ 일 경우의 값의 exp(1/2) 에 해당한다. 타원의 축들은 공분산 행렬의 고유 벡터들 ui 에 의해 정의 되 며, 각각의 축은 각각의 고윳값 λi 에 대응된다.

 

이차원 가우시안 분포에서의 상수확률 밀도의 경로.
(a)
는 공분산 행렬의 형태가 일반적일 경우
(b)
는 공분산 행렬이 대각 행렬인 형태
(c)
는 공분산행렬이 항등행렬의 상수배일 경우이며 이 경우 경로가 동심원의 형태를 띈다.

정규분포에 대한 판별 함수

- 최소 에러율 분류는 아래의 판별 함수로 달성될 수 있다.
p(x)=1(2π)d/2|Σ|1/2exp[12(xμ)tΣ1(xμ)] 에 의해 gi(x)=12(xμi)tΣ1i(xμi)d2ln2π12ln|Σi|+lnP(ωi)

 

- 판별함수의 3가지 경우

1. Σi=σ2I
2. Σi=Σ
3. Σi= arbitrary

 

Case 1: Σi=σ2I

- 가장 간단한 경우
-
특징들이 통계적으로 독집적이고 각 특징이 같은 분산 σ2
를 가짐.
-
기하학적으로 샘플들이 같은 크기의 초구 클러스터에 놓이는 상황
i 번째 클래스에 대한 클러스터는 평균 벡터 μi 가 중심으로 함.
- Σi 의 행렬식과 역의 계산이 쉬움 

|Σi|=σ2dΣ1i=1σ2I

 

- gi(x)=12(xμi)tΣ1i(xμi)d2ln2π12ln|Σi|+lnP(ωi)

Σ1i,|Σi|,ln2πi 에 대해 독립 
gi(x)=
여기서 \left\|x-\mu_i\right\|^2=\left(x-\mu_i\right)^t\left(x-\mu_i\right) 이며, 유클리드 놈을 나타냄.

 

- g_i(\boldsymbol{x})=-\frac{1}{2 \sigma^2}\left[\boldsymbol{x}^t \boldsymbol{x}-2 \boldsymbol{\mu}_i^\tau \boldsymbol{x}+\boldsymbol{\mu}_i^\tau, \boldsymbol{\mu}_i\right]+\ln P\left(\omega_i\right)
g_i(x)=\boldsymbol{w}_{\boldsymbol{i}}^t \boldsymbol{x}+\omega_{i 0} 여기서 w_i=\frac{1}{\sigma^2} \boldsymbol{\mu}_i and \omega_{i 0}=\frac{-1}{2 \sigma^2} \boldsymbol{\mu}_i^t \boldsymbol{\mu}_i+\ln P\left(\omega_i\right)

 

 

- 선형 식 g_i(x)=g_j(x) 에 의해 정의되는 초평면들

\mathbf{w}^t\left(\mathbf{x}-\mathbf{x}_0\right) 여기서 \mathbf{w}=\boldsymbol{\mu}_i-\boldsymbol{\mu}_j and \mathbf{x}_0=\frac{1}{2}\left(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j\right)-\frac{\sigma^2}{\left\|\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right\|^2} \ln \frac{P\left(\omega_i\right)}{P\left(\omega_j\right)}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)

Case2: \boldsymbol{\Sigma}_{\boldsymbol{i}}=\boldsymbol{\Sigma}


- 모든 클래스의 공분산 행렬이 동일하다.
- 샘플들이 같은 크기와 모양의 초타원체 클러스터에 놓이는 상황에 해당
- i 번째 클래스의 클러스터는 평균 벡터 \boldsymbol{\mu}_i 를 중심으로 한다.

g_i(x)=-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{\boldsymbol{i}}\right)^t \boldsymbol{\Sigma}_i^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)-\frac{d}{2} \ln 2 \pi-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_i\right|+\ln P\left(\omega_i\right)
\frac{d}{2} \ln 2 \pi,\left|\boldsymbol{\Sigma}_i\right| 가 i 에 대해 독립
\rightarrow g_i(\boldsymbol{x})=-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)^t \boldsymbol{\Sigma}_i^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)-\ln P\left(\omega_i\right)
- i 에 독립적인 2차 항 \boldsymbol{x}^t \boldsymbol{\Sigma}_i^{-1} \boldsymbol{x} 를 빼면,
g_i(\boldsymbol{x})=\boldsymbol{w}_i \boldsymbol{x}+\omega_{i 0} 여기서 \boldsymbol{w}_i=\boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}_i and \omega_{i 0}=-\frac{1}{2} \boldsymbol{\mu}_i^t \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}_i+\ln P\left(\omega_i\right)
이 판별식들은 선형적이므로 그로 인한 경계는 초평면이다. 이 초평면의 경계 식은.
\boldsymbol{w}^t\left(\boldsymbol{x}-\boldsymbol{x}_0\right)=1 where \boldsymbol{w}_i=\boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}_i and \boldsymbol{x}_0=\frac{1}{2}\left(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j\right)-\frac{\ln \left[P\left(\omega_i\right) / P\left(\omega_j\right)\right]}{\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)^t \boldsymbol{\Sigma}^{-1}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right)
- \boldsymbol{w}=\boldsymbol{\Sigma}^{-1}\left(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j\right) 는 일반적으로 \boldsymbol{\mu}_i-\boldsymbol{\mu}_j 방향이 아니기 때문에 영역을 분리하는 초평면은 일반적으로 이 평균들을 잇는 선에 직교하지 않는다.

 

Case3: \Sigma_i=\operatorname{arbitrary}( (임의적)


- 일반적인 정규분포의 경우 공분산 행렬은 각 부류마다 다르다.
\begin{aligned} & g_i(x)=-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)^t \boldsymbol{\Sigma}_i^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_i\right)-\frac{d}{2} \ln 2 \pi-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_i\right|+\ln P\left(\omega_i\right) \\ & \frac{1}{2} \ln 2 \pi \text { 만이 i에 대해 독립 } \\ & \rightarrow g_i(\boldsymbol{x})=\boldsymbol{x}^t \boldsymbol{W}_i \boldsymbol{x}+\boldsymbol{w}_i^t \boldsymbol{x}+\omega_{i 0^2}  \\ & \text { where, } \boldsymbol{W}_i=-\frac{1}{2} \boldsymbol{\Sigma}_i^{-1}, \boldsymbol{w}_i=\boldsymbol{\Sigma}_i^{-1} \boldsymbol{\mu}_i \text { and }  \\ & \omega_{i 0}=-\frac{1}{2} \boldsymbol{\mu}_i^t \boldsymbol{\Sigma}_i^{-1} \boldsymbol{\mu}_i-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_i\right|+\ln P\left(\omega_i\right)  \end{aligned}

 

 

4개의 정규분포에 대한 판정 영역. 경계영역의 모양은 꽤 복잡해질 수 있다.

EXAMPLE1: 2차원 가우스 데이터에 대한 판정 영역

(에러확률과 적분)

정규 분포의 오차 범위

 

 

ROC(receiver operation characteristic)(수신기 동작 특성)

 

횡좌표는 허위 경고 확률이고, 세로 좌표는 히트 확률이다. 여기서는 히트 및 허위 경고율로부터 d&rsquo;=3을 추론가능

Bayes decision theory-이산적 특징

- 많은 실제 응용에서 구성요소 (특징벡터) x 2, 3, 또는 더 높은 진수의 정수값을 가지고, x 는 m 개의 이산 값 v_1, \ldots, v_m 중 하나만 취할 수 있다.
\int p\left(x \mid \omega_j\right) d x \rightarrow \sum_x P\left(x \mid \omega_j\right)

- bayes 공식은 확률 밀도가 아닌 확률들을 포함

P\left(\omega_j \mid x\right)=\frac{P\left(x \mid \omega_j\right) P\left(\omega_j\right)}{P(x)} \quad P(x)=\sum_{j=1}^c P\left(x \mid \omega_j\right) P\left(\omega_j\right)

- 조건부 리스크 R(\alpha \mid x) 의 정의는 변하지 않으며, bayes판정 룰도 동일하다.
- 사후 확률을 최대화하여 오류율을 최소화하는 기본 룰도 바뀌지 않는다.

 

독립적 2진 특징

- 특징 벡터의 요소들이 2진 값이고, 조건부 독립인 2부류 문제를 고려
\begin{aligned} & \text { Let } x=\left(x_1, \ldots, x_d\right)^t \text { 여기서 요소 } x_i \text { 는 } 0 \text { 또는 } 1 \text { 로 놓고 확률들은 다음과 같다. } \\ & p_i=\operatorname{Pr}\left[x_i=1 \mid \omega_1\right] \text { and } q_i=\operatorname{Pr}\left[x_i=1 \mid \omega_2\right] \\ & \rightarrow P\left(x \mid \omega_1\right)=\prod_{i=1}^d p_i^{x_i}\left(1-p_i\right)^{1-x_i} \text { and } P\left(x \mid \omega_2\right)=\prod_{i=1}^d q_i^{x_i}\left(1-q_i\right)^{1-x_i} \\ & \end{aligned}
그럼 우도비는
\frac{P\left(x \mid \omega_1\right)}{P\left(x \mid \omega_2\right)}=\prod_{i=1}^d\left(\frac{p_i}{q_i}\right)^{x_i}\left(\frac{1-p_i}{1-q_i}\right)^{1-x_i}

\begin{aligned} & \text { - 판별함수 }\left(g(x)=P\left(\omega_1 \mid x\right)-P\left(\omega_2 \mid x\right)-(30), g(x)=\ln \frac{p\left(x \mid \omega_1\right)}{p\left(x \mid \omega_2\right)}+\ln \frac{P\left(\omega_1\right)}{P\left(\omega_2\right)}-(31)\right. \text { 로 부터) } \\ & g(x)=\sum_{i=1}^d\left[x_i \ln \frac{p_i}{q_i}+\left(1-x_i\right) \ln \frac{1-p_i}{1-q_i}\right]+\ln \frac{P\left(\omega_1\right)}{P\left(\omega_2\right)} \end{aligned}
- 이 판별 함수는 x_i 에서 선형적이다. 따라서...
\begin{aligned} g(\boldsymbol{x}) & =\sum_{i=1}^d \omega_i x_i+\omega_0  \\ \text { 여기서 } \omega_i=\ln \frac{p_i\left(1-q_i\right)}{q_i\left(1-p_i\right)} \quad i=1, \ldots, d \quad & \omega_0=\sum_{i=1}^d \ln \frac{1-p_i}{1-q_i}+\ln \left(\frac{P\left(\omega_1\right)}{P\left(\omega_2\right)}\right) \end{aligned}

 

Posted by creatoryoon
,