*정의 


1. X:J->R, rdv, f:pdf of X, 이때 Information entropy(or Shannon entropy) of X is defined as H(X):=(-1)*E[ln(f(X))]

(이때 밑이 2인 log를 사용할 경우 단위는 비트이고 자연로그를 사용할 경우 단위는 nat이다.)

(혹은 H(f)라고도 쓴다.)


2. X,Y:J->R, rdv, f,g:pdf of X,Y, 이때 두 분포의 Kullback-Leibler divergence, KLD is defined as 

D_(KL)(f||g) = int from x=-inf to x=inf f(x)*log(f(x)/g(x))dx (Radon-Nikodym derivative를 사용한 것도 있다.위키참조)


3. H(f,g), the cross entropy between f,g, := E[-log(g)] using pdf f





*의의


1.

-H(X) using parameter p1 > H(X) using parameter p2라면, parameter 값이 p1일 때 불확실성이 더 높다는 의미를 가진다. 예를 들면 동전던지기의 경우, 동전의 앞면이 나올 확률이 1/2일 때가 entropy값이 가장 높게 나오고 그때가 불확실성이 가장 높다는 것. 즉 entropy란 불확실성을 정량화한 지표이다.

-H(f)란 f를 묘사하기위해 필요한 불확실성(정보량)을 가리킨다. 


2. 

-D_(KL)(f||g)는 f가 있는데 샘플링 과정에서 그 f를 근사적으로 표현하는 확률분포 g를 f대신에 사용할 경우 엔트로피 변화를 의미한다. 

-따라서 D_(KL)(f||g) = H(f,g) - H(f)


3. 

-H(f,g)란 f를 묘사하기위해  g를 쓸 경우 필요한 정보량(불확실성)을 가리킨다.

-machine learning and optimization에서 사용되기도 하는데, error function(=cost, loss function)으로서 사용한다. 

-예를 들면 logistic regression의 경우, 분류의 실제 분포가 베르누이를 따른다고 하고 (p=P(y=1)), 실제로 우리가 regression을 통해 얻은 분포(g=P(y=1|x), 

이때 H(p,g)=(-p)*log(g) - (1-p)*(log(1-g)), 이값이 작아지도록 regression 계수 추정 가능(대게는 Maximum likelihood method사용하기도 하지만)

-혹은 samples모두 의 H(p,g)의 평균을 줄이는 방향으로 regression 계수 추정하기도 함


+ Recent posts