*정의
1. X:J->R, rdv, f:pdf of X, 이때 Information entropy(or Shannon entropy) of X is defined as H(X):=(-1)*E[ln(f(X))]
(이때 밑이 2인 log를 사용할 경우 단위는 비트이고 자연로그를 사용할 경우 단위는 nat이다.)
(혹은 H(f)라고도 쓴다.)
2. X,Y:J->R, rdv, f,g:pdf of X,Y, 이때 두 분포의 Kullback-Leibler divergence, KLD is defined as
D_(KL)(f||g) = int from x=-inf to x=inf f(x)*log(f(x)/g(x))dx (Radon-Nikodym derivative를 사용한 것도 있다.위키참조)
3. H(f,g), the cross entropy between f,g, := E[-log(g)] using pdf f
*의의
1.
-H(X) using parameter p1 > H(X) using parameter p2라면, parameter 값이 p1일 때 불확실성이 더 높다는 의미를 가진다. 예를 들면 동전던지기의 경우, 동전의 앞면이 나올 확률이 1/2일 때가 entropy값이 가장 높게 나오고 그때가 불확실성이 가장 높다는 것. 즉 entropy란 불확실성을 정량화한 지표이다.
-H(f)란 f를 묘사하기위해 필요한 불확실성(정보량)을 가리킨다.
2.
-D_(KL)(f||g)는 f가 있는데 샘플링 과정에서 그 f를 근사적으로 표현하는 확률분포 g를 f대신에 사용할 경우 엔트로피 변화를 의미한다.
-따라서 D_(KL)(f||g) = H(f,g) - H(f)
3.
-H(f,g)란 f를 묘사하기위해 g를 쓸 경우 필요한 정보량(불확실성)을 가리킨다.
-machine learning and optimization에서 사용되기도 하는데, error function(=cost, loss function)으로서 사용한다.
-예를 들면 logistic regression의 경우, 분류의 실제 분포가 베르누이를 따른다고 하고 (p=P(y=1)), 실제로 우리가 regression을 통해 얻은 분포(g=P(y=1|x),
이때 H(p,g)=(-p)*log(g) - (1-p)*(log(1-g)), 이값이 작아지도록 regression 계수 추정 가능(대게는 Maximum likelihood method사용하기도 하지만)
-혹은 samples모두 의 H(p,g)의 평균을 줄이는 방향으로 regression 계수 추정하기도 함
'수학 > 기타수학' 카테고리의 다른 글
함수해석학(2016_1)수업정리(방학때 옮길 것) (0) | 2016.05.19 |
---|---|
Logistic regression (0) | 2016.05.16 |
[수학]All about algebraic connectivity, a(G) (0) | 2016.03.12 |
외장하드에 ubuntu설치->SAGE설치->tableaux그리기 설치기 (0) | 2015.06.17 |
표현론 복습노트 (0) | 2015.06.06 |