Probability, Statistics, and Process

-About Random Variable(rdv:(J1,C4(J1))->(R(std),C4(TS)), Z라 표현, ((ETR,C4(TS))에서도 다룰 때가 있음))

-Z는 MF이다. MF성질 다 만족

-rdv충분조건

-monotone이면 rdv이다.

-(R(std),C4(TS))에서 C4(TS)의 generating set에 대해서만 판단해도 됨

-정의역이 metric space인 경우, rdv가 conti이면 MF됨

-conti(rdv):rdv됨, 특히 rdv_1+rdv_2 같은 것도 rdv(각 rdv의 C4들이 같을 때 이야기)

-{rdv_n}에서 각 rdv_n의 C4들이 다 같을 때

-sup rdv_n, inf rdv_n, limsup(rdv_n), liminf(rdv_n) 모두 MF가 된다.(ETR,C4(TS))

-{x in J1 s.t. lim rdv_n(x) exists}는 C4(J1)의 원소이다.


-Event 분석

-E1=liminf {rdv_n = a}, E2=limsup {rdv_n = a}

-E3={liminf rdv_n = a}, E4={limsup rdv_n = a} 

-E5={lim rdv_n = a}

이면 

-E1:rdv_n(x)가 어느 순간부터 쭉 a인 x들

-E2:rdv_n(x)가 무한번 a인 x들

-E3:rdv_n(x)의 subsequence의 수렴값 중 가장 작은게 a인 x들

-E4:rdv_n(x)의 subsequence의 수렴값 중 가장 큰게 a인 x들

-E1<E2

-E1<E3

-E1<E4

-E1<E5

-E3교E4=E5

-E3=c-intersection over k, liminf {1-c_k<= rdv_n} 교 limsup{rdv_n<=1+c_k} for dec seq c_k cv to 0

-E4=c-intersection over k, liminf {rdv_n<=1+c_k} 교 limsup {1-c_k<=rdv_n} for dec seq c_k cv to 0

(따라서 E1혹은 E1의 여집합의 정보를 아는 것이 가장 강력하다.)

(Borel-Cantelli, Fatou, Borel Zero-one Law 등 rdv의 liminf, limsup이 아니라, Event의 liminf, limsup에 관한 것)

(따라서 E3, E4등이 나오면 Event의 liminf, limsup으로 바꾸고 다뤄라.)

-C4(f), (f:(J1,C4(1))->(R,C4(TS), f가 rdv란 가정은 없음)

-정의:f가 rdv되게끔 하는 smallest C4 of subsets of J1

(rdv_1, rdv_2가 있을 때 C4(rdv_1 + rdv_2) or C4(sup rdv_1, rdv_2)등은 rdv_1, rdv_2의 형태에 따라 다르다, 단지 알 수 있는 것은 C4(rdv_1 + rdv_2)<C4(rdv_1, rdv_2)와 C4(sup rdv_1, rdv_2)<C4(rdv_1, rdv_2)라는 것만 알 뿐)

-C4(rdv_i)

-정의:rdv_i들 모두가 rdv가 되게끔 하는 smallest C4 of subsets of J1(rdv_i들의 정의역은 모두 같을 때 논의)

-C4(rdv_n>k)

-정의:rdv_(k+1), rdv_(k+2)...모두가 rdv가 되게끔 하는 smallest C4 of subsets of J1

-C4(rdv_n<=k)

-정의:rdv_1, rdv_2, ..., rdv_k 모두가 rdv가 되게끔 하는 smallest C4 of subsets of J1

-C4(lim rdv_n)
-정의:c-intersection over k, C4(rdv_n>k),
-의미:Tail을 다 rdv하게 만드는 C4
-C4(lim rdv_n)의 원소를 tail event라 한다.
-C4(lim rdv_n)에 대해 measurable인 rdv를 tail rdv라 한다.
-Filtration
-정의:an increasing sequence of C4 on a (J,C4) indexed 
-C4(C4_n)
-정의:C4_n for all n을 포함하는 the smallest sigma algebra
-성질

-C4(rdv)<C4(1)

-for C:collection of subsets of s.t. C4(C)=C4(TS) of R, C4(rdv^(-1)(C))=C4(rdv) 

-C4(lim rdv_n)의 대표적인 예

-C4(limsup rdv_n)의 원소들

-C4(liminf rdv_n)의 원소들

-{x in J1 s.t. lim rdv_n(x) exists}

-{x in J1 s.t. c-sum rdv_n(x) cv}

-{x in J1 s.t. lim n->inf [rdv_1+rdv_2+...+rdv_n]/n = a}

-ProbM(|rdv1|<inf)=1이면 for any eps>0, te bdd rdv2 s.t. ProbM(rdv1 ≠ rdv2)<e

-Two seq of {rdv1_n}, {rdv2_n}이 tail-equivalent

-정의:c-sum ProbM({rdv1_n ≠ rdv2_n})<inf

-성질

-{rdv1_n}과 {rdv2_n}이 tail-equivalent이면 

-c-sum (rdv1_n - rdv2_n)<inf a.e.

-c-sum (rdv1_n):pt cv a.e. iff c-sum (rdv2_n):pt cv a.e.

-te {a_n} in R^N and te rdv s.t. (sum from k=1 to k=n rdv1_k)/a_n:pt cv a.e. to X이면

(sum from k=1 to k=n rdv2_k)/a_n:pt cv a.e. to X이다.


-About Random Vector((J1,C4(J1))->(R^n,C4(TS)), RDV라 표현, coordinate function은 rdv1,rdv2,...로 표현)

-RDV가 MF이다. 따라서 MF의 성질을 따름

(예를 들면 RDV가 Random Vector iff rdv1, rdv2, ..., rdvn이 rdv)

(또는 MF를 composite해도 MF유지)

-C4(RDV)=C4(rdv1, rdv2, ..., rdvn)

-rdv와 마찬가지로

-RDV가 있으면 (R^n,C4(TS))에 Distribution을 정의할 수 있고, DF(x):=Distribution((-inf,x])로 정의함

((-inf, x]따위를 논하기 위해 R^n에 ordering을 줌)

-DF(x)가 다음을 만족하면, (R^n,C4(TS))에 Distribution(Probability Measure)을 정의할 수 있다.

-lim x->inf(각각의 coordinate모두가) DF(x)=1

-for some x_i, lim x_i ->inf DF(x)=0

-DF is conti from above

-R^n 에서 inc

-DF(x)로도 rdv1,...,rdvn의 ind판정가능

-rdv1,rdv2...등 여러개 있고, 그것의 함수의 distribution 구하기(즉 f(RDV) 형태의 distribution)

-Method1, Use Transformation theorem

-Method2, Use chf

-Method3, Use Transformation and Jacobian(RDV의 joint density을 알고 있을 때)(link)

-About Probability Mass Function for RDV

-정의:discrete RDV가 있을 때 (R^n,C4(TS))에 정의된 Measure을 Probability Mass Function이라 하고 pmf라 적자.

-About Marginal Distribution 

-정의:RDV에서 rdv1을 제외하곤 나머진 inf을 둠으로써 marginal DF을 얻을 수 있다.

(RDV의 Density를 통해 Marginal의 Density도 구할 수 있다.)

-성질

-Marginal Distribution이 같다고해서 Joint Density가 같다곤 보장 안해줌

-RDV가 density를 가지면 marginal density도 항상 존재한다.

-



-About Probability Measure(ProbM이라 하자.)

-f-M이다.

-f:C4->[0,1], f(J)=1이고 f가 finite-additive이면 다음 4개가 모두 동치이다.

-f가 ProbM이다.

-f가 conti from below

-f가 conti from above

-for {E_n} in (J,C4,M) s.t. ProbM(E_n)=1, ProbM(c-intersection E_n)=1

-for {E_n} in (J,C4,M) s.t. ProbM(E_n)=0, ProbM(c-union E_n)=0

(따라서 liminf, limsup 형태의 set을 ProbM을 구할 때 도움 됨)

-almost trivial C4란, 모든 원소의 ProbM이 0이거나 1일 때, C4를 almost trivial C4라 하자.

-ProbM(f-intersection k=1 to k=n E_k)=ProbM(E_1)*(f-product k=2 to k=n ProbM(E_k|f-intersection j=1 to j=k-1 (E_j))(link)

-(The Inclusion-Exclusion Formula)(link)

{E_n}:finite seq, 

M(f-union E_n}=f-sum(M(E_n)) 

- sum 1<=i<j<=n M(E_i 교 E_j) 

+ sum 1<=i<j<k<=n M(E_i 교 E_j 교 E_k)

...+(-1)^(n+1) * M(E_1교E_2교...교E_n)

-Transformation Theorem에 의해, E[X]를 abstract space인 X의 정의역상의 적분으로 구하지 말고, ProbM을 이용하여 Distribution F을 구한다음에 R에서 적분하면 된다.

-(J1,C4(J1))=(R(std),C4(TS))인 경우

-Probability Measure induced by DF라면 {all atoms}={{x} in R s.t. DF(x)-DF(x-)>0}

-About Independence(1개의 ProbM에 대한 Concept)

-{finite개의 events}, {finite개의 classes of events C_n}, {arbitrary개의 classes of events C_t}, {arbitrary개의 rdv_t}

(각각 정의 조심)

-{arbitrarily index개의 classes of events C_t}가 ind이고 각 C_t가 PC이면 {C4(C_t)}도 ind이다.(link)

(이걸로써 two events E_1과 E_2가 ind이면 (E_1)^C와 E_2가 ind인 것도 앎)

(이걸로써 rdv_1, rdv_2가 ind인지는 ProbM(rdv_1<=x, rdv_2<=y)=ProbM(rdv_1<=x)*ProbM(rdv_2<=y)만 따지면 됨)

-rdv_1, rdv_2가 ind, f:MF, g:MF이면 f(rdv_1), g(rdv_2)도 ind이다.

(절댓값을 씌우든 제곱을 하든, exp()을 하든... ind가 유지됨)

-{rdv1_n}, {rdv2_n}, for each n rdv1_n과 rdv2_n이 ind이고 {rdv1_n}:pt cv a.e. to rdv1, {rdv2_n}:pt cv a.e. to rdv2라면 rdv1과 rdv2는 ind이다.(link1)(link2)

-(Grouping Lemma)(link)

:T:index set, {arbitrary개의 C4_t}가 ind, S:another index set, {T_s} is a partition of T일 때 {C4_(T_s)}는 ind이다.

(C4_(T_s)란 T_s의 원소 t_0의 C4인 C4_(t_0)들을 포함하는 (over t_0 in T_s) 가장 작은 C4를 가리킴)

({arbitrary개의 rdv_t}가 ind일 때 주로 사용함)

-f-dim DF를 이용하여 {arbitrary개의 rdv_t}의 ind판정 가능(iff로)

-(Reyni's Theorem)(ind가 아닐 것 같은데 ind인 경우)

:{X_n}:iid with common conti DF, {R_n}:relative rank of {X_n}, E_n=[X_n is a record]일 때

(R_n은 X_1,...,X_n 중 X_n의 순위, 따라서 1,2,3,...,n이란 값을 가질 수 있다.)

(E_n은 X_n이 X_1,...,X_(n-1) 모두 보다 큰 event)

-ProbM[a tie occurs]=0

-{R_n}:ind이고 ProbM[R_n=k]=1/n for k=1,2,3,...,n

-{E_n}:ind이고 ProbM[E_n]=1/n(사실 ProbM[R_n=1]과 같음)

-(Kolmogorov's Convergence Criterion+Kronecker's Lemma을 이용하면)

lim n->inf (n까지 record일어난 횟수/ ln(n)) =1 a.e.인 것도 알 수 있다.(link1)(link2)

-(Borel Zero-One Law, BZO){E_n}:ind events일 때

-c-sum ProbM(E_n)<inf이면 ProbM(limsup(E_n))=0

-c-sum ProbM(E_n)=inf이면 ProbM(limsup(E_n))=1

(ProbM(liimsup(E_n))은 0아니면 1이다. 따라서 ProbM(limsup(E_n))형태로 만들고 주어진 것과 ProbM비교하라.)

note)ProbM(limsup(E_n))=1이 되는 다른 충분조건

-c-sum n=k to n=inf ProbM(E_n|f-intersection i=k to k=n-1 (E_i)^C)=inf for all k({E_n}이 ind일 조건이 없어도)

(Kolmogorov Zero-One Law)(link)

:{X_n}:ind일 때, for any E in C4(lim X_n) ProbM(E)=0 or 1(즉 C4(lim X_n) is almost trivial)

-따라서 [c-sum X_n:cv] 등 대표적인 C4(lim rdv_n)의 원소들은 {rdv_n}이 ind이면 ProbM이 1이거나 0이다.

-{X_n}:ind일 때, tail rdv Z에 대해 P[Z=c]=1인 c가 유일하게 존재

-{X_n}:ind일 때, 대표적인 tail rdv는 

-limsup X_n

-liminf X_n

-{X_n}:ind일 때, 대표적인 tail event

-lim X_n(it exist하는 event)

-c-series X_n(it cv하는 event에서)

-{E_n}:iid, seq of events 이면 ProbM(c-intersection E_n)=c-product ProbM(E_n)

-(J1,C4(1),ProbM1), (J2,C4(2),ProbM2)의 Product Measure on PrC1에서

-C4(1)*와 C4(2)*는 independent

-X1:(J1,C4(1))->(ETR,C4(TS)), X2:(J1,C4(2))->(ETR,C4(TS))

X1*와 X2*는 independent

-rdv1, rdv2:ind이면 E[rdv1*rdv2]=E[rdv1]*E[rdv2](link)

-rdv1 with DF1, rdv2 with DF2, rdv1, rdv2:ind이면 rdv1+rdv2의 DF는 DF1 conv DF2(link

-rdv1 with density1, rdv2 with density2, rdv1,rdv2:ind이면 rdv1+rdv2의 density는 density1 conv density2

-RDV=(rdv1,rdv2)의 density = rdv1의 density * rdv2의 density iff rdv1과 rdv2는 ind

-{rdv_n}:ind이고 S_n = sum from i=1 to i=n rdv_i의 성질(iid인 경우는 random walk와 Sample Distribution 참조)

-(Skorohod's Inequality)(link)

:a>0, c=sup over 1<=i<=n ProbM(|S_n - S_i|>a)<1이면

ProbM(sup over 1<=i<=n |S_i|>2a)<={ProbM(|S_n|>a)}/1-c

(즉 stochastic process의 sum의 sup의 확률이 final term의 확률로 표현이 가능하다.)

-(Kolmogorov's Inequality)(link)

:a>0, E[rdv_n]=0

ProbM(sup over 1<=i<=n |S_i|>a) <= E[(S_n)^2]/a^2

(Skorohod's Inequality보단 가정이 쎄서 이론적으로 약하지만, 응용하기엔 좋음)

-(Levy's Theorem)(link)

:{S_n}:pt cv a.e. iff {S_n}:cv in M

(즉 ind인 rdv_n의 S_n은 cv in M만 보여도 pt cv a.e.까지 됨)

-(Kolmogorov's Convergence Criterion, KCC)(link)

:lim n->inf V[S_n]<inf이면 lim n->inf (S_n - E[S_n]):pt cv a.e.

(가정부분이 성립하면 사실상, {S_n - E[S_n]}:cauchy in L2, 따라서 {S_n - E[S_n]}:cv in L2도 됨)

-(Partial Converse)(link)

:{rdv_n}이 uniformly bdd가 되면 역이 성립

-{rdv_n}:uniformly bdd이고 S_n:pt cv a.e.이면 E[S_n]:cv to finite value(link)

-(Kolmogorov's Three Series Theorem, KTS)(link)

:S_n이 pt cv a.e.iff te c>0 s.t.

-sum from n=1 to n=inf ProbM(|rdv_n|>c)<inf

-sum from n=1 to n=inf E[rdv_n * indi_{|rdv_n|<=c}]<inf

-sum from n=1 to n=inf V[rdv_n * indi_{|rdv_n|<=c}]<inf

(한 c에 대해 성립하면 모든 c에 대해서도 성립하고 {rdv_n}:nnn, ind였다면 V[~]조건은 redundant)


 -Convergence

-(Egoroff's Theorem)(link)

:{rdv_n}:finite a.e., pt cv a.e. to rv rdv이면 {rdv_n}:almost uni cv

-{rdv_n}:pt cv a.e. to a rdv이면 {rdv_n}:cv in M(link)

-{rdv1_n}:cv in M, {rdv2_n}:cv in M이면 {rdv1_n * rdv2_n}:cv in M

-{rdv_n}:cv in M iff every subseq of {rdv_n} has a further subseq that pt cv a.e.(link)

-{rdv_n}:cv in M(real-valued) g:(R,C4(TS))->(R,C4(TS)):conti이면 {g(rdv_n)}:cv in M

-{rdv_n}:cv in M(real-valued), monotone이면 {rdv_n}:pt cv a.e.도 된다.

-{rdv_n}:pt cv a.e. to 0이면 표본평균(iid조건없이 general)도 pt cv a.e. to 0

-{rdv_n}:cv in Lp(p>=1) to 0이면 표본평균(iid조건없이 general)도 cv in Lp to 0

-다음 3개는 동치이다.(1<=p<inf)(link1)(link2)

-{MF_n}:cv in Lp

-{MF_n}:cauchy in Lp

-{|MF_n|^p}:u.i. and cv in M (즉 Lp with finite measure, 1<=p<inf는 BS임을 보여준다.)

-(Scheffe's Lemma for DF_n)(link1)(link2)

:{DF_n} with densities {f_n}, DF with density f가 있을 때(즉 DF_n이나 DF 모두가 abs conti with another measure)

sup over E in C4(TS) of R(std) |DF_n(E) - DF(E)| = 1/2 int |f_n - f| (int는 LM에 대해서)

(즉 {DF_n}이 cv in total variance to DF이면 {densities_n}:cv in L1 to density of DF)

역으로 {f_n}:pt cv (another measure)-a.e. to f이면 {f_n}:cv in L1 to f and thus DF_n cv in total variation to DF

-{rdv_n}:pt cv a.e. to rdv이면 {rdv_n}:cv in distrb to rdv(link)

-{rdv_n}:cv in distrb to rdv ({DF_n}, DF)일 때, 

for t s.t. 0<t<1 and DF^(-1):conti at t, {(DF_n)^(-1)(t)}:cv to DF^(-1)(t)(link)

(즉, {rdv_n}:cv in distrb하면 left-conti inverse도 거진 cv in distrb)

-{rdv_n}:cv in distrb to constant이면 cv in M도 됨(link)

({rdv_n}:cv in distrb to constant iff {rdv_n}:cv in M to constant)

-{rdv_n}:cv in distrb to rdv(with DF:conti)이면 DF_n:uni cv to DF(link1)(link2)

-(Baby Skorohod's Theorem)(link)

:{rdv1_n}:cv in distrb to rdv1이면 

te {rdv2_n}, rdv2 s.t.

-{rdv2_n}와 rdv2 defined on ([0,1],C4(TS),LM)

-rdv2_n =_d rdv1_n

-rdv2 =_d rdv1

-{rdv2_n}:pt cv a.e. to rdv2

-(Continuous Mapping Theorem)(link1)(link2)

:{rdv_n}:cv in distrb(pt cv, M) to rdv, MF:R->R with ProbM({rdv in {x s.t. MF is conti at x}})=1이면

{MF(rdv_n)}:cv in distrb(pt cv, M) to MF(rdv)

게다가 MF가 bdd이면 {E[MF(rdv_n)]}:cv to E[MF(rdv)]

(왜 continuous mapping Theorem이라 하냐면, MF가 conti일 때가 자주 쓰이므로)

(따라서 {rdv_n}:cv in distrb to rdv이면 {(rdv_n)^2}:cv in distrb to rdv 등 성립)

(주의해야할 것은, {rdv1_n}:cv in distrb to rdv1, {rdv2_n}:cv in distrb to rdv2한다해서 {rdv1_n + rdv2_n}:cv in distrb to rdv1+rdv2인 것은 아니다. 이러한 주장이 continuous mapping theorem적용해서 얻으려면 먼저 RDV_n의 element의 cv in distrb가 {RDV_n}:cv in distrb to RDV을 보장해주어야 하는데 이게 성립 안함, 따라서 Slutsky's Theorem이 의미가 있는 것)

-(Portmanteau Theorem)(link1)(link2)

:TFAE

-{rdv_n}:cv in distrb to rdv

-for any bdd and conti f, E[f(rdv_n)]->E[f(rdv)]

(bdd and uni-conti f에 대해서도 성립)

(conti and with compact support에 대해서도 성립)

-for any E in C4(TS) of R(std) with DF(bd(E))=0, {DF_n (E)}:cv to DF(E)

-{rdv_n}:cv in M이면 {rdv_n}은 cv in distrb(Using Portmanteau)

-(Slutsky's Theorem)(link)(asymptotically equivalent의 motive)

:{rdv1_n}:cv in distrb to rdv1, {rdv2_n}:cv in M to 0이면 rdv1_n + rdv2_n:cv in distrb to rdv1

(rdv3_n:=rdv1_n + rdv2_n이라두면 다음과 같이 state가능

-{rdv1_n}:cv in distrb to rdv1, {rdv3_n - rdv1_n=rdv_2}:cv in M to 0이면 {rdv3_n}:cv in distrb to rdv1

(즉 seq1가 cv in distrb하고 seq1-seq2가 cv in M to 0이면(asymptotically equivalent라함), seq2:cv in distrb to same of seq1)

-(Second Converging Together Theorem)(link)

:{rdv1_(un)}:cv in distrb to {rdv1_u} as n->inf

{rdv1_u}:cv in distrb to rdv1

for any eps>0, lim u->inf (limsup n->inf ProbM(|rdv1_(un) - rdv2_n|>eps)=0이면

{rdv2_n}:cv in distrb to rdv1

({rdv1_(un)}은 주로 {rdv1_n}의 truncation으로 택해짐)

(3번째 조건때문에 rdv1_(un)과 rdv2_n의 domain with C4가 같아야됨)

-About Convergence in Moments(기본적으로 integral과 limit의 change임, MCT, DCT 등을 이용할 생각)

-{rdv_n}:cv in Lp to rdv이면 ||rdv_n||_p:cv to ||rdv||_p

-{rdv_n}:cv in Lp to rdv이기 위한 충분조건은 {rdv_n}:cv in distrb to rdv and {(rdv_n)^(p+delta)}:u.i. for delta>0

(증명은 baby skorohod and u.i.이용)


-Integration on Probability Measure Space(f-M일 때를 가리킴, 만약 ProbM여야만 한다면 (ProbM일때만 가능)을 적기)

-rdv:integrable iff lim n->inf int over {|rdv|>n} |rdv| = 0(link)

-rdv_n:integrable, uni cv to rdv이면 rdv가 integrable이고 lim과 int change가능

-(Bounded Convergence Theorem)

:{rdv_n}이 uniformly bdd이면 DCT이용가능

-{rdv_i}:u.i. iff (link1)(link2)

sup over i int |MF_i|<inf and

for any eps>0. te delta>0 s.t. for any E in C4 with M(E)<delta, sup over i int over E |MF_i|< eps

-{rdv_i}:u.i.이고 rdv:integrable이면 {rdv_i - rdv}:u.i.이다.(link)

-(Jensen's Inequality)f:R->R, convex이면 E[f(Z)]>=f(E[Z])(ProbM일 때만 가능, 즉 전체 Measure가 1)(link)

-f:inc, g:inc, s:dec, t:dec일 때, 

E[f(rdv)*s(rdv)]<=E[f(rdv)]*E[s(rdv)]

E[f(rdv)*g(rdv)]>=E[f(rdv)*g(rdv)]

E[s(rdv)*t(rdv)]>=E[s(rdv)*t(rdv)]

(직관적으로는 E[f(rdv)]=0, E[s(rdv)]=0일 때, Cov생각)(link)

-Lp-space with f-M

-0<a<b<=inf에 대해 Lb<La(link)

-구체적으로, for f in Lb, ||f||_a <= ||f||_b (link)

(따라서 {MF_n}이 f-M에서 cv in Lb하면 cv in La도 됨)

-lim p->inf ||rdv||_p = ||rdv||_inf(link)

-{rdv_n}:uni cv이면 {rdv_n}:cv in Lp 된다.(0<p<=inf)(link)

-0<a<b<inf에 대해, {rdv_n}:cv in Lb이면 {rdv_n}:cv in La이다.

-About Cov, Cor

-rdv1, rdv2:ind이면 Cov[rdv1,rdv2]=0(역은 성립안함)(둘다 ND이면 역도 성립)

-(-1)<=Cor[rdv1, rdv2]<=1(link)

-Cor[rdv1,rdv2]=1 iff te a>0 s.t. ProbM(rdv2=a*rdv1+b)=1(link)

-Cor[rdv1,rdv2]=(-1) iff te a<0 s.t. ProbM(rdv2=a*rdv1+b)=1(link)

(즉, Cor은 rdv1과 rdv2의 linear 정도를 판단하는 기준이 되며, 주의할 것은 rdv1과 rdv2가 strong relation이 있다하더라도 linear가 아니라면 Cor의 절댓값은 작게 나올 수 있다.)


-몇가지 examples

-sample space J=countable, C4=P(J), 

-PrC1의 Measure(Product Measure보다 general한, using Kernel, or Transition function)

-건설(link1)(link2)

-Step 1 (J1,C4(1),ProbM1), (J2,C4(2)) (J2에는 ProbM가 없음), 에서 transition function을 건설

-Step 2 Prc1을 generating 하는 {all MR}에 PM 건설 using transition function and ProbM1

-Step 3 PM on {all MR}을 PrC1으로 extension(PM이 finite measure이므로 unique하게 extension가능)

-의의

-Transition function을 이용한 Measure on PrC1은 2개의 measure를 이용한 Product Measure on PrC1 보다 general하다.

-성질

-rdv on (J1xJ2,PrC1)이 있으면 Tonelli, Fubini Theorem처럼 rdv의 section의 int가 잘 정의되고, 

rdv의 int=rdv의 section의 int의 int(link1)(link2)

-Conditional Expectation, Conditional Probability

-정의:

-rdv:(J,C4,ProbM)->(ETR,C4(TS)), C:sub sigma-algebra of C4, rdv is in L1(ProbM)일 때, 

rdv로 만든 C에서의 f-sM의 density를 E[rdv|C]라 하고, Conditional Expectation of rdv given C라 읽는다.

(따라서 Conditional Expectation은 density이므로, 항상 적분형태로 써서 이용하도록 버릇들이자.)

-(J,C4,ProbM), E is in C4, C:sub sigma-algebra of C4일 때, ProbM(E|C):=E[indi_E|C]

-E[rdv|rdv_t, t is in T, T:index set]:=E[rdv|C4(rdv_t, t is in T)]

-V[rdv1|rdv2]:=E[(rdv1-E[rdv1|rdv2])^2|rdv2]

-for E1, E2 in C4 s.t. ProbM(E2)>0, ProbM(E1|E2)=ProbM(E1 intersection E2)/ProbM(E2)

-RDV=(rdv1,rdv2)이고 각 density(f)가 존재할 때, density of rdv1을 f1, density of rdv2을 f2라 할 때, 

f(x2|x1):=f(x1,x2)/f1(x1)으로 정의하고 conditional density of rdv2 given rdv1=x1이라 읽는다.

-

-성질

-E[rdv|C]:C-measurable and in L1(rdv:in L1이므로)

-for any E in C, int over E E[rdv|C] dProbM = int over E rdv dProbM

-(J,C4,ProbM)->(rdv1,rdv2) with joint density whose is abs conti with LM일 때, for E in C4(TS) in R(std)

ProbM(rdv2 in E|rdv1)은 marginal density of rdv1을 이용하여 표현된다.

-(linearity), rdv1 in L1, rdv2 in L1, a,b가 실수일 때, E[a*rdv1+b*rdv2|C]=a*E[rdv1|C]+b*E[rdv2|C]

-rdv:C-measurable and in L1이면 E[rdv|C]=rdv a.e.

-E[rdv|{empty, 전체}]=E[rdv]

-(Monotone)

:rdv:nnn and in L1이면 E[rdv|C]>=0 a.e.

-(Modulus Inequality)

-rdv:in L1이면 |E[rdv|C]|<=E[|rdv||C]

-(Monotone Convergence Theorem for Conditional Expectation)(link)

:{rdv_n}:nnn and pt cv a.e. to rdv and in L1, rdv:in L1일 때, E[rdv_n|C]:pt cv a.e. to E[rdv|C]

-(Fatou's Lemma for Conditional Expectation)(link)

:{rdv_n}:nnn and in L1일 때, E[liminf rdv_n|C]<=liminf E[rdv_n|C] a.e.

-(Dominated Convergence Theorem for Conditional Expectation)(link)

:{rdv_n}:pt cv a.e. to rdv and in L1, rdv1:in L1, |rdv_n|<=rdv2 s.t. in L1일 때, E[lim rdv_n|C]=lim E[rdv_n|C] a.e.

-(Product Rule)(link)

:rdv1:in L1, rdv2:C-measurable, rdv1*rdv2:in L1일 때, E[rdv1*rdv2|C]=rdv2*E[rdv1|C] a.e.

-(Smoothing, or Tower Property)(link)

:C*:sub sigma-algebra of C, rdv:in L1일 때, E[E[rdv|C]|C*]=E[E[rdv|C*]|C]=E[rdv|C*]

(특히, E[E[rdv|C]]=E[rdv], 특히 mixtured distribution에 쓰인다.)

-(Projections)(link)

:E[rdv|C] is the projection of rdv onto L2(C) if rdv is in L2(C4)

(즉, L2에선 Conditional Expectation을 Projection으로 볼 수도 있다.)

-C와 C4(rdv)가 ind일 땐 E[rdv|C]=E[rdv](link)

-rdv1, rdv2, rdv1:C-measurable, rdv2:ind wrt C, MF:R^2->R, bdd일 때

E[MF(rdv1,rdv2)|C](w)=E[MF(rdv1(w),rdv2)](link)

-(Jensen's Inequality for Conditional Expectation)(link1)(link2)

:f:R->R, convex, rdv:in L1, f(rdv):in L1일 때, f(E[rdv|C])<=E[f(rdv)|C]

-rdv:in Lp(p>=1)일 때, p-norm of E[rdv|C] <= p-norm of rdv(link)

(따라서, {rdv_n}:cv in Lp to rdv이면 {E[rdv_n|C]}:cv in Lp to E[rdv|C])

-rdv:in L1, {E[rdv|C]}, where collection of conditional expectation over C, is u.i.(link)

-for E in C4(TS) in R(std), (rdv1,rdv2) have joint density일 때 ProbM(rdv2 in E|rdv1)=?(link1)(link2)

-rdv1:in L2, rdv2:in L_inf일 때, E[rdv1*E[rdv2|C]]=E[rdv2*E[rdv1|C]]

-rdv:nnn(or | |취함) and in L1일 때, E[rdv|C]=int over [0,inf] ProbM(rdv>t|C] dt(link)

-(Markov's Inequality, Chebysheff's Inequality for conditional expectation)(link)

:ProbM[|rdv|>=a|C]<=a^(-k)*E[|rdv|^k | C]

-(Conditional Variance Identity)(link)

:V[rdv1]=E[V[rdv1|rdv2]+V[E[rdv1|rdv2]]


-----------------------------------------------------------------------------------------------------------

-Conditional Expectation을 알 경우 전체 Expectation을 구할 수 있음

(1반과 2반의 평균과 학생수를 알면 1반+2반 전체의 평균을 구할 수 있단 소리)

(Conditional variance는 위와 같은 성질이 만족하지 않음)

(반대로 E[Z]구함에 있어서 E[Z|X]를 이용할 수도 있다. unconditional mean=mean of conditional mean)

-E[Z1|Z2]:rdv, Z2->R->R

-E[Z1+Z2|Z3]=E[Z1|Z3]+E[Z2|Z3]

-E[aZ1|Z2]=aE[Z1|Z2]

-E[Z|Z]=Z

-E[Z1|Z1,Z2]=E[Z1], E[Z1|Z2,f(Z2)]=E[Z1|Z2]

-(unconditional mean=mean of conditional mean)E[E[Z1|Z2]]=E[Z1]

-E[E[Z1|Z2,Z3]]=E[Z1|Z2], E[E[Z1|Z2]|Z2,Z3]=E[Z1|Z2]

-V[Z1]=E[V[Z1|Z2]]+V[E[Z1|Z2]]

-----------------------------------------------------------------------------------------------------------

-About Distribution Function, DF, PDF

-DF의 정의:R(std)->[0,1], right-conti, inc, F(-inf)=0, F(inf)=1

(F(-inf)=0이나 F(inf)=1 둘 중 하나가 성립하지 않고 나머진 다 성리한다면, defective DF라 하자.)

-DF의 motive는 rdv:(J1,C4, ProbM)->(ETR,C4(TS)), ProbM과 rdv를 이용하여 (ETR,C4(TS))에 ProbM에 주는 것

(특히 ETR을 generating하는 closed left rays에 관해서)

-Distribution의 정의:ProbM2(E)=ProbM(rdv^(-1)(E)) for any E in C4(TS)

(즉 DF는 Distribution(Measure)의 정의역이 제한된 형태)

-DF((a,b]):=DF(b)-DF(a)

-rdv1 =_d rdv2란, rdv1과 rdv2의 DF가 같음을 의미한다.

-{DF_n}:cv to DF(which is DF or defective DF)

-{DF_n}:cv vaguely to DF 

:for I=(a,b] s.t. DF is conti at a and b, DF_n (I) cv to DF(I) (pt cv 랑 비슷하게 임의의 I fixed하고 n을 inf로)

-{DF_n}:cv properly to DF

:{DF_N}:cv vaguely to DF and DF:non-defective

-{DF_n}:cv weakly to DF

:{DF_n}:pt cv to DF for x s.t. DF:conti at x

-{DF_n}:cv completely to DF

:{DF_n}:cv weakly to DF and DF:non-defective 

(위 4개의 cv의 definition은 DF가 non-defective이기만 하면 4개 모두 equivalent)

(DF_n, DF 모두 rdv에서 induced된거인 경우, 위의 4개 모두 equivalent하다.)(link)

(그때 {DF_n}의 cv를 cv in distrb 혹은 {rdv_n}:cv in distrb라 하자.)

-{DF_n}:cv in total variation to DF

:{sup over E in C4(TS) of R(std) |DF_n(E) - DF(E)|}:cv to 0(real numbers seq의 cv) 

(rdv_n, rdv로 induced된 DF_n, DF의 cv를 논할 땐 rdv_n과 rdv의 domain이 일치할 필요가 없다.)

-DF의 성질({DF_n}의 cv관련해서는 {rdv_n}의 convergence란에 적기로 한다.)

-DF is determined on a dense set of R(std)(link)

(즉 DF1과 DF2가 dense set에서 같다면, R에서도 같음)

-inc이므로 불연속점이 at most countable

-right-conti

-{x in R s.t. DF(x)>=y} is closed in R(std)

-DF가 conti이면 uni conti도 됨

-DF가 conti이고 rdv with DF라면, DF(rdv)~UD([0,1])(link)

-DF:conti iff ProbM(X=a)=0 for any a in R

-rdv1 =_d rdv2이면 E[rdv1^n]=E[rdv2^n] 따라서 V[rdv1]=V[rdv2]도 앎

-rdv1 =_d rdv2이면 MF(rdv1) =_d MF(rdv2) where MF:(R, C4(TS))->(R, C4(TS)), measurable

-Continuous rdv의 FR(Failure Rate, Hazard Rate라 하기도 한다.)

-정의:for x>0, FR(t):=lim x->0+ {ProbM(t<=rdv<t+x|rdv>=t)/x}

-의미:rdv가 the failure time of an item일 때, FR(x)는 the rate of instantaneous failure을 가리킨다.

-성질:(rdv:the failure time of an item, DF:the rdv의 DF, pdf:the rdv의 density)

-FR(t)=pdf(t)/(1-DF(t))

-{DF}, family of DF(defective일 수 있음)의 성질

-E:countable dense in R(std), {DF_n}:seq of DF(defective일 수도 있음)일 때, 

te subseq {DF_(n_k)} s.t. weakly cv to DF(defective일 수도 있음)(link)

-(Selection Theorem)

:Any seq {DF_n} contains a weakly cv subseq(defective일 수도 있음)(증명은 바로 위 문장 이용)

-Collection of DF(not defective)관련

-Collection of DF(not defective)가 relatively compact의 정의

:every seq in the collection has a subseq weakly cv to DF(not defective)(즉 complete cv도 됨)

-Collection of DF가 tight의 정의

:for all eps>0, te K in R(std) s.t. for all DF in the collection, 1-DF(K)<eps

-{rdv_n}이 stochastically bdd의 정의

:{DF_n}이 tight

-(Prohorov's Theorem)(link)

:collection of DF(not defective)가 relatively compact iff the collection is tight

-{rdv_n}관련해서 stochastically bdd 충분조건

-{rdv1_n}, {rdv2_n} 둘 다 stochastically bdd이면 {rdv1_n + rdv2_n}도 stochastically bdd

-te a>0 s.t. limsup n->inf E(|rdv_n|^a)<inf

-{rdv_n}이 [a,b]에서만 함숫값을 가질 때(for all n)

-rdv_n =_d rdv2_n s.t. rdv2_n ~ND(mu_n, (sigma_n)^2), 이 때 {mu_n}, {sigma_n}이 bdd일 때





-DF(x)가 ProbM on (R(std), C4(TS))(즉, DF(E) for E in C4(TS))를 정의할 수 있다. using LM on (0,1]

-DF가 있으면 left-conti inverse of DF(DF^(-1)라 하자)를 생각할 수 있다.

-DF^(-1)의 성질

-DF^(-1):(0,1)->R(std)

-DF가 y값을 가지는 구간이 [x1,x2)일 때, DF^(-1)은 y에서 jumping

-DF가 x1에서 jumping이면(DF(x1-)<DF(x1)=y), DF^(-1)은 (DF(x1-),DF(x1)]에서 x1값을 갖는다.

-inc

-left-conti(link)

-DF(DF^(-1)(y))>=y

-DF(x)>=y iff DF^(-1)(y)<=x

(따라서 DF(x)<y iff DF^(-1)(y)>x도 성립)

(정리하면

DF(x)>=y이면 x>=DF^(-1)(y)

DF(x)>y이면 x>=DF^(-1)(y)

DF(x)<=y이면 x<=DF^(-1)(y)

DF(x)<y이면 x<DF^(-1)(y), 마지막 결과가 중요, 'x<...'에 등호가 안붙음

마찬가지로 DF^(-1)(y)<x일 때가 중요, y<DF(x)가 성립, 등호없이)

-for E in C4(R(std)), the inverse image of E of DF^(-1) is in C4(TS), TS=(0,1] as subspace of R(std) 

-{arbitrary개의 rdv_t} with index set T가 있을 때, E:finite subset of T이라 하면 f-dim DF for E를 정의 가능

-f-dim DF for E로 {arbitrary개의 rdv_t}의 ind 판정 가능(iff로써)

-About MGF

-정의:

-MGF_(rdv)(t):=E[exp(t*rdv)]

-MGF_(rdv)(t):exists if te a>0 s.t. (-a,a)에서 MGF_(rdv)가 finite

-성질:

-MGF_(rdv)(t):exists iff te K>0, c>0 s.t. for any x>0, ProbM(|rdv|>x) <= K*exp((-c)*x) (link)

-MGF_(rdv)(t):exists이면 

-kth-moment:finite(for all k=1,2,3,...), 즉 rdv in Lp for all p(link)

-MGF_(rdv)(t)의 t에 대한 taylor expansion에서 degree n의 계수=E[rdv^k]/k!(link)

-MGF_(rdv1)(t)=MGF_(rdv2)(t) for all t in R iff rdv1 =_d rdv2이다.

(MGF_(rdv1)(t)=MGF_(rdv2)(t) for all t in some neighborhood containing 0 이기만해도 ->성립)

-rdv1, rdv2:ind일 때, MGF_(rdv1+rdv2)=MGF_(rdv1)*MGF_(rdv2)

(모든 moments가 존재하더라도, MGF는 not exist가능)

-(Convergence of MGFs)

MGF_(rdv_n)(t):exists for all n, lim n->inf MGF_(rdv_n)(t)=MGF_(rdv)(t) for t in a nbd(0)이면 

rdv_n:cv in distrb to rdv

(rdv_n이 cv in distrb하는 지랑, limit의 distrb를 알 수 있게 해준다.)

-About chf

-정의:

-chf_(rdv)(t):=E[exp(i*t*rdv)] (iv function이고 항상 modulus가 1보다 같거나 작음)

-성질:

-elementray properties(modulus, uni-conti, etc)(link1)(link2)

-{chf_(rdv)}^2은 rdv - rdv*의 chf이다. where rdv*:iid with rdv

-rdv in L1이면 chf으로 E[|rdv|]구할 수 있다.(prob path책 p324, #9-(f)참고)

-MGF_(rdv)(t) exists for all t in R, 이면 Taylor Expansion가능 using exp(ix)(link1)(link2)

(MGF_(rdv)(t)가 exists하지 않더라도 어느 정도까지 expansion가능하기도 하다.)

-k-th abs moment가 finite이면 chf는 k번 미분가능하고, 

chf_(rdv)(t)를 k번 미분하면 E[(i*rdv)^k * exp(i*t*rdv)] for all t in R (link)

-for any rdv1 rdv2, rdv1 =_d rdv2 iff DF1=DF2 iff chf_(rdv1)=chf_(rdv2)(link1)(link2)(link3)

(rdv, DF, chf s.t. chf:integrable이면 bdd, conti인 density가 존재하고 chf를 적분함으로써 구할 수 있음도 앎)

-(Easy Part of Continuity Theorem for chf)

:{rdv_n}:cv in distrb to rdv이면 대응되는 chf_(rdv_n)(t) cv to chf_(rdv)(t) for all t in R

(continuous mapping theorem이용하면 바로 증명됨, deeper가 자주쓰임)

-(Deeper Part of Continuity Theorem for chf)(link1)(link2)

:lim n->inf chf_(rdv_n)(t)가 exist for all t in R, 일 때

-limit function이 0에서 conti이면 {DF_n}:cv in distrb to DF(not defective)

(이 때 DF는 limit function을 chf로 갖는 것)

(즉 cv in distrb의 충분조건이 될 수 있다. 역도 성립, 역이 바로 밑 문장)

-About Laplace Transform of densities

-성질:

-density1, density2가 다르면 laplace transforms도 각각 다르다. 

(단, density1, density2 둘 중 하나가 [0,inf)에서 0인 경우 제외)

->따라서 laplace transform of density를 보고 density를 알 수도 있다.

-Family of densities

-(Curved, or Full)Exponential families, Natural Parameter Space

-정의:(link)

(natural parameter space는 link안에서 w_i(theta)를 eta_i로 reparametrization해서 얻음)

-의미:어떠한 properties을 만족하는 densities의 family, 구체적인 density가 exponential families의 원소라면, 성질에 의해 moment계산등이 간편해짐

-curved exponential family란, exponential family와 같은 형태의 densities를 갖지만, parameter사이 restriction이 존재해서 dim(parameter)<k일 때를 가리킴, dim(parameter)=k일 때를 full exponential family라 함.

(즉, curved든 full이든 모두 exponential family이므로 일단 exponential family의 성질을 따름?)

-성질:

-어느 family of densities에서 원소의 support가 parameter vector에 depend하면 대게 exponential family되기 힘듦

(여기서 support는 pmf나 pdf가 양수인 정의역의 영역) 

-(Interchange differentiate and integral)(link)

-density function에 ln취하고 partial diff wrt theta한 뒤 pmf나 pdf에 x말고 X를 대입해서 E취하면 0

-density function에 ln취하고 partial diff wrt theta한 뒤 pmf나 pdf에 x말고 X를 대입해서 V취했을 때

-(Population의 density가 exponential families의 원소라면 statistic의 densities의 형태)

-Cramer-Rao Inequality에서의 Information Number를 구하기가 쉽다.

-Natural parameter space의 경우

-Natural parameter space는 항상 convex이다.

-Natural parameter space 또한 exponential families이므로 exponential families성질 만족

-E[t_i(X)]를 C^*(eta)로 구할 수 있다.(link)

-curved exponential family란, exponential families처럼 densities형태

-not exponential family의 예

-UD(0,theta)

-BD(n,p) with n:vary

-TD(n)

-Beta-binomial(a,b,n,p)

-Dirichlet-multinomial

-FD(n,m)

-CD(l,s)

-HGD(N,n,K)

-logistic distribution

-Location families, Scale families, Location-Scale families of the standard density 

-정의:density하나를 평행이동한 것들의 모임, scale한 것들의 모임, 둘다 한 것들의 모임(link)

-성질:

-families의 원소의 ProbM는 Standard density로 구할 수 있다.

-f:density이면 1/a*f((x-b)/a)) 또한 density(for any b, any a>0)

-rdv1 have density f1일 때, rdv2=b+(a*rdv1)은 density를 1/a*f((rdv2-b)/a))를 갖는다.


-복원추출 관련 분포

-Bernoulli-Distr(rdv~BrnD(p)로 표현)

-의미:rdv가 0,1(일반적으론 2개의 값)만 가질 때의 distribution 

-DF, MGF, moment(link)

-Exponential family됨

-chf(link)

-Binomial-Distr(rdv~BD(n,p)로 표현)

-의미:동일한 그리고 독립인 시행을 n번 했을 때 사건 A가 발생하는 횟수의 distribution

-DF, MGF, moment(link)

-Exponential family됨(n이 known이라 not in parameter vector일 때)

-rdv_n~BrnD(p)이고 iid이면, rdv=sum from i=1 to i=n rdv_i, rdv~BD(n,p)

-Characteristic, 

-rdv~B(n,p)일 때, Y=(rdv/n)이라 하면, E[Y]=p, V[Y]=p*(1-p)/n, 즉 n이 커질수록 Y는 p에 가까운 값을 가질 확률이 증가한다. 

-approximation by ND(np,npq) using CLT가능

-p=0.5이면 symmetric해서 approximation이 이해가 될 수 있으나

-예를 들어 p=0.3인경우 오른쪽 tail이 ignorable 

-np>3이면 ND로 approximation, np<=3이면 PD로 approximation

(PD(lambda=np)로 근사가 가능한 이유는 PD는 non-overlapping intervals에선 발생이 ind인 점과 lambda가 1초 동안 poisson process에서의 평균발생횟수임을 이용)

-approximatio할 때, rdv~BD(n,p), P[rdv<=30] approximated, P[ND<=30.5]로 한다. 0.5 correction필요

-Geometric-Distr(rdv~GD(p))

-의미:첫번째 사건 A가 일어날 때까지 시행하는 독립시행의 횟수의 distribution

-독립시행의 횟수의 분포이므로, memoryless property가짐

-DF, MGF, moment(link)

-Exponential family됨

-Characteristic, 

-Negative Binomial-Distr(rdv~NBD(r,p), r은 기준횟수, p는 1번 시행에서 A가 일어날 확률)

-의미:사건 A가 일어난 횟수가 r번이 될 때까지 시행하는 독립시행의 횟수(적어도 n)의 distribution

(사건 A가 r번 나오는 순간, 더이상의 시행은 없는 상황)

(혹은 사건 A가 r번 나오는 순간까지의 실패횟수로 rdv를 정의할 수도 있고, 그때도 NBD(r,p)라 한다. NBDF(r,p)라 적자)

-DF, MGF, moment(link)

-(Hwang)(link)

:rdv~NBDF(r,p), g(rdv):in L1, g(-1):finite일 때, E[(1-p)*g(rdv)]=E[rdv*g(rdv - 1)*(1/r+rdv-1)]

-r이 known이면 Exponential family됨

-Uniform-Distr(rdv~UD(interval), conti Uniform Distrb도 참고)

-의미:n회의 독립시행에서 단 한번 사건 A가 일어났다고 했을 때, A가 발생한 시행의 분포, 이 경우 1/n으로 동일(link)

-Multinomial-Distr(RDV~MND(n,E1,p1,E2,p2,...,Ek,pk)), {E1,E2,...,Ek}는 partition of sample space,ProbM(Ei)=pi)

-의미:n회의 독립시행에서, (E1이 일어난 횟수, ..., Ek가 일어난 횟수)의 분포

(Binomial-Distr는 n=사건A일어난 횟수+사건A^C일어난 횟수 인 경우다. 따라서 Binomial은 Multinomial의 특수한 경우)

-Exponential family됨(n:known이어서 n:not in parameter vector일 때)

-RDV~MND(n,E1,p1,...Ek,pk)의 conditional distrb on (rdv_1,...,rdv_g) 또한 MND을 따른다.(link)

(normalizing 과정 실수 주의)

-비복원추출 관련 분포

-Hypergeometric-Distr(rdv~HGD(N,n,K))

-의미:N개 중 K개의 관심대상이 있는데 n번 비복원으로 추출할 때, 관심대상의 개수의 분포

-PMF, Expectation, Variance(link)

-Negative Hypergeometric-Distr

-의미:사건A가 일어난 횟수가 n이 될 때 까지의 시행횟수(추출 횟수)의 distribution

-Multivariate Hypergeometric-Distr

-의미:n회의 비복원 추출시, n=사건A1일어난 횟수+...+사건Ak일어난 횟수=j1+...+jk, (j1,j2,...,jk)의 분포

note:

Binomial<->Hypergeometric(복원이냐 비복원이냐)

Binomial<->Negative Binomial(총 시행횟수:fixed이고 일어난횟수 관심<->일어난 횟수:fixed이고 시행횟수 관심)

Binomial<->Multinomial(사건A만 관심<->여럿 사건 관심)

Hypergeometric<->Negative Hypergeometric(시행횟수:fixed, 일어난횟수 관심<->일어난 횟수:fixed, 시행횟수 관심)

Hypergeometric<->Multivariate Hypergeo(사건 A만 관심<->여럿 사건 관심)

Multinomial<->Multivariate Hypergeo(복원이냐 비복원이냐)

...비교하며 이해하고 외우기 필요

-Poisson Process 관련 Distribution

-Poisson-Distr(rdv~PD(lambda), poisson process with lambda,t에서 t=1일 때 사건발생횟수의 분포)

-Exponential family의 원소 됨

-PMF, MGF, Moment(link)

-chf

-rdv_n~PD(lambda_n):cv in distrb to rdv~PD(lambda) iff parameter의 cv(link)

-[{PD(n)-n}/sqrt(n)]:cv in distrb to ND(0,1)(link)

-S_n~BD(n,p)에서 p->0, n->inf, 단 np=lambda이면 S_n:cv in distrb to PD(lambda)(link)

-ProbM(rdv=a+1)=lambda/(a+1) * ProbM(rdv=a)(link)

-(Hwang)(link)

:rdv~PD(lambda), g(rdv):in L1, g(-1):finite일 때, E[lambda*g(rdv)]=E[rdv*g(rdv - 1)]

-rdv1~PD(lambda1), rdv2~PD(lambda2), rdv1, rdv2:ind이면 rdv1+rdv2~PD(lambda1+lambda2)(using MGF)

-rdv1~PD(lambda1), rdv2~PD(lambda2), rdv1, rdv2:ind이면 

rdv1|(rdv1+rdv2)~BD(rdv1+rdv2,lambda1/(lambda1+lambda2)가 성립

-Exp-Distr(rdv~ED(lambda))

-의미:Poisson Process에서 첫 사건A가 일어날 때까지의 걸리는 T의 분포

(GMD의 special case로 간주 가능)

-DF, MGF, Moment(link)

-chf(link)

-Exponential family됨

-특징:

-rdv~U((0,1))일 때, -log(rdv)~ED(1)이다.

-FR(t)=lambda

-memoryless property를 갖는다.

-{rdv_n}:iid, {rdv_n}~ED(1)이면 ProbM(limsup rdv_n/ln(n) = 1)=1이다.(link)

-{rdv1_n}:iid, {rdv1_n}~ED(1), M_n:=sup over 1<=i<=n (rdv1_i), {M_n - ln(n)} =_d rdv2

s.t. DF(of rdv2)(x)=exp(exp(-x))

-태생적으로, rdv1~ED(lambda), rdv2~PD(x/lambda)일 때, P[rdv1>=x]=P[rdv2=0]을 만족

-Double Exp-distr(rdv~DED(mu, sigma))

-의미:

-ED를 평균을 중심으로 reflection시킨 형태, 따라서 symmetric이고 tail이 fat(ND보다 훨씬) 하지만 moment도 다 가짐(CD처럼 moment가 없을정도의 tail은 아님)

-혹은 X1~ED(lambda), X2~ED(lambda), X1,X2:iid일 때, X1-X2의 distribution이 motive(합하면 GMD)


-density, Moment(link)

-Erlang-Distr(rdv~ERLD(lambda, n))

-의미:Poisson Process에서 사건 A가 n번째 일어날 때까지의 걸리는 T의 분포

-rdv_n ~ ED(lambda)이고 iid일 때, rdv=sum from i=1 to i=n rdv_i, rdv ~ ERLD(lambda,n)

-Density(link)

-rdv1~ERLD(lambda,n), for any x, ProbM(rdv1<=x)=ProbM(rdv2>=n) where rdv2~PD(lambda*x)(link)


-Gamma-Distr(rdv~GMD(lambda, y))

-의미:Poisson Process에서 사건 A가 y번째 일어날 때까지의 걸리는 T의 분포(y는 실수)

(이때 gamma function필요, 실수!을 위해)

-lambda^(-1)는 scale parameter라 불리고 y는 GMD의 pdf의 shape parameter라 한다. 

-DF, MGF, moment(link)

-Exponential family됨

-using GMD(lambda, y-1), Computation가능, identity(link)

(y=0일 땐 지수분포이므로(상대적으로 쉬운), 반복해나가면 확률 구할 수 있음)

-태생자체가, PD랑 관련있어서, 다음과 같은 부등식 성립

:rdv1~GMD(lambda,y), rdv2~PD(lambda*x)일 때, P[rdv1<=x]=P[rdv2>=y]

-rdv1~GMD(lambda,y1), rdv2~GMD(lambda,y2), rdv1,rdv2:ind일 때 

rdv1+rdv2~GMD(lambda,y1+y2)를 따른다. using MGF

-Weibull-distr(rdv~WBD(lambda, n)

-의미:(ED(lambda))^(1/n)해서 얻은 것

-lambda는 scale parameter라 불리고 n은 shape parameter라 한다.

-DF, MGF, Moment(link)

-Exponential family됨

-FR(t)=(lambda)*n*t^(n-1)

-주로 사용되는 모델형태

-기계의 수명의 분포(각 부품들마다 WBD(lambda, n)대응 시켜버림)

(왜냐하면 FR(t)가 간단함, ProbM(rdv>t)따위도 간단하게 나옴)


(Distribution 관계도 link)


-Conti Uniform-Distr(rdv~UD(interval)

-의미:interval=(0,s)동안에 한번 사건 A가 발생했을 시, (T,T+dt)에서 발생했을 확률은 모든 (T,T+dt)에 대해서 dt/s로 동일한, T의 분포(link)

-DF, MGF, moment(link)


-Beta-Distr(rdv~BTD(a,b), a>0, b>0)

-의미:(0,1)동안에 Poisson Process에서 사건 A가 a+b-1번 발생시 (T,T+dt)에서 a번째 A가 발생할 확률을 가진 시간 T의 분포

(dt->0, a,b는 양의 실수이고 이 때 a!, b!을 위해 gamma function, beta function필요)

(a,b모두 shape parameter라 한다.)

-성질:

-Density유도(link)

-Density, DF, Moment(link)

-Exponential family됨

-a=b=1일 때, rdv~BTD(a,b)=UD([0,1])된다.

-Dirichlet-Distr(RDV~DD(vec{theta_K}) where theta의 성분은 positive real, theta의 dimension은 K)

-의미:

-BTD의 일반화된 것, RDV의 성분의 값들이 각각 (0,1)사이에 놓이는 경우이고 성분의 값 합이 1이 됨

-MND의 probability들의 conjugate prior로써 사용됨

-vec{theta}의 dimension=K라 하면 RDV은 dimension이 K-1(RDV의 마지막 성분:=1-(나머지성분합))

-성질:

-RDV~DD((theta_1,theta_2,theta_3))라 하자. 이 때를 bivariate DD라 한다.

-marginal RDV_1~BTD(theta_1, theta_2+theta_3)

-marginal RDV_2~BTD(theta_2, theta_1+theta_3)

-Normal Distribution(rdv~ND(expectation, variance))

-의미:{Z_1,...,Z_n}이 iid이고 E[Z_1]<inf, V[Z_1]<inf일 때, Sample mean은 ND(E[Z_1],V[Z_1]/n)을 따른다.

(Z_1이 무슨 분포이든 상관없다.)

-성질

-DF, density, MGF, moment(link)

(특이하게 density에 평균과 분산이 포함되어있다.)

-Exponential family됨

-chf

-rdv_n~ND(mu_n,(sigma_n)^2):cv in distrb to rdv~ND(mu,sigma^2) iff 각 parameters의 cv(link)

-X~ND(E[X],V[X])일 때

-E[X]+SD[X]에서 변곡점을 갖는다.

-E[X]에서 선대칭인 density를 갖는다.

-X_n~ND(mu, sigma^2)일 때 sample mean~ND(mu, sigma^2/n)이 된다.

-E[g'(rdv)]을 위한 identity(link)

(g가 특히 polynomial일 때가 유용, Stein's Lemma라 하고, Stein의 shrinkage estimator만들 시에 알게된 identity)

-ND와 관련 분포

-Cauchy Distribution(rdv~CD(l,s))

-의미:이론적인 의미가 큼, moment of any order가 존재하지않는 distribution

-l:location parameter, s:scale parameter, (l,s)=(0,1)일 때, standard cauchy distribution이라 한다.

-rdv1~ND(0,1), rdv2:iid with rdv1일 때, rdv1/rdv2~CD(0,1)(link)

(증명에서 꼭 |rdv2|로 정의하지않아도 됌, V=rdv2로 절댓값없이 해도 결과는 같음)

-성질

-density, DF, chf(link)

-rdv1~CD(0,s1), rdv2~CD(0,s2), rdv1, rdv2:ind일 때 rdv1+rdv2~CD(0,s1+s2)

-rdv~CD(0,s)일 때 a*rdv~CD(0,a*s)(using chf)

-Chi-Squared-Distr(rdv~CSD(d), d은 degrees of freedom이라고 rdv_k~ND(0,1)인 것의 개수)

-의미:rdv_n~ND(0,1)인 iid인 것의 d개의 각각 제곱의 합으로 볼 수도 있고, GMD의 특수한 경우로도 볼 수 있다.

-성질

-Exponential family됨

-sample variance의 distribution approximation때 사용

-density, DF, Moment(link)

-E[h(rdv_d)]=d*E[h(rdv_(d+2))/rdv_(d+2)], where rdv_d~CSD(d), rdv_(d+2)~CSD(d+2)(link)

-활용

-model화한 distribution과 empirical density사이의 거리가 CSD를 따를 수 있다. 그것을 통해, hypothesis test하기도 함

-Noncentral Chi-Squared-Distr(rdv~NCSD(d,lambda)), d는 degrees of freedom, lambda는 noncentrality parameter)

-의미:총 N개,rdv_n~ND(mu_n,sigma^2_n), {rdv_n}:ind일 때, Z=sum from n=1 to n=N (rdv_n/sigma_n)^2의 분포

-성질:

-lambda=sum from n=1 to n=N (mu_n/sigma_n)^2

-rdv1~PD(lambda), rdv2|rdv1~CSD(d+2*rdv1)으로 hierarchy를 구성하면 

-marginal rdv2는 NCSD(d,lambda)임을 알 수 있다.

-E[rdv2], V[rdv2]를 쉽게 구할 수 있다. 

-t-Distr(rdv~TD(d))

-의미:population~ND(mu,sigma^2)일 때, 얻은 random sample로서 mu을 inference할 때, sigma도 모른다. 이 때 standard ND에 sigma자리에 sqrt(V_n)을 넣었을 때 얻는 distribution이고 sample size가 n일 때 TD(n-1)을 따르며 이것을 이용해 mu추정함

-성질

-의미로부터 density 유도 가능(link)

-MGF 존재 안함

-rdv~TD(d)일 때, d-1번째 까지의 moments만 존재

-rdv~TD(d)일 때, E[rdv]=0, V[rdv]=(d/d-2) for d>2

-rdv~TD(d)일 때, rdv^2 ~ FD(1,d)

-F-Distr의 특수한 경우로도 볼 수 있다.

-F-Distr(rdv~FD(n,m))

-의미:population1~ND(mu1,(sigma1)^2), population2~ND(mu2,(sigma2)^2), population1과 population2가 ind일 때, sigma1, sigma2을 비교하고자 {(V1_n)/(sigma1)^2}/{(V2_m)/(sigma2)^2}을 조사하고 싶고, 이것의 distribution이 F-Distr, FD(n-1,m-1)을 따른다. 이것을 이용해 두 populations의 sigma ratio을 추정할 수 있다.

(두 population이 굳이 ND을 따르진 않더라도, 어떠한 조건이 성립하면  

{(V1_n)/(sigma1)^2}/{(V2_m)/(sigma2)^2}은 FD(n-1,m-1)을 따르기도 한다.(Kelker)

-성질

-rdv~FD(n,m)이면 rdv^(-1)~FD(m,n)

-rdv~FD(n,m)이면 {(n/m)*rdv}/{1+(n/m)*rdv)} ~ BTD(n/2, m/2)


-Lognormal-Distr(rdv~LND(mu, sigma^2))

-의미:rdv~ND(mu, sigma^2)인 rdv에 exp을 씌우면 exp(rdv)~LND(mu,sigma^2)

(right-skewed인 모델에 사용, 예를 들면 income~LND(mu, sigma^2))

-성질

-rdv~LND(mu, sigma^2)일 때, log(rdv)~ND(mu sigma^2)이다.

(즉, rdv~LND(mu, sigma^2)에서 mu와 sigma는 log(rdv)의 평균과 표준편차지 rdv의 평균과 표준편차는 아님)

-DF, density, MGF, moment, variance(link)

(모든 moments가 존재하는데 MGF는 exist하지 않는 예)

-Multivariate Normal Distribution(RDV~ND_k(mu, ))

-정의

-RDV=(rdv1,rdv2,...,rdvk)인 random vector, every linear combination of its component ~ ND일 때, RDV~ND_k라 한다. (k는 random vector RDV의 size)(link)

-RDV~ND_k(mu)일 때, 가 pdHMT(주로 pdSMT겠지만)일 때, non-degenerate라 한다.(link)

(별말 없으면 non-degenerate만 다루기로 하자.)

-성질

-non-degenerate RDV~ND_k(mu)일 때 density function은 간편하게 나타내진다.(link)

-rdv1~ND, rdv2~ND라 해서 RDV=(rdv1,rdv2)~ND_2 인것은 아니다.

-특히 Bivariate Normal Distribution((rdv1,rdv2)~BND(mu, )

-rdv1|rdv2또한 ND를 따른다.(link)

-E[rdv1|rdv2]은 rdv2에 의존, V[rdv1|rdv2]은 rdv2값과 무관(link)




 

-Brownian Motion, Random walk 관련 Distribution

-arcsine-Distb(rdv~arcsine-distrb)

-의미:rdv의 값이 [0,1]까지만 가지고 rdv의 DF, DF(x)=(2/pi) * arcsine(sqrt(x))일 때를 가리킨다.


-Mixture Distribution

-어느 distribution을 보고 hierarchy를 만들 수 있다. 예를 들면 BD(n,p)의 pmf를 보면, p^a*(1-p)^b의 형태를 포함하고 있어서 이것을, p의 분포로써 BTD를 도입하면 hierarchy를 만들 수 있다.

-위의 사실을 이용해, X~distrb1의 평균, 분산 계산등이 용이하지 않을 때, Y~distrb2, X|Y~distrb3 형태로 분석해보고 이 때, distrb3가 비교적 간편하게 나온다면, X의 expectation, variance 등을 distrb1대신 distrb3를 이용 with tower property

(예를 들면 NSCD가 있다.)

-대표적인 예

-rdv1~NCSD(d,lambda), rdv2~PD(lambda), rdv1|rdv2~CSD(d+2*rdv2)

-rdv1~BD(n,p), rdv2~BTD(a,b), rdv1|rdv2~Beta-binomial distribution(rdv2는 p를 결정하는 rdv)

-Beta-binomial distrbution(a,b,n)(rdv~BBD(a,b,n))

-not exponential family(n:known이라면 어떻게 될 까?)

-RDV1~MND(n,E1,p1,E2,p2,...,EK,pK)), RDV2~DD(vec{theta_K}), RDV2|RDV1~Dirichlet-Multinomial

-Dirichlet-Multinomial Distribution(RDV~DMND(vec{theta_K})

-not exponential family




-About 통계량 계산, 의의

-평균과 기댓값의 차이

-평균은, 총 변량/총 개수

-기댓값은 확률변수가 가질 값의 가중치인 확률을 곱해서 모두 더해 놓은 것

-둘이 같을 수도 있으나 태생이 다름

-평균과 중앙값(median)

-N개의 data, z_1<z_2<...<z_N이라 하고 각각이 발생할 확률이 1/N으로 같다고 하자. 

-이때 z의 평균은 z_i들로부터의 거리를 제곱한 값의 합이 최소가 되는 값이다.

-이때 z의 중앙값은 z_i들로부터의 거리의 절댓값의 합이 최소가 되는 값이다.

(N이 홀수이면 중앙값은 z_{(N+1)/2}이고 N이 짝수일 땐 관례상, z_(N/2)와 z_{(N/2)+1}의 평균으로 정의한다.

-Z1과 Z2가 not ind일 때

-(Cauchy-Schwartz Inequality)E[Z1Z2]<={E[(Z_1)^2]*E[(Z_2)^2]}^(1/2)

-V(Z1+Z2+Z3+...+Zn)=sum over i,j cov(Zi,Zj)=sum V(Zn) + sum over i≠j cov(Zi,Zj)

-V(aZ1+bZ2)=a^2V(Z1)+b^2V(Z2)+2abcov(Z1,Z2)

-V(aZ1-bZ2)=a^2V(Z1)+b^2V(Z2)-2abcov(Z1,Z2)

(X=Y1+Y2, A에 투자, B에 투자한 금액이 각각 1억이고 1년 뒤 Y1,Y2억이 된다 했을 때를 생각하면, 투자할 때 cov(Y1,Y2)<0인 곳에 투자를 해야 V(X)가 작아진다. 즉 risk가 작아진다.)

-cov(Z1,Z2)=E[(Z1-E(Z1))(Z2-E(Z2))]=E(Z1Z2)-E(Z1)E(Z2), 중간의 식으로 cov의 의미를 생각할 수 있다.

-cov(Z,Z)=V(Z), 따라서 분산은 cov의 일종을 볼 수 있다.

-cov(sum a_i X_i, sum b_j Y_j)=sum sum a_i b_j cov(X_i, Y_j)가 성립

(i와 j의 ending index가 같을 때, cov(sum a_i X_i, sum b_j Y_j)=0 iff sum a_i b_i =0, 이때 sum a_i X_i와 sum b_j Y_j가 orthogonal이라고 통계학에선 부른다.)  

-cor(Z1,Z2)=cov(Z1,Z2)/[SD(Z1)*SD(Z2)]

(cor은 Z1과 Z2의 선형종속성의 척도, |cor|가 1에 가까울수록 Z1과 Z2는 선형종속에 가까움, i.e. Z1=aZ2+b꼴에 가까움)

(Z1=aZ2+b, a가 양수이면 cor(Z1,Z2)=1, a가 음수이면 cor(Z1,Z2)=(-1))


-About Stochastic Process(SP)

-정의:

-(J,C4,P):Probability Space, (S,C4):MAS가 있을 때, 

S-valued stochastic process(S-SP)란 collection of S-valued random variables on J, indexed by a totally ordered set T

(S를 State Space라 하고, T를 time이라 한다.)

-S-SP(X라 하자.)가 있을 때, for every finite seq T'=(t1,t2,...,tk) in T^k, X_T'의 distribution on (R^k, C4(TS))을 f-dim distribution of X라 한다. 

-Independent Increment

-Stationary Increment

-Markov Property

-

-분류방법

1. Time이 discrete이냐 continuous이냐

2. State Space가 discrete이냐 continuous이냐

3. Special

-AR Process

-Branching Process

-Brownian Motion

-Cox Process

-Covariance Stationary(=2nd Order Stationary=Weakly Stationary)

-Gaussian Process

-Linear Process

-MA(q), MA(inf)

-Markov Process

-Markov Shot Noise Process

-Martingale

-Poisson Process

-Renewal Process

-Random Walk

-Stationary Process

-Semi-Markov Process

-WN, IWN



-성질(time, state의 discrete여부로 성질분류해보고, 이후 중요 Process별로 성질 정리)

-

-Discrete Time

-(Duality Principle)

:{rdv_n}:iid이면 (rdv_1,rdv_2,...,rdv_n) has the same (multivariate) distribution (rdv_n,...,rdv_2,rdv_1). 

(이것으로써 다른 events이지만 같은 ProbM값을 갖는 경우를 만들 수 있다. 문제 해결이 더 쉬운 것으로 change가능)

-Discrete State

-

-Continuous State

-

-Continuous Time

-

-Discrete State

-

-Continuous State

-

-Using Filter and Lag Operation

-filter with {x_n}란 x_0 + x_1 L + x_2 L^2 +..., where L:lag operator

-p-th degree lag polynomial (1) of {x_n}란 filter with {x_n}에서 L^p까지만 

-p-th degree lag polynomial (2) of {x_n}란, 1 - x_1 L - x_2 L^2 - ... - x_p L^p

-abs summable filter with {x_n}란 {x_n}이 abs summable일 때

-inverse of a filter with {x_n}란, (~)*(filter with {x_n})=1인 ~를 가리킴

-multivariate filter with {MT_n}란, 각 성분이 filter with {성분 in MT_n}을 따르는 것(MT가 square일 필요는 없음)

-성질

-filter with {x_n conv y_n}=product of filter with {x_n} and filter with {y_n}(multivariate filter일 때도 성립)

-따라서 filter는 multiplication에 대해 commutative(multivariate filter일 때는 성립안함)

-x_0가 nonzero이기만하면 inverse of a filter with {x_n}이 항상 존재

-abs summable filter with {x_n}이고 inverse가 존재한다해서 inverse가 abs summable임은 보장안됨

-p-th degree lag polynomial (2) of {x_n}의 inverse가 abs summable할 충분조건은 the polynomial에 L대신 z 넣고 = 0 해서 얻은 방정식의 모든 근의 절댓값>1이면 된다. stability condition

-Autocovariance-Generating Function of weak stationary process

-정의:autocovariance를 계수로하는 -inf에서 inf의 power series(centered at 0)

-성질:

-weak stationary process만을 다룬다면, series의 index를 j=1 to j=inf로 one-side로 표현가능

-


 


-주요 Process

-AR(1)

-정의:SP(={X_n}, n:integer)가 AR Process란, {eps_n=X_n - lambda*X_(n-1)}가 uncorrelated, E[eps_n]=0, V[eps_n]=sigma^2일 때 {X_n}을 AR Process of order 1이라 한다.(deviation-from-the-mean form)

(즉, 다른 form으로는 X_n=c+lambda*X_(n-1)+eps_n, {eps_n}:WN


-성질

-|lambda|<1일 때

-Y_k:=sum from j=1 to j=k (lambda)^j * eps_(n-j)라 할 때, {Y_k}:cv in L2 to X_n(link)

(즉, AR(1) with |lambda|<1은 MA(inf) representation을 갖는다.)

-Cov(X_n,X_(n+k))=(sigma)^2 * lambda^k * (1/(1-(lambda)^2)(link)

(즉 n에는 independent하고 k에만 dependent함)

(사실상 AR(1)을 MA(inf)로 표현해서 MA(inf)에서 cov구하는 방법따른 것)

-|lambda|>1일 때

-AR(1) with |lambda|>1은 future values of eps_n의 MA(inf)로 표현된다.

-|lambda|=1일 때

-AR(1)은 weak stationary process solution을 갖지 않는다. random walk됨

-AR(p)

-정의:

-성질:

-phi_t:Stability Condition을 만족하면 

-MA(inf) 표현가능

-Autocovariance-GF가짐

-weak stationary

-

-ARMA(p,q)(no common root일 때만 다룸)

-정의:

-성질:

-phi_t:Stability Condition을 만족하면

-MA(inf) 표현가능

-Autocovariance-GF가짐

-weak stationary

-theta_t:Stability Condition을 만족하면

-AR(inf) 표현가능 


-Stationary Process

-정의:SP(={X_t})가 stationary process란, for any h>0, for any finite seq T', X_(T') =_d X_(T'+h)

-성질

-for any t, E[X_t]:finite, V[X_t]:finite이면 E[X_t]=constant, V[X_t]:constant이다.(over t)

-Cov[X_t1,X_t2]=R(|t2-t2|), where R(h)=E[(X_h - E[X_h]*(X_0 - E[X_0])]

-Autocorrelation(h)=R(h)/R(0)로 표현가능

-Covariance Stationary Process(second order stationary, weakly stationary라고도 한다.)

-정의:SP(={X_t})가 Covariance Stationary Process란, 

for any t, E[X_t]=constant, Cov[X_t1,X_t2] depends on |t2-t1|

(따라서 Stationary Process일 때처럼 R(h)란게 존재)

-성질

-E[(X_t)^2]=constant over t(따라서 first two moment에 대해서 constant over t라서 second order라고도 함)

-{X_t}:covariance stationary, X_n predict하고 싶을 때 {a_1*X_(n-1)+a_2*X_(n-2)+...+a_p*X_(n-p)|a_i:real}중에서 Mean Square Error(L2 norm error)가 최소인 estimator가 존재하고 estimator을 구할 수 있다.(link)

-(Mean Square Ergodic Theorem)(link)

:{X_t}:covariance stationary with R(h)일 때

lim n->inf (sum from i=0 to i=(n-1) R(i))/n = 0 iff {S_n / n}:cv in L2 to E[X_1]

-abs summable filter with {x_n}은 mapping, {weak stationary process}->{weak stationary process}

(X_t가 vector process이고 multivariate filter여도 성립한다.)

-{X_t}:weak stationary with abs summable autocovariance and Autocovariance-GF이면

for any abs summable {a_n}, a(L)X_t 또한 weak stationary with abs summable Autocovariance-GF 

(X_t가 vector process이고 multivariate filter여도 성립한다.)

-Gaussian Process

-정의:SP(={X_t, t>=0}가 Gaussian Process란, for any finite T'=(t_1,...,t_n), X_T'~ND_n

-Linear Process

-정의:{eps_t}:WN이고 X_t=mu+[sum from j=(-inf) to j=inf (theta_j * eps_(t-j))] with theta_0 =1, {X_t}를 Linear Process라 한다.


-MA(q)

-정의:

-{eps_t}:WN이고({eps_t}:weak stationary이기만해도 정의하기도 함)

X_t=mu + [sum from j=0 to j=q (theta_j * eps_(t-j))] with theta_0 = 1, {X_t}를 MA(q)라 한다.


-성질:

-{X_t}:weak stationary

-MA는 기본적으로 not stochastic, initial condition만 주어지면 이후 값은 not random

-Autocovariance-GF이 존재

-MA(inf)

-정의:{eps_t}:WN이고({eps_t}:weak stationary이기만해도 정의하기도 함)

X_t=mu+[sum from j=0 to j=inf (theta_j * eps_(t-j))] with theta_0=1, {X_t}를 MA(inf)라 한다.

-성질:    

-{theta_j}가 square-summable이면 

-[sum from j=0 to j=inf (theta_j * eps_(t-j))]:cv in L2, 즉 정의 잘됨

-{X_t}:weak stationary

-E[X_t]=mu

-{theta_j}가 abs summable이면 

-{X_t}의 jth autocovariance=sigma^2 * sum from k=0 to k=inf {theta_(j+k) * theta_k}

-{eps_t}의 autocovariance가 abs summable이면, {X_t}의 autocovariance도 abs summable됨

-{eps_t}가 iid이면 {X_t}는 stationary and ergodic됨

-Autocovariance-GF존재




-Markov Process, discrete-time

-정의:Stochastic Process {Z_n}이, P(Z_(n)=j_(n)|Z_(n-1)=j_(n-1),...,Z_0=j_0)=P(Z_(n)=j_(n)|Z_(n-1)=j_(n-1))을 만족할 때, {Z_n}을 Markov Process라 한다.

-성질:

-어떤 Stochastic Process가 Independent Increments라면, Markov Process가 된다.

(역은 성립 안함)

-Markov Decision Process, discrete-time

-정의:(S,A,{transition probability P_a(s,s') depending action a at time t from state s at time t to state s' at time t+1}, R), where S:set of state, A:set of actions, R:set of reward

-Martingale({mg_n}을 martingale로 표현하겠다. 그냥 stochastic process는 {rdv_n}으로)

-정의:

-mg, supermg, submg, fair seq, superfair seq, subfair seq

{C4_n}:Filtration of C4이고

{rdv_n}:(J,C4)->(ETR,C4(TS))이 integrable and adapted이고

for 0<=m<n, E[rdv_n | C4_m] = rdv_m a.e.일 때 {(rdv_n,C4_n)}을 martingale이라 한다.(mg) 

(마지막 조건은 for any n>=0, E[rdv_(n+1) | C4_n] = rdv_n a.e.와 동치이다.)

(E[rdv_n | C4_m] >= rdv_m a.e.일 때는 {(rdv_n, C4_n)}을 submartingale이라 한다.(submg))

(E[rdv_n | C4_m] <= rdv_m a.e.일 때는 {(rdv_n, C4_n)}을 supermartingale이라 한다.(supermg)

(대게는 {Z_n}이 mg, submg, supermg라고 한다. Filtration은 생략하고 적기로 함)

특히 1,2번째 만족하면서 3번째 조건이 다음과 같을 땐 fair seq라 하고 {(d_n,C4_n)}으로 적는다.

"for 0<=m<n, E[rdv_n | C4_m] = 0" (>=일 땐 subfair, <=일 땐 superfair라 한다.)

-{(rdv_n,C4_n)}:predictable이란, rdv_0:C4_0-measurable, rdv_n:C4_(n-1)-measurable

-{(rdv_n,C4_n)}:increasing process(inc process)란, predictable and 0=rdv_0<=rdv_1<=rdv_2<=...(a.e.)

-τ:J->{0,1,2,3,...,inf} wrt filtration {C4_n}가 stopping time이란, for any n in {0,1,2,3,...,inf}, {τ=n} is in C4_n

-C4(τ):={E in C4(C4_n) s.t. for any n in {0,1,2,3,...,inf}, ([τ=n] intersection E) in C4(C4_n)}

(따라서 C4(τ)는 C4(C4_n)의 sub sigma algebra가 된다.)

-{(mg_n,C4_n)}:closed란, lim n->inf mg_n이 exist a.e.이고 E[lim n->inf mg_n |B_m]=mg_m

-regularmg_n란, mg_n이 rdv:in L1, E[rdv|C4_n]=mg_n되는 rdv가 존재하는 mg_n을 regularmg_n이라 한다.

-성질:

-general한 mg, seq만들기

-(From rdv in L1 with Filtration)

:rdv:in L1(C4-measurable), C4_n:inc(to C4)일 때, rdv_n:=E[rdv|C4_n]하면 {(rdv_n,C4_n)}:mg

-(From {rdv_n} in L1)

:C4_0:=Trivial, C4_n:=C4(rdv_1,...,rdv_n)일 때, {(rdv_n-E[rdv_n|C4_(n-1)],C4_n)}:fairseq

-(From {rdv_n} in L1 s.t. ind, mean zero)

:{rdv_n}:ind, in L1, E[rdv_n]=0, rdv_0:=0, C4_n:=C4(rdv_0,...,rdv_n)일 때, 

{(sum from i=1 to i=n (rdv_i),C4_n)}:mg

-(From fairseq with predictable rdv_n)

:{(d_n * U_n, C4_n)}:fairseq if U_n:predictable

-(From {rdv_n}:iid, {0,1,2,3,...} valued, C4_0=trivial, C4_n=C4(rdv_1,...,rdv_n), using generating function)

:{(mg_n(t),C4_n)}:mg where mg_n(t) := {t^(S_n)}/{generating function (t)}^n, 0<=t<=1

-(From State Space = integer인 Markov Chain {Y_n} with transition prob matrix P)

:a=egv(P), f=egv(P,a)라 할 때, {(f(Y_n)/a^n,C4(Y_1,...,Y_n)}은 mg

-Stopping Times(filtration생략하고 τ라 적자.)관련 성질

-τ:C4(τ)-measurable, and C4(C4_n)-measurable

-[τ=n],[τ<n],[τ>n],[τ<=n],[τ>=n] 모두 in C4_n(in C4(τ)은 당연)

-sup τ_n, inf τ_n 모두 stopping time이 된다.

-τ_n이 monotone이면 lim n->inf τ_n은 존재하고 stopping time도 된다.

-τ_1 + τ_2:stopping time이 된다.

-[τ_1 < τ_2], [τ_1 = τ_2], [τ_1 <= τ_2] 모두 C4(τ_1) intersection C4(τ_2)에 속한다.

-for E in C4(τ_1), E intersection [τ_1 <= τ_2]는 C4(τ_2)에 속한다.

-for E in C4(τ_1), E intersection [τ_1 < τ_2]는 C4(τ_2)에 속한다.

-τ_1 <= τ_2 on J이면 C4(τ_1) < C4(τ_2)

-rdv:in L1이면 E[rdv|C4(τ)]=sum from i=0 to i=inf E[rdv|C4_i]*indi_(τ=i)(link)

-{rdv_n}:adapted, in L1일 때 {rdv_n}:mg 

iff for any bdd, predictable {U_n}, for any N, E[sum from i=0 to i=N U_n*d_n]=0 where d_n:mg difference, d_0=rdv_0 - E[rdv_0](link)

-supermg(supermg_n)의 성질(별말 없으면 같은 filtration에 대한 내용임)

-(Pasting Two Supermgs)(link)

:{supermg1_n}, {supermg2_n}, τ s.t. supermg1_τ >= supermg2_τ on {τ<inf}일 때, 

{rdv_n:=supermg1_n * indi_{n<τ} + supermg2_n * indi_{n>=τ}}은 supermg가 된다.
-(Freezing)(link)

:rdv_n:=supermg_min(n,τ)은 supermg이다.

-Positive Supermg({supermg_n}이 nnn라 하자. 생각)에 대해서

-(Boundedness of positive supermg)(link)

:a>0 or C4_0-measurable rdv일 때, 

ProbM(sup over n (supermg_n)>=a|C4_0) <= min(supermg_0/a, 1)이고

sup over n (supermg_n) < inf a.e.

-(Dubin's Inequality, with upcrossing)(link1)(link2)

:0<a<b, k>=1일 때

ProbM(beta(a,b)>=k|C4_0)<=(a/b)^k*min(supermg_n/a , 1)이고 beta(a,b)<inf a.e.

(beta(a,b)란, supermg_n이 a->b을 upcrossing하는 횟수, link참조)

-(Convergence Theorem for a positive supermg)(link1)(link2)

:{supermg_n}은 limit을 갖고 supermg property가 limit에서도 적용, (limit in L1)

-τ_1<=τ_2 a.e.일 때 E[supermg_(τ_2)|C4_(τ_1)]<=supermg_(τ_1) a.e.(link1)(link2)

-submg(submg_n)의 성질

-(Doob Decomposition)(link)

:for any submg_n, te! {mg_n} and {inc process_n} s.t. submg_n = mg_n + inc process_n

-f:R->R, convex, inc, E[|f(mg_n)|]<inf일 때, {(f(mg_n))}:submg(link)

-(Krickeberg's Decomposition)(link1)(link2)

:{submg_n} with sup over n E[(submg_n)^+]<inf에 대해 

te {mg_n}, {supermg_n} s.t. mg_n:nnn, supermg_n:nnn, submg_n = mg_n - supermg_n

-(Submg Convergence Theorem)(link)

:{submg_n} with sup over n E[(submg_n)^+]<inf에 대해

te limit of submg_n whose is in L1

(만약 submg_n가 mg_n이었다면 closed mg_n도 된다.)

-{rdv_n}이 mg이면({mg_n}이라 적자)

-iff {mg_n}:submg and supermg(따라서 submg, supermg 성질들 다 만족함)

-E[mg_n]=E[mg_(n-1)]=...=E[mg_1], 즉 E[mg_n]:constant over n

-te fairseq(subfair, superfair) iff te mg(submg, supermg)(link)

(즉, martingale <-> fairseq, 둘중 하나를 체크하든, 둘중 하나를 만들든...)

-fairseq {(d_n,C4_n)}의 각 d_n이 in L2였으면 d_n은 orthogonal(link)

(이때 {(d_n,C4_n)}으로 induced된 mg_n, E[(mg_n)^2]=E[sum from i=1 to i=n (d_i)^2])

-f:R->R, convex, E[|f(mg_n)|]<inf일 때, {(f(mg_n))}:submg(link)

-rdv:nnn, in L1, {C4_n}:filtration, {mg_n=E[rdv|C4_n]}:pt cv a.e. and cv in L1 to E[rdv|C4(C4_n)]

-About Regularmg_n

-{(mg_n,C4_n)}에 대해 TFAE(link)

-{mg_n}:cv in L1

-{mg_n}:sup over n E[|mg_n|]<inf and E[lim n->inf mg_n|C4_n]=mg_n(closable)

-te rdv in L1 s.t. E[rdv|C4_n]=mg_n , 즉 regularmg_n

-{mg_n}:u.i.

-τ에 대해 mg_τ is in L1(link)

-τ_1 <= τ_2이면 E[mg_(τ_2)|C4(τ_1)]=mg_(τ_1) a.e.(link)









-f:R->R, convex, {f(mg_n)}은 submg by Jensen's Inequality

(따라서 {|mg_n|}, {(mg_n)^2}은 submg됨)

-for any eps>0 and any fixed n in N

P(max{|mg_1|,...,|mg_n|}>eps)<=E[|mg_n|]/(eps)

P(max{|mg_1|,...,|mg_n|}>eps)<=E[(mg_n)^2]/(eps)^2

-n<m에 대해 E[mg_n * mg_m]=E[(mg_n)^2](link)

-(Martingale Convergence Theorem)

:sup over n {E[(mg_n)^2]}<=M for some 0<=M<inf이면 lim n->inf mg_n은 exist and finite w.p.1

-(Extended Martingale Convergence Theorem)

:sup over n {E[|mg_n|]<=M<inf for some M>=0이면 lim n->inf mg_n은 exist and finite w.p.1

(따라서 nnn {mg_n}은 반드시 lim n->inf mg_n은 exist and finite w.p.1)

-(Azuma's Inequality)(link)

:mg_0=E[mg_1], -α_i <= mg_i - mg_(i-1) <= β_i for some α_i, β_i >=0 for any a>0이면

ProbM(mg_n - E[mg_n] >= a)<=exp((-2a^2)/sum from i=1 to i=n (α_i+β_i)^2)

ProbM(mg_n - E[mg_n] <= -a)<=exp((-2a^2)/sum from i=1 to i=n (α_i+β_i)^2)

-{rdv_n}이 submg이면({submg_n}이라 하자.)

-iff {-submg_n}이 supermg

-E[submg_n]:inc over n

-(Kolmogorov's Inequality)

:for any eps>0 and {Z_n}:nnn submartingale, ProbM(max{Z_1,...,Z_n}>eps)<=E[Z_n]/eps

-te {mg_n}, {rdv_n} s.t. submg_n = mg_n + rdv_n and {rdv_n}:inc(link)

-{rdv_n}이 supermg이면({supermg_n}이라 하자.)

-E[supermg_n]:dec over n

-mg만들기

-{rdv_n}:iid, integrable, E[rdv_n]=0일 때, 처음부터 n까지 합 S_n, {S_n}:mg

-{rdv_n}:iid, rdv_n=sum from i=1 to i=n rdv_i, E[e^(a*rdv_1)]=1인 a가 존재하면 {e^(a*S_n)}:mg(link)

-{rdv_n}:iid, integrable, E[rdv_n]=1일 때, k=1 to k=n까지 rdv_k의 곱 P_n, {P_n}:mg

-{rdv1_n}:integrable, {rdv2_n=rdv1_n - E[rdv1_n|rdv1_1,rdv1_2,...,rdv1_(n-1)]}일 때 

S_n=sum from i=1 to i=n Y_i, {S_n}:mg

-Branching Process

-Doob Martingale

-정의:rdv1:integrable, {rdv2_n}가 있을 때, 

{E[rdv1|rdv2_1,rdv2_2,...,rdv2_n]}:mg가 되고, Doob martingale이라 한다.(D-mg라 하자.)

-{rdv_n}:D-mg iff {rdv_n}:u.i.(link1)(link2)

-About Random Time(꼭 {mg_n}이 주어진건 아닌 상황)

-정의:

{rdv_n}:(J,C4)->(ETR, C4(TS))

N:(J,C4)->(ETR, C4(TS)), integer-valued or inf-valued인 rdv

{N=t} depends on only values of rdv_1, rdv_2, ..., rdv_t일 때, N을 random time for {rdv_n}이라 한다.

(ProbM(N<inf)=1이면 random time N for {rdv_n}을 stopping time for {rdv_n}이라 한다.)

(random time N for {rdv_n}에 대해, bar{rdv_n}:=rdv_n(if n<N) or rdv_N(if n>=N), 이 때 bar{rdv_n}을 stopped process with N이라 한다.)

-성질:

-N이 random time for {rdv_n}일 때 

-{N>=n}은 rdv_1, rdv_2,..., rdv_(n-1)만 주어지면 determined(여사건 생각)

-N이 stopping time for {rdv_n}일 때

-lim_n->inf bar{rdv_n}=rdv_N w.p.1

-bar{rdv_n} - rdv_N = [bar{rdv_n} - rdv_N]*indi_{n<N}

-rdv_N = rdv_1 * indi_{N=1} +rdv_2 * indi_{N=2} +....

-(Wald's Equation)(link)

:{rdv_n}:iid, quasi-integrable이고 N:stopping time for {rdv_n}, integrable이면 

E[sum from i=1 to i=N X_i]=E[N]*E[X_1]

(P(N<inf)=1보다 E[N]<inf가 강한 조건이다.)

-{mg_n}과 N:random time for {mg_n}, {submg_n}, {supermg_n} 이 주어지면

-stopped process {bar{mg_n}}도 martingale이다.(link)

(따라서 E[bar{mg_n}]=E[bar{mg_(n-1)}]=...=E[bar{mg_1}]=E[mg_1]이다.)

-N:stopping time for {mg_n}이기도 할 때

-{bar{mg_n}}:uniformly bdd이면 lim n->inf E[bar{mg_n}]=E[mg_N](=E[mg_1])(link)

-N:bdd w.p.1이면 lim n->inf E[bar{mg_n}]=E[mg_N](=E[mg_1])(link)

-N:integrable and te M<inf s.t. E[|mg_(n+1)-mg_n| | mg_1, ..., mg_n]<=M for all n이면

limE[bar{Z_n}]=E[Z_N](=E[Z_1])(link1)(link2)

(for all n을 for all n s.t. n<N으로 바꿔도 상관 없음)

-N:stopping time for {submg_n}

-stopped process bar{submg_n}도 submg이다.

-{bar{submg_n}}:uniformly bdd이면 E[submg_N]>=E[submg_1]

-N:bdd w.p.1 by (n_0)이면 E[submg_(n_0)]>=E[submg_N]>=E[submg_1]

-N:integrable and te M<inf s.t. E[|submg_(n+1)-submg_n| | submg_1, ..., submg_n]<=M for all n이면 

E[submg_N]>=E[submg_1]

(for all n을 for all n s.t. n<N으로 바꿔도 상관 없음)

-N:stopping time for {supermg_n}

-stopped process bar{supermg_n}도 supermg이다.

-{bar{supermg_n}}:uniformly bdd이면 E[supermg_N]<=E[supermg_1]

-N:bdd w.p.1이면 E[supermg_N]<=E[supermg_1]

-N:integrable and te M<inf s.t. E[|supermg_(n+1)-supermg_n| | supermg_1, ..., supermg_n]<=M for all n이면 E[supermg_N]<=E[supermg_1]

(for all n을 for all n s.t. n<N으로 바꿔도 상관 없음)

-About Random Walk

-{rdv_n}:iid, E[rdv_1]>0, S_0=0, S_n:=sum from i=1 to i=n rdv_i, N=min{n|S_n>0}이면 E[N]<inf이다.(link1)(link2)

-{rdv_n}:iid, E[|rdv_1|]>0, S_0=0, S_n:=sum from i=1 to i=n rdv_i, A>0, B>0, N=min{n|S_n>A or S_n<(-B}이면 E[N]<inf이다.(link)

-(Spitzer's Identity){S_n}:random walk, {Max_n=max{0,S_1,...,S_n}}일 때, E[Max_n]=sum from k=1 to k=n E[S_k^+]*1/k

-WN(White Noise)

-정의:E[X_t]=0, E[(X_t)^2]=sigma^2, Cov[X_t,X_(t-j)]=0 for j not equal to t

-성질:

-Covariance Stationary 성립

-iid이면서 WN을 IWN이라 한다.

-VWN(Vector White Noise)

-정의:{X_t, column vector}, E[X_t]=0, E[X_t * ct(X_t)]=positive-definite(fixed for t), E[X_t * ct(X_(t-j))]=0

-성질:

-E[X_t * ct(X_t)]의 대각성분이 다 같다라는 제한이 없다.

-X_t의 성분끼리의 perfect correlation은 있을 수 없다.(positive-definite때문)

-VMA(inf)(Vector MA(inf) process)

-정의:MA(inf)와 유사, 단지, mu, theta_j(seq of square matrix), {eps_t}:VWN, theta_0=IMT일 뿐

-성질:

-{theta_j}가 abs summable이라함은 각 성분들이 각각의 series가 abs summable이란 것

-MA(inf)의 성질들이 모두 만족함



-Continuous-time Process

-{Z_t, t>=0}가 continuous time stochastic process on the probability space (J,C4,M) whose paths are continuous인 경우, rdv_1:(J,C4)->[0,inf)가 있다면 Z_rdv_1는 rdv가 된다. P(rdv_1<inf)=1이라는게 중요

-Counting Process{N(t):t>=0}

-정의:[0,t]까지 사건 A가 일어난 횟수가 N(t)

-몇가지 용어들

-N(t)가 independent increments:for any two disjoint time intervals I1,I2, 각각에서 A가 일어난 횟수는 independent

-N(t)가 stationary increments:사건 A가 일어난 횟수의 distribution on any interval은 interval의 길이에만 dependent(interval의 위치와는 independent)

(즉 N(t2+s)-N(t1+s)와 N(t2)-N(t1)의 distribution이 같음, t1<t2, s>0)

-성질

-N(t)>=0

-N(t) integer valued

-t1<t2이면 N(t1)<N(t2)

-t1<t2이면 N(t2)-N(t1)은 (t1,t2]에 일어난 횟수

-Poisson Process with lambda>0

-정의:counting process N(t)가 N(0)=0 and independent increments and 길이가 dt인 interval에서 사건 A가 일어난 횟수가 poisson distributed with mean (lambda*dt)인 counting process을 Poisson Process라 한다.

혹은 (link)처럼 건설 가능

-성질

-counting process의 성질들을 만족한다.

-stationary increments

-counting process N(t)가 poisson process with lambda>0 

iff N(0)=0, stationary increments, independent increments, P{N(h)=1}=lambda*h+o(h), P{N(h)>=2}=o(h)

(이 성질로써 어떠한 counting process가 poisson process인지 확인 하기 쉬워짐)

-Brownian Motion

-Motive:(link1)(link2)

-Definition

-X_0=0

-{X_t}:stationary increments, independent increments

-X_t~ND(0,c^2 * t) for some fixed constants c(c=1일 때, Standard Brownian Motion이라 한다.)

-Properties

-{X_t}:Brownian Motion이면 {X_t * 1/c}:Standard Brownian Motion이 된다.

(Standard Brownian Motion에 대해서만 공부해도 됨, 따라서 이하 별말 없으면 Standard인 경우만 고려)

-{X_t (w) : t>=0}, sample path, 모든 sample path는 continuous over t

-모든 Sample path는 nowhere differentiable

-X_t의 density는 f_t(x)=1/sqrt(2*pi*t) * exp(-x^2/2t)

-{X_(t_1), X_(t_2), ..., X_(t_n)}의 joint density f(x_1,x_2,...,x_n)은 

f_(t_1)(x_1)*f_(t_2 - t_1)(x_2)*...*f_(t_n - t_(n-1))(x_n)

-for s<=t, Cov(X_s, X_t)=s(link)

-Markov Process가 된다.

-Gaussian Process가 된다.

-{X_s|s<t, X_t = b}의 분포는 ND((b*s)/t, s*(t-s)/t)을 따른다.(link)

(b=0, t=1일 때, {X_s}을 Brownian Bridge라 한다. {X_t}:Standard Brownian Motion, {X_s}:Brownian Bridge)

-Gaussian Process이다.X_s~ND(0, s*(1-s))

-0<a<=b<1일 때, Cov[X_a, X_b|X_1 =0]=a*(1-b)(link)

-Z_t = X_t - t*X_1로 표현가능하다.(Z_t는 Brownian Bridge)(link)

-About Hitting Time

-a>0, T_a :=inf{t>0|X_t =a}, 즉 T_a는 {X_t}가 a를 hit하는 최소시간일 때

-(Reflection Principle)(link)

:Y_t:=(X_t) * indi_(t<=T_a) + (2*X_(T_a) - X_t) * indi_(t>T_a)도 standard brownian motion

-ProbM(T_a<inf)=1(link1)(link2)

-ProbM(T_a<=t)도 앎(link1)(link2)

-ProbM(T_a<=t)=2*ProbM(X_t>=a)=ProbM(|X_t|>=a)=ProbM(sup over s in [0,t] X_s >=a)

(link1)(link2)

(따라서 |X_t| =_d sup over [0,t] X_s)

-E[T_a]=inf(link1)(link2)

-(Absorbed Brownian Motion)

-X_t:=X_t for t<=T_a, a for t>T_a일 때, X_t를 absorbed brownian motion이라 한다.

-Absorbed Brownian Motion의 CDF(link)

-t1<t2에 대해 E(t1,t2):={x in J s.t. X_t hits 0 at least one in (t1,t2)}

-ProbM(E(t1,t2))=1 - {(2/pi) * arcsine(sqrt(t1/t2))}(link)

(따라서, for 0<x<1, ProbM(X_t has no zeros in (xt,t))=(2/pi)*arcsine(sqrt(x)))

-(Arcsine Law)

-L:=sup{t in [0,1] s.t. X_t = 0}, L~arcsine-distrb(link)

-M*:=argmax over t in [0,1] (X_t), M*~arcsine-distrb(link)

-(Occupation Time)

-A_t:=the amount of time in [0,t] s.t. X_t>0일 때, {A_t / t}~arcsine-distrb

-About Reflected Brownian Motion

-|X_t|를 reflected brownian motion이라 한다.

-reflected brownian motion의 CDF, Expectation, Variance(link)

-About Maximum process {sup over s in [0,t] X_s}

-ProbM(sup over s in [0,t] X_s >= a) = ProbM(T_a <= t)=ProbM( |X_t| >= a) = 2*ProbM(X_t>=a)

({sup over s in [0,t] X_s}과 |X_t|은 have the same law라 한다.)

-(Levy's Theorem on the maximum process)

:{(sup over s in [0,t] X_s) - X_t} is a reflected brownian motion

-About Geometric Brownian Motion

-exp(X_t)를 Geometric Brownian Motion이라 한다.

-Expectation, Variance(link)

-About Integrated Brownian Motion

-int over [0,t] X_s ds(pathwise integration)을 Integrated Brownian Motion이라 한다.

-

-About Brownian Motion with drift mu

-X_0=0, {X_t}:stationary increment and independent increment, X_t~ND(mu*t, t)일 때 

{X_t}를 Brownian Motion with drift mu라 한다.

-Approximation by random walk(link)

-About Hitting time 

-A>0, B>0, P(X_t hits A before -B)=(1-exp(-2*mu*B))/(1-exp(-2*mu*(A+B)))

-

-About Queueing Theory(A/B/C model이란, A는 Customer arrive의 분포, B는 Service time의 분포, C는 server개수)

-G/G/1 Model

-Situation:

-Customer arrive at time C_1, C_2, ...

-Interarrival time X_1=C_1, X_2=C_2-C_1,...

-Service time C_1 has Y_1, C_2 has Y_2, ...

-{X_n}:iid, {Y_n}:iid

-D_n:=n번째 손님이 도착했을 때, 남아있었던 workload, 즉 D_n:=max(D_(n-1)+Y_(n-1)-X_n,0)

-성질

-U_n:=Y_n - X_(n+1)이라 할 때

-E[U_1]>0이면 D_n->inf w.p.1

-E[U_1]<0이면 D_n->D_inf w.p.1 for some rdv D_inf

-for any C>0, P(U_1>0)>0 이고 te theta>0 s.t. E[exp(theta*U_1)]=1이면 

-P(D_inf>=C)<=exp((-theta)*C)(link1)(link2)

-(G/M/1)게다가 {Y_n}~ED(mu)라면 P(D_inf>=C)={(mu-theta)*e^(-theta*c)}/(mu), P(D_inf = 0)=(theta)/(mu)(link1)(link2)

-(M/M/1)게다가 {X_n}~ED(lambda)라면 

-lambda<mu

-P(D_inf>0)=(lambda)/(mu)



-About Statistics

-기초

-Sample(표본)을 이용하여 Population(모집단)의 Characteristic(성질)을 Inference(추론)하는 것

-Inference는 estimation(추정)과 hypothesis test(검정)으로 이루어짐

-prediction(or forecasting, 예측)은 대게 시간이 지나면 실제값이 알려지나 안 알려질 수도 있다.

-population은 '필요한 정보'가 무엇이고 '얻을 수 있는 정보'가 무엇인지에 달려있다.

-통계학의 주요과제는 통계적 추론의 목적에 적합한 통계량(statistic)을 찾은 다음, 그 분포(표본분포, 통계량의 분포)를 구하는 것인데, 이 때 likelihood function이 핵심적인 역할을 한다. (sample {Z1,...,Z_n}이 iid인 경우)

LF는 통계량의 분포를 구하는데에만 쓰이는 게 아니라, 적합한 통계량을 찾는데에도 쓰인다.

-Data Type, categorical(=nominal, category가 2개이면 binary), numerical

-Data Presentation

-categorical data용

-bar chart

-Pareto chart

-pie chart(각 category의 total data set에서의 proportion 강조)

-numerical data용

-histogram

-box plot


-"복원 추출", "독립 시행"과 관련된 모든 것이 독립인 것은 아님

-About Sample

-정의:

-(Z_1,Z_2,...,Z_n), random sample(of size n from the population), if {Z_1,Z_2,...,Z_n}:iid일 때

-(Z_1,Z_2,...,Z_n), simple random sampling, if 비복원 from a finite population(별 언급없으면 random sample)

-S(Z_1,Z_2,...,Z_n)을 statistic이라 한다. (rdv, RDV 가능)

(즉 random sample의 function(scalar-valued일 수도, vector-valued일수도)

(S의 distribution을 sample distribution of S라 한다. 대표적인 statistic으론 sample mean, sample median, sample trimmed mean, sample mode, sample variance, sample quantile 등이 있다.)

-SS(Z_1,Z_2,...,Z_n), sufficient statistic for theta란, (Z_1,...,Z_n)|SS(Z_1,Z_2,...,Z_n), 즉 conditional distribution이 not depend on theta일 때의 statistic

-minimal SS(Z_1,Z_2,...,Z_n)란, 임의의 SS(Z_1,Z_2,...,Z_n) for same parameter의 function으로 표현되는 SS(Z_1,...,Z_n)을 가리킨다.

-AS(Z_1,Z_2,...,Z_n), ancillary statistic for theta란, the statistic의 distribution이 not dependent on theta일 때를 가리킨다.

-{densities of statistic along theta}:complete란 

for any theta, for any MF인 g s.t. independent of theta 

E[g(the statistic)]=0이면 ProbM(g(the statistic=0))=1 for any theta. 

그리고 이 때 statistic을 complete statistic이라 한다.

-Order Statistic, (Z_(1),Z_(2),...,Z_(n)), random sample을 ascending순으로 나열한 것

-sample range, Z_(n) - Z_(1)을 가리키며 population의 dispersion의 indicator가 될 수 있음

-sample median, Z_({(n+1)/2})(n이 odd일 때), (Z_({n/2})+Z_({n/2 + 1}))/2, sample mean보다 outlier에 덜 영향을 받는게 주요특징 

-sample midrange, (Z_(1)+Z_(n))/2

-estimate error란 estimator of parameter - parameter를 가리키고, estimator - parameter는 확률변수가 된다. 왜냐하면 estimator가 확률변수이므로, parameter는 확률변수 아님, 단지 모를 뿐임

-estimate error가 양수이면 overestimation, 음수이면 underestimation이라 한다.

-Notation:

-observed(or realized) sample의 표현은 {z_1,z_2,...,z_n}으로 나타낸다.(각각은 real number)

-모집단의 평균을 mu, 표준편차 sigma, 그냥 density는 모집단의 density

-S_n:=Z_1+Z_2+...+Z_n

-bar{Z}:=(sum from i=1 to i=n Z_i)/n, 즉 sample mean

-V_n:=(sum from i=1 to i=n (Z_i - bar{Z})^2)/(n-1), 즉 sample variance

-성질:

-simple random sampling의 경우 ind는 보장안되지만 identically distributed는 됨

-simple random sampling이더라도 population의 size N이 n에 비해 많이크면 random sample취급 가능

-About Sample Distribution

-About Sample mean, bar{Z}(Sample Variance의 내용도 많이 포함됨)

-E[bar{Z}]=mu

-V[bar{Z}]=(sigma)^2/n

-bar{Z}는 d((z_1,z_2,...,z_n),(bar{Z},bar{Z},...,bar{Z}))가 최소가 되게한다. 

where d:euclidean metric

-Population의 density가 Location-Scale Family의 원소였다면, standard의 sample mean에 대해서만 조사해도 나머지 family의 원소의 density를 따를 때도 sample mean의 distribution쉽게 앎

-{Z_n}:iid일 때 TFAE(link)

-Z_1:integrable

-for any eps>0, sum from n=1 to n=inf ProbM(|Z_1|>eps*n)<inf

-|Z_n / n|:pt cv a.e. to 0

(처음거랑 두번째거는 iid와는 무관하게 equivalent, 걍 하나의 rdv에 관한 이야기)

(Kolmogorov's S-LLN과도 연관있음)

-(Weak Law of Large Number, W-LLN)(bar{Z}의 cv in M)

:{Z_n}:iid, V[Z_1]:finite일 때(finite mean도 됨, finite variance->L2->L1->finite mean)

-bar{Z}:cv in M to mu(link)

-V_n:cv in M to (sigma)^2(link)

-(General W-LLN)(identically distribution과 finite mean, finite variance조건이 없어짐)(link)

:{Z_n}이 ind이고 

lim n->inf sum from i=1 to i=n ProbM(|Z_i|>n) = 0이고 

lim n->inf [sum from i=1 to i=n E[(Z_i)^2 * indi_{|Z_i|<=n}]]/n^2 = 0이면

for a_n=sum from i=1 to i=n E[(Z_i)*indi_{|Z_i|<=n}], S_n=sum from i=1 to i=n (Z_i)

[S_n - a_n]/n : cv in M to 0

note)(General W-LLN의 배경)

-finite mean 조건 약화시키기

-Z:integrable(즉 finite mean과 동치)이면 lim n->inf n*ProbM(|Z|>n) = 0 (역은 거짓)(link)

-Z:integrable iff for any eps>0, sum from n=1 to n=inf ProbM(|Z_1|>eps*n)<inf)(link)

note)(General W-LLN으로 나머지 W-LLN체크)

-{Z_n}:iid with finite variance(link)

-(Khintchin's W-LLN){Z_n}:iid with finite mean(link)

-{Z_n}:iid with finite mean using chf(link)

-(Feller's W-LLN){Z_n}:iid with lim x->inf x*ProbM(|Z_1|>x)=0(link)

-(Strong Law of Large Number, S-LLN)(bar{Z}:pt cv a.e.)

:{Z_n}:ind, {a_n}:inc with lim n->inf a_n = inf, sum from i=1 to i=inf V[Z_i / a_i] <inf이면

{S_n - E[S_n]}/a_n:pt cv a.e. to 0

(Kronecker's Lemma+Kolmogorov's Convergence Criterion 이용하여 증명)

(a_n = n일 때를 생각해보라.)

-(S-LLN Using MGF)

:{Z_n}:iid with MGF(Z_1)(t) is finite for |t|<=T for some T>=0이면

[S_n/n]:pt cv a.e. to mu(link1)(link2)

-(Kolmogorov's S-LLN)(link1)(link2)

:{Z_n}:iid일 때

-te c in R s.t. [S_n/n]:pt cv a.e. to c iff Z_1:integrable in which case E[Z_1]=c

(만약 Z_1 in L2라면, [(sum from i=1 to i=n (Z_i - E[Z_i])^2)/n]:pt cv a.e. to V[Z_1])

(cv in L1도 된다.)(link)

(Generalizd version은 Ergodic Theorem이 있다.)

-(Central Limit Theorem, CLT)(link1)(link2)

:{Z_n}이 iid이고 in L2일 때

bar{Z}:cv in distrb to Z, Z~ND(mu, [sigma^2]/n)

(S_n=sum from k=1 to k=n (Z_k):cv in distrb to ND(n*mu, n*sigma^2))

(S_n/sqrt(n):cv in distrb to ND(sqrt(n)*mu, sigma^2))

-(Delta Method, using first-order derivative)(parameter의 function을 inference할 때)(link)

:{rdv_n}이 sqrt(n)*(rdv_n - theta):cv in distrb to rdv1, rdv1~ND(0,sigma^2)이고

for g and specific theta_0, g'(theta_0):exist and nonzero이면

sqrt(n)*(g(rdv_n)-g(theta_0)):cv in distrb to rdv2, rdv2~ND(0,sigma^2*[g'(theta_0)]^2)

(쉬운 예로는 rdv_n이 bar{Z}이고 추정 대상이 모평균 mu의 function일 때)

(일반화하면 rdv1~ND일 필요 없다. 단지 가정을 만족하는 경우가 bar{Z} with CLT일 때가 많음)

-(Delta Method, using second-order derivative)

:{rdv_n}이 sqrt(n)*(rdv_n - theta):cv in distrb to rdv1, rdv1~ND(0,sigma^2)이고

for g and specific theta_0, g'(theta_0)=0 and g''(theta_0):exist and nonzero이면

n*(g(rdv_n)-g(theta_0)):cv in distrb to rdv2, rdv2~sigma^2*g''(theta_0)*0.5*CSD(1)

(Delta Method using first-order derivative에서 first-order derivative가 0일 때 사용)

-(Delta Method for Multivariate)

:나중에 필요할 때 정리

-(Demoivre-Lapalce Theorem)

:{Z_n}:iid, 각각이 BrnD(p)을 따를 때, S_n:cv in distrb to ND(np,np(1-p))

(S_n ~ BD(n,p))

(물론 n이 무한대로 가므로 ND(np,np(1-p))로 approximation이 가능하다는 것을 뜻함)

-simple random sample인 경우

-E[bar{Z}]=mu

-V[bar{Z}]=[(sigma)^2/n]*[(N-n)/(N-1)], N은 모집단의 크기(link)

-About Sample Variance, V_n

-E[V_n]=(sigma)^2

-(n-1)*(V_n) = {sum from i=1 to i=n (Z_i)^2} - n*(bar{Z})^2(link)

-V[V_n] cv to 0 as n->inf이면 V_n:cv in M to sigma^2(using chebysheff inequality and W-LLN)

-About Order Statistic

-성질

-discrete population으로 얻은 random sample order statistic인 경우

-각 order statistic의 pmf(link)

-conti population으로 얻은 random sample order statistic인 경우

-각 order statistic의 DF와 density(link)

-order statistic에서의 joint DF와 joint density(link)

-About Generating a Random Sample

-의미:어떠한 distribution(원하는)을 따르는 random sample을 만드는 방법

-과정

-기본적인 fact:UD을 따르는 random sample은 만들 수 있다.

-Direct Method(U_n~UD((0,1))이라 하자.)(구체적인 DF^(-1)을 이용하는 방법)

-ED(lambda)을 만드는 방법(random sample)(link)

-CSD(2d)을 만드는 방법(1개의 rdv)(link)

-GMD(lambda,y)을 만드는 방법(y가 integer일때만, 즉 ERLD(lambda,y))(1개의 rdv)(link)

-BTD(a,b)을 만드는 방법(a,b가 integer일때만)(1개의 rdv)(link)

-(Box-Muller Algorithm)

:rdv1~ND(0,1), rrdv2~ND(0,1) s.t. rdv1과 rdv2는 ind인 rdv1, rdv2 만드는 방법

-BD, NBD, PD 등 discrete distribution 만드는 방법

-Indirect Method

-(Accept/Reject Algorithm)(link)

원하는 distribution의 density과 ind인 UD(0,1), UD(0,1) 두개로 원하는 rdv~the distribution을 만들 수 있다.

(Criteria인 M<inf도 중요하고(즉 V선택이 중요함), 원하는 rdv가 heavy-tail distrb인 경운 힘듦)

-(Markov Chain Monte Carlo Method)

-(Metropolis Algorithm)

:heavy-tail인 rdv도 만들 수 있지만, 정확한 density를 만들기보단 그 density로 수렴하는 rdv_n을 얻을 수 있다.

-About Data Reduction

-의미:적절한 statistic으로, sample모두의 value말고 statistic의 value만으로 parameter의 inference가능

-About SS(Z_1,Z_2,...,Z_n), sufficient statistic

-Joint density of (Z_1,...,Z_n)과 density of S(Z_1,...,Z_n)로써 S(Z_1,Z_2,...,Z_n)이 SS(Z_1,...,Z_n)인지 판단가능

-exponential family의 원소가 아닌 경우(population의 density) 혹은 nonparametric density인 경우, Order Statistic말곤 SS(Z_1,Z_2,...,Z_n)찾기가 어렵다. 크게 Reduction되지 않음

-(Factorizatioon Theorem)

:Joint density of (Z_1,Z_2,...,Z_n)을 보고 적절한 SS(Z_1,...,Z_n)을 찾을 수 있다.

:

-population의 density가 exponential family의 원소였다면, SS(Z_1,Z_2,...,Z_n)을 쉽게 알 수 있다.

(게다가 parameter space가 open set을 포함한다면 complete이기도한 statistic 얻음)

-(Lehman-Scheffe's Theorem)(SS(Z_1,Z_2,...,Z_n)이 minimal인지 판단하는Theorem)

:

(minimal SS(Z_1,Z_2,...,Z_n)이라 할지라도 dimension이 parameter의 dimension보다 클 수도 있다.)

(minimal SS(Z_1,...,Z_n)은 not unique)

-About AS(Z_1,Z_2,...,Z_n), ancillary statistic

-parameter가 location-parameter인 경우, sample range는 ancillary statistic이 된다.(link)

-parameter가 scale-parameter인 경우, (Z_1/Z_n, Z_2/Z_n,...,Z_(n-1)/Z_n)으로 이루어진 function(즉 statistic)은 ancillary statistic of scale-parameter가 된다. (link)

(특히, rdv1~ND(0,sigma^2), rdv2~ND(0,sigma^2), rdv1,rdv2:iid이면 rdv1/rdv2~CD(0,1) for any sigma)

-(Basu's Theorem)(직관적으론 sufficient가 ancillary랑 ind일 것 같은데 completeness필요)

:statistic이 complete and sufficient이면 ind of every ancillary statistic이 된다.

(그리고 the complete and sufficient statistic은 minimal임도 알 수 있다.)

(두 statistic이 ind임을 보일 때 유용, 하지만 complete임을 보이는게 문제인데...바로 밑 theorem이용)

-Using Likelihood Function

-(Likelihood Principle)(한 population에서 2개의 random sample을 얻었을 때)

-In the inference about parameter, after (Z_1,Z_2,...,Z_n) is observed, all relevant experimental information is contained in the likelihood function for the observed (Z_1,...,Z_n).

-(Z_1,Z_2,...,Z_n), (Z'_1,Z'_2,...,Z'_n) 두개의 random sample1, random sample2을 얻었을 때, for all parameter, LF from (Z_1,Z_2,...,Z_n) = LF from (Z'_1,Z'_2,...,Z'_n) * C(random sample1, random sample2)로 표현된다면, random sample1으로 parameter를 inference하나 random sample2으로 parameter를 inference하나 같은 결론을 얻는다. 

-한 random sample에서 parameter1, parameter2 각각이 LF1<LF2라면 parameter2가 더욱 plausible

(그리고 LF2/LF1만큼 plausible하다는 결론을 내릴 수 있다.

-4 Principles(link1)(link2)(link3)

-Equivariance Principle을 따른다면, 


-About Inference(population의 parameter에 관한 지식 from sampling,은 population 전체 density에 관해서 알려준다. 따라서 parameter을 estimate하는게 관건, 동시에 이 parameter의 function을 estimate할 수도 있다.)

-About Point Estimation

-About Finding Estimator

(MM, MLE, Bayes Estimator, EM-Algorithm, min MSE, MVUE)

-정의:

-theta, theta란 parameter of population를 가리킨다고 하자.

-모집단의 property(예를 들면, 모평균, 모분산, 모집단의 density의 parameter 등)을 parameter라 한다.

-추정용 statistic을 estimator라 하고

-검정용 statistic을 test statistic이라 한다.

-bias of a statistic for a parameter:=|E(statistic) - the parameter|, 작을수록 better statistic

(절댓값없이 정의하기도하고 절댓값을 포함해서 정의하기도함)

-bias=0인 statistic을 unbiased statistic이라 한다.

(표본분산(n)대신에 표본분산(n-1)을 이용하면 unbiased됨)

-MSE of a point estimator of a parameter란 parameter의 function, E[(estimator-parameter)^2]

(parameter와 관련된 population의 density형태는 이미 modeled됐을 때)

-MVUE:Minimum Variance Unbiased Estimate(좋은 statistic이 됨)

-efficiency of statistic:=V[parameter]/V[statistic] where statistic=MVUE

-relatively efficiency of (statistic1 for parameter, statistic2 for the same):=V[statistic1]/V[statistic2] where both statistics are unbiased 

(unbiased인 2개의 statistics 중 어느게 variance가 작아서 좋은지 비교시 쓰임, 작은걸 efficient라 한다.)

-statistic_n for a parameter depending on sample size n이 consistent란, 

as n->inf, {the statistic_n}:cv in M to the parameter

-asymptotic bias of statistic for a parameter란, cv in M limit of (statistic - parameter)

-statistic ~_a Distribution이란, n이 커질수록 statistic의 DF의 approximation(cv in distrb가 보장된)

-consistent estimator_n(statistic)이 asymptotically normal이란, sqrt(n)*(estimator - parameter):cv in distrb to ND일 때를 가리키고, 이때의 estimator를 sqrt(n)-consistent라 한다. 혹은 CAN estimator라 한다. 그리고 이때 ND의 variance matrix을 asymptotic variance라 하고 Av[estimator_n]라 하자.

-E_theta란 expectation function of theta를 가리킨다고 하자.

-UMVUE of f(theta)란, E_theta [UMVUE]=f(theta)인 것중 the smallest variance를 갖는 것

-Method of Moments(MM)

-방법:sample의 moment랑 population의 moment(parameter의 function)을 = 두고 equation풀어 estimator 얻는 방법

-특징:

-MM으로 얻은 estimator의 range와 estimating하는 parameter의 range가 일치하지 않을 수 있다.


-Method Maximum Likelihood Estimators(MMLE)(얻은 Estimator나 Estimate모두 MLE라 적자.)

-방법:

-likelihood function을 argumax하는 parameter를 estimator로 함

-일단 first-derivative로 필요조건 구함(log 이용하기도)

-Hessian 등 이용해서 maximum인지 minimum인지 판단

-Bd에서 Check해서 Global Maximum인지 판단

-특징:

-MLE의 range와 estimating하는 parameter의 range가 일치함

-parameter의 range내에서만 MLE를 찾아야한다. parameter의 어떠한 physical한 assumption이 들어가 있을 때, global maximum이 estimator의 값에 따라 달라질 수 있음,

-MLE 자체를 구하기가 어려울 수 있음, 그래도 Numerical Method이용하면 됨

-sample이 약간만 달라져도 MLE가 크게 달라질 수 있음(Maximization의 problem)

(이럴 경우 MLE로 얻은 Estimator의 신뢰도가 떨어짐)

-(Invariance Property of MLE)

:MLE for parameter가 있을 때 MLE for g(parameter) for any transformation g는 g(MLE for parameter)

(즉 sqrt(V_n*(n-1)/n)이 모표준편차의 MLE가 된다.)

-CLT를 이용하면 MLE ~_a ND가 된다.


-Bayes Estimator

-방법:

-parameter가 어떠한 distribution을 따른다는 생각이 있다면,

-sample로써 parameter의 distribution을 update하고

-conditional expectation of parameter given sample이 estimator가 된다.

-특징:

-parameter에 따른 sample의 distribution의 collection C1과 parameter의 distribution의 collection C2, 이때 C2가 conjugate family for C1이란, prior distribution이 update되서 posterior되서도 다시 C2에 속할 때를 가리킨다. 이경우 계산이 편리해진다는 장점이 있다.

-parameter의 분포와 sample의 data를 합한 정보를 준다는 특징이 있다.

-EM-Algorithm(Incomplete-data가 있을 때, Estimator를 만드는 방법)

(Statistical Inference, 2nd edition보고 작성한 글)

-About Evaluating Estimators

(위에 4가지 방법으로 만든 Estimator가 다를 수가 있다. 이경우 어느 게 좋은지 판단기준필요)

-Mean Square Error(MSE)(Finding Estimator의 한방법이 되기도 함, MSE가 최소인 estimator를 찾는다거나, MVUE를 찾는다거나 등)

-방법:estimator of parameter가 있을 때, (The estimator - parameter)의 L2-norm을 재서, L2-norm이 작은게 좋은 것

-특징:

-L2-norm이 analytically tractable, bias란 개념도입가능한 해석가능해서 좋음

-MSE는 estimator의 variance와 bias 둘다 다룸, unbaised이면 estimator의 variance만 고려

-MSE가 낮을수록 좋은 estimator같지만, 항상 그런 것만은 아님

-unbiased estimator가 좋을 것 같지만, bias를 약간 늘리고 variance를 확 줄일 수도 있기도 하다.

(예를 들면, population~ND(mu,sigma^2)일 때, MLE로 얻은 estimator of (population의 variance)가 MM으로 얻은 estimator of (population의 variance)보다 더 MSE가 낮다, 비록 전자가 biased이고 후자가 unbiased일지더라도. unbiased이면 평균적으로 parameter 전후로 놓여진다. biased이면 평균적으로 parameter 전후중 한방향에만 놓이게 된다. 이런 이유로 MLE로 얻은 estimator of (population의 variance)보다 MM으로 얻은게 더 많이 이용된다.)

-MSE는 parameter의 function이므로 best estimator가 1개만 있는 것은 아니다.

-estimator1이 estimator2보다 uniformly better하지 않을 수 있다. parameter의 distribution이나 n에 따라서

-MSE는 group of transformation이 주어진 equivariance principle을 따르는 estimator중에서 best estimator를 찾는데 도움이 되기도 함

-Unbaised Estimator중에서만 생각하면(or, E_theta [estimator]=f(theta)인 class만 생각, 으로 확장가능)

-for any parameter value, the smallest variance인 게 최고 좋음

-(Cramer-Rao Inequality)

:estimator of theta의 variance의 lower bound를 제공해준다. 

((Z_1,Z_2,...,Z_n)에 apply하면, lower bound를 take하는 estimator가 UMVUE가 될 수 있다.)

(discrete case도 사용 가능)

(Information Number가 크면 theta에 관한 정보가 많다는 뜻이며 동시에 variance lower bound가 작아짐)

(General한 Inequality로는 Information Inequality가 있다.)

(Assumption, interchangble of int and diff, 이 성립안할 때도 있다. 체크필요)

-Cramer-Rao Inequality를 쓰더라도 정작 lower bound가 attainable인진 모를 수 있다. 

(좀 더 look into해야할 지, 어떠한 estimator도 lower bound를 take안할지 모른다는 게 단점)

하지만 필요충분조건 있음

-Cramer-Rao를 이용못하는 population density인 경우 Stuart, Ord, and Arnold책 참조


-구체적인 Population의 Distribution class를 알 때

-population이 CD(0,1)을 따를 때

-bar{Z}~CD(0,1)

-population이 ND(mu, (sigma)^2)을 따를때

-bar{Z}, V_n:ind(link)

-{(n-1)*(V_n)}/(sigma)^2 ~ CSD(n-1)(link)

-(bar{Z}, V_n):SS(Z_1,Z_2,...,Z_n) for (mu, sigma^2)이 된다.

(SS(Z_1,...,Z_n)은 model-dependent이다. population이 ND(mu, (sigma)^2)이 아닐 땐, SS(Z_1,Z_2,...,Z_n)이 (bar{Z},V_n) 보다 더 많이 필요할 수 있다.)

(V_n:SS(Z_1,Z_2,...,Z_n) for (sigma^2)이 되는진 모른다. 그런데 Equivariance Principle을 따른다면 알 수 있다.) 

-bar{Z}, V_n 모두 unbiased estimator

-MSE of bar{Z}=(sigma)^2/n

-MSE of V_n=2*(sigma)^4 / (n-1)

-About Bayesian Statistics

-

























-About Estimate

-정의:


-구체적인 Sample Distribution

-Sample Proportion(hat(p))


-Estimate Quantile, DF

-상황, DF를 모르는 모집단에서 random sample을 통해 quantile, DF을 Estimate할 수 있을까?

-정의:

-Empirical Cumulative Distribution Function DF_n이란, 

DF_n(x):=(1/n)*sum from i=1 to i=n indi_{X_i<=x}, (w는 생략)

(when, {X_i}:random sample일 때, 즉 iid with DF)

-(Glivenko-Cantelli Lemma)(link1)(link2)

:Empirical CDF는 DF에 uni cv(a.e. Empirical CDF 또한 rdv인 것을 상기)

-(Empirical CDF)^(-1)는 DF^(-1)를 estimate한다.(cv in M)

-(Kolmogorov-Smirnov Test)

:나중에 보충,CLT+Hypothesis Testing 익숙해지고나서 복습

-About Hypothesis Test

-About LRT(Likelihood Ratio Test)

-LF(x)/L_max가 significance level보다 이상이면 X=x라는 주장을 받아들인다.

'수학 > 기본' 카테고리의 다른 글

수학정리(Complexity Theory)  (0) 2016.09.07
수학정리(Special Functions)  (0) 2016.02.29
수학정리(풀 문제들)  (0) 2016.02.29
수학정리(Applications, weighted graph)  (0) 2016.02.29
수학정리(Applications, Lap(G), sLap(G))  (0) 2016.02.29

+ Recent posts