Probability, Statistics, and Process

-About Random Variable(rdv:(J1,C4(J1))->(R(std),C4(TS)), Z라 표현, ((ETR,C4(TS))에서도 다룰 때가 있음))

-Z는 MF이다. MF성질 다 만족

-rdv충분조건

-monotone이면 rdv이다.

-(R(std),C4(TS))에서 C4(TS)의 generating set에 대해서만 판단해도 됨

-정의역이 metric space인 경우, rdv가 conti이면 MF됨

-conti(rdv):rdv됨, 특히 rdv_1+rdv_2 같은 것도 rdv

-sup rdv_n, inf rdv_n, limsup(rdv_n), liminf(rdv_n) 모두 MF가 된다.(ETR,C4(TS))

-{x in J1 s.t. lim rdv_n(x) exists}는 C4(J1)의 원소이다.

-C4(rdv)

-정의:rdv가 rdv되게끔 하는 smallest C4 of subsets of J1

-C4(rdv_i)란, rdv_i들 모두가 rdv가 되게끔 하는 smallest C4 of subsets of J1(rdv_i들의 정의역은 모두 같을 때 논의)

-성질

-C4(rdv)<C4(1)

-for C:collection of subsets of s.t. C4(C)=C4(TS) of R, C4(rdv^(-1)(C))=C4(rdv) 

-P(|Z|<inf)=1이면 for any eps>0, te bdd rdv Y s.t. P(Z ≠ Y)<e

-(Approximation by Simple Functions)(S_n을 seq of simple function이라 하자.)

-nnn rdv가 있으면 te {S_n} s.t. nnn and pt cv to rdv

-게다가 {S_n}은 rdv가 bdd인 J1의 subset에서는 uni cv하게 됨

-(J1,C4(J1))에 sf-M가 있었다면, {S_n}을 finite support인 걸로 잡을 수 있음

-rdv가 있으면 te {S_n} s.t. 0<=|S_1|<=|S_2|<=...<=|rdv| and pt cv to rdv

-게다가 {S_n}은 rdv가 bdd인 J1의 subset에서는 uni cv하게 됨

-(Jensen's Inequality)f:R->R, convex이면 E[f(Z)]>=f(E[Z])

(Conditional Expectation에도 적용가능)

-(Markov's Inequality)P(|Z|>x)<=E[|Z|]/x

-Z:integrable iff E[|Z|]<inf iff lim n->inf E[|Z|*indi_{|Z|>n}]=0

(Z:integrable가 P(|Z|<inf)=1보다 강한 조건이다.)

-{Z_n}:uni-integrable iff lim n->inf sup over k E[|Z_k|*indi_{|Z_k|>n}]=0 iff {Z_n}:D-Martingale

-{Z_n}:uni-integrable이면

-te M>=0  s.t. E[|Z_n|]<=M for all n

-게다가 lim n->inf Z_n = Z w.p.1이면({Z_n}이 martingale이면 Martingale Convergence Theorem에 의해 됨)

-Z도 integrable이고

-E[Z_n]->E[Z]

-E[|Z_n - Z|]->0(이것이 바로 위의 2개를 imply함) 

-(J1,C4(J1))=(R(std),C4(TS))인 경우

-Probability Measure induced by DF라면 {all atoms}={{x} in R s.t. DF(x)-DF(x-)>0}

-About Random Vector((J1,C4(J1))->(R^n,C4(TS)), F라 표현, coordinate function은 F1,F2,...로 표현)

-F가 MF이다. 따라서 MF의 성질을 따름

(예를 들면 F가 Random Vector iff F1, F2, ..., Fn이 rdv)

-C4(F)=C4(F1, F2, ..., Fn)

-About Probability Measure

-f-M이다.

-(J,C4)에서 Probability M1, Probability M2가 있을 때, C={E in C4 s.t. M1(E)=M2(E)}는 LC된다.

-(J,C4)에서 Probability M1, Probability M2가 있을 때, C가 PC이고, M1=M2 on C이면 M1=M2 on C4(C)

(즉 (R(std), C4(TS))에서 C4(TS)의 PC인 subcollection에서 M1과 M2가 서로 같으면 M1=M2 on C4(TS))

(구체적으론 DF1 from M1과 DF2 from M2가 같으면 M1=M2 on C4(TS))

(따라서 Probability Measure M on (R(std), C4(TS))는 DF에 의해 uniquely determined)

-for {E_n} in (J,C4,M) s.t. M(E_n)=1, M(c-intersection E_n)=1

-몇가지 examples

-sample space J=countable, C4=P(J), 

-About Distribution Function, DF, PDF

-DF의 정의:R(std)->[0,1], right-conti, inc, F(-inf)=0, F(inf)=1

-DF의 motive, environment는 sample space는 R(std), C4가 C4(TS)일 때, Probability Measure가 있을 때의 얘기

-DF의 성질

-right-conti

-{x in R s.t. DF(x)>=y} is closed in R(std)

-conti이면 uni conti도 됨

-DF가 Probability Measure on (R(std), C4(TS))를 정의할 수 있다. using Lebesgue Measure on (0,1]

-DF가 있으면 left-conti inverse of DF(DF^(-1)라 하자)를 생각할 수 있다.

-DF^(-1)의 성질

-DF^(-1):(0,1)->R(std)

-inc

-left-conti

-DF(DF^(-1)(y))>=y

-DF(x)>=y iff x>=DF^(-1)(y)

-for E in C4(R(std)), the inverse image of E of DF^(-1) is in C4(TS), TS=(0,1] as subspace of R(std) 

-About MGF

-의의:적분보다 미분이 쉽다. 일단 한번 적분하면(MGF구하면) 미분으로써 n-th moment을 다 구할 수 있다.

-성질

-Z1과 Z2가 ind일 때, MGF(Z1+Z2)=MGF(Z1)*MGF(Z2)

-복원추출 관련 분포

-Bernoulli-Distr

-의미:rdv가 0,1(일반적으론 2개의 값)만 가질 때의 distribution 

-확률 구할 때:0, 1만 주어지면 됨

-Binomial-Distr

-의미:동일한 그리고 독립인 시행을 n번 했을 때 사건 A가 발생하는 횟수의 distribution

-확률 구할 때:n(총 시행 횟수), k(관심 횟수), P(1번 시행에서 사건A)가 주어져야됨

-Geometric-Distr

-의미:첫번째 사건 A가 일어날 때까지 시행하는 독립시행의 횟수의 distribution

-확률 구할 때:k(관심 횟수), P(1번 시행에서 사건A) 주어지면 됨

-Negative Binomial-Distr

-의미:사건 A가 일어난 횟수가 n번이 될 때까지 시행하는 독립시행의 횟수(적어도 n)의 distribution

(사건 A가 n번 나오는 순간, 더이상의 시행은 없는 상황)

-확률 구할 때:n(관심 횟수), P(1번 시행에서 사건A) 주어지면 됨

-Uniform-Distr

-의미:n회의 독립시행에서 단 한번 사건 A가 일어났다고 했을 때, A가 발생한 시행의 분포, 이 경우 1/n으로 동일(link)

-Multinomial-Distr

-의미:n회의 독립시행에서, n=사건A1일어난 횟수+사건A2일어난 횟수+...+사건Ak일어난 횟수=j1+j2+...+jk, (j1,j2,...,jk)의 분포

(Binomial-Distr는 n=사건A일어난 횟수+사건A^C일어난 횟수 인 경우다. 따라서 Binomial은 Multinomial의 특수한 경우)


-비복원추출 관련 분포

-Hypergeometric-Distr

-의미:n회의 비복원 추출시, 사건A가 일어난 횟수의 distribution

-Negative Hypergeometric-Distr

-의미:사건A가 일어난 횟수가 n이 될 때 까지의 시행횟수(추출 횟수)의 distribution

-Multivariate Hypergeometric-Distr

-의미:n회의 비복원 추출시, n=사건A1일어난 횟수+...+사건Ak일어난 횟수=j1+...+jk, (j1,j2,...,jk)의 분포

note:

Binomial<->Hypergeometric(복원이냐 비복원이냐)

Binomial<->Negative Binomial(총 시행횟수:fixed이고 일어난횟수 관심<->일어난 횟수:fixed이고 시행횟수 관심)

Binomial<->Multinomial(사건A만 관심<->여럿 사건 관심)

Hypergeometric<->Negative Hypergeometric(시행횟수:fixed, 일어난횟수 관심<->일어난 횟수:fixed, 시행횟수 관심)

Hypergeometric<->Multivariate Hypergeo(사건 A만 관심<->여럿 사건 관심)

Multinomial<->Multivariate Hypergeo(복원이냐 비복원이냐)

...비교하며 이해하고 외우기 필요

-Poisson Process 관련 Distribution

-포아송 분포(Poisson-Distr)

-의의:continuous variable T상에서(시간, 면적, 공간 등) random하게 발생하는 discrete 사건을 묘사할 때 활용

-의미:fixed:T>0, lambda>0일 때, dt마다 1회 시행, 즉 총 n(=T/dt)회 독립시행, 이 때 1회 시행에서 사건 A가 일어날 확률을 p(=lambda*dt)라 할 때, T시간동안 사건 A가 일어난 횟수의 확률분포를 가리킨다.(n->inf일 때)

-지수 분포(Exp-Distr)

-의미:Poisson Process에서 첫 사건A가 일어날 때까지의 걸리는 T의 분포

-Erlang 분포(Erlang-Distr)

-의미:Poisson Process에서 사건 A가 n번째 일어날 때까지의 걸리는 T의 분포

-Gamma 분포(Gamma-Distr)

-의미:Poisson Process에서 사건 A가 x번째 일어날 때까지의 걸리는 T의 분포(x는 실수)

(이때 gamma function필요, 실수!을 위해)

-Continuous Uniform Distr(Conti Uniform-Distr)

-의미:(0,s)동안에 한번 사건 A가 발생했을 시, (T,T+dt)에서 발생했을 확률은 모든 (T,T+dt)에 대해서 dt/s로 동일한, T의 분포

-Beta 분포(Beta-Distr)

-의미:(0,s)동안에 사건 A가 x1+x2-1번 발생시 (T,T+dt)에서 x1번째 A가 발생할 확률을 가진 시간 T의 분포

(dt->0, x1,x2는 양의 실수이고 이 때 실수!을 위해 gamma function필요)

(s=1일 때의 분포를 Standard beta 분포라 한다.)

-Normal Distribution(ND)

-의미:{Z_1,...,Z_n}이 iid이고 E[Z_1]<inf, V[Z_1]<inf일 때, Sample mean은 ND(E[Z_1],V[Z_1]/n)을 따른다.

(Z_1이 무슨 분포이든 상관없다.)

-ND의 pdf의 성질, X~ND(E[X],V[X])일 때

-E[X]+SD[X]에서 변곡점을 갖는다.

-X=E[X]에서 선대칭

-ND와 관련 분포

-Chi-Squared-Distr

-의미:

-Gamma-Distr의 특수한 경우로도 볼 수 있다.

-F-Distr

-의미:

-t-Distr

-의미:

-F-Distr의 특수한 경우로도 볼 수 있다.

-About 통계량 계산, 의의

-평균과 기댓값의 차이

-평균은, 총 변량/총 개수

-기댓값은 확률변수가 가질 값의 가중치인 확률을 곱해서 모두 더해 놓은 것

-둘이 같을 수도 있으나 태생이 다름

-평균과 중앙값(median)

-N개의 data, z_1<z_2<...<z_N이라 하고 각각이 발생할 확률이 1/N으로 같다고 하자. 

-이때 z의 평균은 z_i들로부터의 거리를 제곱한 값의 합이 최소가 되는 값이다.

-이때 z의 중앙값은 z_i들로부터의 거리의 절댓값의 합이 최소가 되는 값이다.

(N이 홀수이면 중앙값은 z_{(N+1)/2}이고 N이 짝수일 땐 관례상, z_(N/2)와 z_{(N/2)+1}의 평균으로 정의한다.

-Z1과 Z2가 ind일 때

-E(Z1Z2)=E(Z1)E(Z2)

-cov(Z1,Z2)=0 (역은 성립 안함)

(특별히 Z1과 Z2가 Normal일땐 역이 성립)

-Z1과 Z2가 not ind일 때

-(Cauchy-Schwartz Inequality)E[Z1Z2]<={E[(Z_1)^2]*E[(Z_2)^2]}^(1/2)

-V(Z1+Z2+Z3+...+Zn)=sum over i,j cov(Zi,Zj)=sum V(Zn) + sum over i≠j cov(Zi,Zj)

-V(aZ1+bZ2)=a^2V(Z1)+b^2V(Z2)+2abcov(Z1,Z2)

-V(aZ1-bZ2)=a^2V(Z1)+b^2V(Z2)-2abcov(Z1,Z2)

(X=Y1+Y2, A에 투자, B에 투자한 금액이 각각 1억이고 1년 뒤 Y1,Y2억이 된다 했을 때를 생각하면, 투자할 때 cov(Y1,Y2)<0인 곳에 투자를 해야 V(X)가 작아진다. 즉 risk가 작아진다.)

-cov(Z1,Z2)=E[(Z1-E(Z1))(Z2-E(Z2))]=E(Z1Z2)-E(Z1)E(Z2), 중간의 식으로 cov의 의미를 생각할 수 있다.

-cov(Z,Z)=V(Z), 따라서 분산은 cov의 일종을 볼 수 있다.

-cov(sum a_i X_i, sum b_j Y_j)=sum sum a_i b_j cov(X_i, Y_j)가 성립

(i와 j의 ending index가 같을 때, cov(sum a_i X_i, sum b_j Y_j)=0 iff sum a_i b_i =0, 이때 sum a_i X_i와 sum b_j Y_j가 orthogonal이라고 통계학에선 부른다.)  

-cor(Z1,Z2)=cov(Z1,Z2)/[SD(Z1)*SD(Z2)]

(cor은 Z1과 Z2의 선형종속성의 척도, |cor|가 1에 가까울수록 Z1과 Z2는 선형종속에 가까움, i.e. Z1=aZ2+b꼴에 가까움)

(Z1=aZ2+b, a가 양수이면 cor(Z1,Z2)=1, a가 음수이면 cor(Z1,Z2)=(-1))

-About Conditional Expectation

-Conditional Expectation을 알 경우 전체 Expectation을 구할 수 있음

(1반과 2반의 평균과 학생수를 알면 1반+2반 전체의 평균을 구할 수 있단 소리)

(Conditional variance는 위와 같은 성질이 만족하지 않음)

(반대로 E[Z]구함에 있어서 E[Z|X]를 이용할 수도 있다. unconditional mean=mean of conditional mean)

-E[Z1|Z2]:rdv, Z2->R->R

-E[Z1+Z2|Z3]=E[Z1|Z3]+E[Z2|Z3]

-E[aZ1|Z2]=aE[Z1|Z2]

-E[Z|Z]=Z

-E[Z1|Z1,Z2]=E[Z1], E[Z1|Z2,f(Z2)]=E[Z1|Z2]

-(unconditional mean=mean of conditional mean)E[E[Z1|Z2]]=E[Z1]

-E[E[Z1|Z2,Z3]]=E[Z1|Z2], E[E[Z1|Z2]|Z2,Z3]=E[Z1|Z2]

-V[Z1]=E[V[Z1|Z2]]+V[E[Z1|Z2]]

-About Process

-Discrete-time Process

-({Z_n,N>=1}가 discrete time stochastic process on the probability space(J,C4,M)인 경우도 rdv_1:(J,C4)->[0,inf)라면 Z_rdv_1도 rdv가 된다. P(rdv_1<inf)=1이라는게 중요

-Markov Process, discrete-time

-정의:Stochastic Process {Z_n}이, P(Z_(n)=j_(n)|Z_(n-1)=j_(n-1),...,Z_0=j_0)=P(Z_(n)=j_(n)|Z_(n-1)=j_(n-1))을 만족할 때, {Z_n}을 Markov Process라 한다.

-성질:

-어떤 Stochastic Process가 Independent Increments라면, Markov Process가 된다.

(역은 성립 안함)

-Martingale({Z_n}을 martingale로 표현하겠다. 그냥 stochastic process는 {X_n}으로)

-for 1<=k<n, E[Z_n|Z_1,Z_2,...,,Z_k]=Z_k  

-E[Z_n]=E[Z_(n-1)]=...=E[Z1]    

-f:R->R, convex, {f(Z_n)}은 submartingale

(따라서 {|Z_n|}, {(Z_n)^2}은 submartingale됨)

-for any eps>0 and any fixed n in N

P(max{|Z_1|,...,|Z_n|}>eps)<=E[|Z_n|]/(eps)

P(max{|Z_1|,...,|Z_n|}>eps)<=E[(Z_n)^2]/(eps)^2

-n<m에 대해 E[Z_n * Z_m]=E[(Z_n)^2]

-(Martingale Convergence Theorem)

:{Z_n}에 대해 sup over n {E[(Z_n)^2]}<=M<inf for some M>=0이면 lim n->inf Z_n은 exist and finite w.p.1

-(Extended Martingale Convergence Theorem)

:{Z_n}에 대해 sup oover n {E[|Z_n|]<=M<inf for some M>=0이면 lim n->inf Z_n은 exist and finite w.p.1

(따라서 nnn martingale은 반드시 lim n->inf Z_n은 exist and finite w.p.1)

-(Azuma's Inequality)

:Z_0=E[Z_1]=mu, -α_i <= Z_i - Z_(i-1) <= β_i for some α_i, β_i >=0 for any a>0이면

P(Z_n - mu >= a)<=exp((-2a^2)/f-sum from i=1 to i=n (α_i+β_i)^2)

P(Z_n - mu <= -a)<=exp((-2a^2)/f-sum from i=1 to i=n (α_i+β_i)^2)

-About Random Time

-N이 Stopping Time for {X_n}일 때

-lim_n->inf bar{X_n}=X_N w.p.1

-X:rdv with E[|X|]<inf일 때, limE[X*indi_{N>n}]=0

-(Wald's Equation)

:{X_n}:iid, E[X_n]<inf이고 N:stopping time for {X_n} with E[N]<inf이면 E[sum from i=1 to i=N X_i]=E[N]*E[X_1]

(P(N<inf)=1보다 E[N]<inf가 강한 조건이다.)

-bar{X_n} - X_N = [bar{X_n} - X_N]*indi_{n<N}

-X_N = X_1 * indi_{N=1} +X_2 * indi_{N=2} +....

-N:random time이 주어지면

-stopped process {bar{Z_n}}도 martingale이다.

(따라서 E[bar{Z_n}]=E[bar{Z_(n-1)}]=...=E[bar{Z_1}]=E[Z_1]이다.)

-N:stopping time이기도 할 때

-{bar{Z_n}}:uniformly bdd이면 limE[bar{Z_n}]=E[Z_N](=E[Z_1])

-N:bdd w.p.1이면 limE[bar{Z_n}]=E[Z_N](=E[Z_1])

-E[N]<inf and te M<inf s.t. E[|Z_(n+1)-Z_n| | Z_1, ..., Z_n]<=M for all n이면 limE[bar{Z_n}]=E[Z_N](=E[Z_1])

-submartingale관련({Z_n}이 submartingale이라 하자)

-E[Z_n]>=E[Z_(n-1)]>=...>=E[Z1]

-{Y_n}:martingale일 때, f:R->R, convex, {f(Y_n)}은 submartingale

-따라서 {|Y_n|}, {(Y_n)^2}은 submartingale됨

-(Kolmogorov's Inequality)for any eps>0 and {Z_n}:nnn submartingale, P{max{Z_1,...,Z_n}>eps}<=E[Z_n]/eps

-{Z_n}:submartingale일 때, te {X_n}, {Y_n} s.t. Z_n=X_n+Y_n, {X_n}:martingale, {Y_n}:inc

-N이 stopping time일 때

-bar{Z_n}:submartingale

-{bar{Z_n}}:uniformly bdd이면 E[Z_N]>=E[Z_1]

-N:bdd w.p.1 by (n_0)이면 E[Z_(n_0)]>=E[Z_N]>=E[Z_1]

-E[N]<inf and te M<inf s.t. E[|Z_(n+1)-Z_n| | Z_1, ..., Z_n]<=M for all n이면 E[Z_N]>=E[Z_1]

-supermartingale관련({Z_n}이 supermartingale이라 하자)

-E[Z_n]<=E[Z_(n-1)]<=...<=E[Z1]

-N이 stopping time일 때

-bar{Z_n}:supermartingale

-{bar{Z_n}}:uniformly bdd이면 E[Z_N]<=E[Z_1]

-N:bdd w.p.1이면 E[Z_N]<=E[Z_1]

E[N]<inf and te M<inf s.t. E[|Z_(n+1)-Z_n| | Z_1, ..., Z_n]<=M for all n이면 E[Z_N]<=E[Z_1]

-Martingale만들기

-{Z_n}:iid, E[Z_n]=0, E[|Z_n|]<inf일 때, 처음부터 n까지 합

-{Z_n}:iid, E[Z_n]=1, E[|Z_n|]<inf일 때, 처음부터 n까지 곱

-Branching Process

-Doob Martingale

-{Z_n}:D-Martingale iff {Z_n}:uni-integrable

-Continuous-time Process

-{Z_t, t>=0}가 continuous time stochastic process on the probability space (J,C4,M) whose paths are continuous인 경우, rdv_1:(J,C4)->[0,inf)가 있다면 Z_rdv_1는 rdv가 된다. P(rdv_1<inf)=1이라는게 중요

-Counting Process{N(t):t>=0}

-정의:[0,t]까지 사건 A가 일어난 횟수가 N(t)

-몇가지 용어들

-N(t)가 independent increments:for any two disjoint time intervals I1,I2, 각각에서 A가 일어난 횟수는 independent

-N(t)가 stationary increments:사건 A가 일어난 횟수의 distribution on any interval은 interval의 길이에만 dependent(interval의 위치와는 independent)

(즉 N(t2+s)-N(t1+s)와 N(t2)-N(t1)의 distribution이 같음, t1<t2, s>0)

-성질

-N(t)>=0

-N(t) integer valued

-t1<t2이면 N(t1)<N(t2)

-t1<t2이면 N(t2)-N(t1)은 (t1,t2]에 일어난 횟수

-Poisson Process with lambda>0

-정의:counting process N(t)가 N(0)=0 and independent increments and 길이가 t인 interval에서 사건 A가 일어난 횟수가 poisson distributed with mean (lambda*t)인 counting process을 Poisson Process라 한다.

-성질

-counting process의 성질들을 만족한다.

-stationary increments

-counting process N(t)가 poisson process with lambda>0 

iff N(0)=0, stationary increments, independent increments, P{N(h)=1}=lambda*h+o(h), P{N(h)>=2}=o(h)

(이 성질로써 어떠한 counting process가 poisson process인지 확인 하기 쉬워짐)

-About Statistics

-기초

-Sample(표본)을 이용하여 Population(모집단)의 Characteristic(성질)을 Inference(추론)하는 것

-Inference는 estimation(추정)과 hypothesis test(검정)으로 이루어짐

-prediction(or forecasting, 예측)은 대게 시간이 지나면 실제값이 알려지나 안 알려질 수도 있다.

-population은 '필요한 정보'가 무엇이고 '얻을 수 있는 정보'가 무엇인지에 달려있다.

-통계학의 주요과제는 통계적 추론의 목적에 적합한 통계량(statistic)을 찾은 다음, 그 분포(표본분포, 통계량의 분포)를 구하는 것인데, 이 때 likelihood function이 핵심적인 역할을 한다. (sample {Z1,...,Z_n}이 iid인 경우)

LF는 통계량의 분포를 구하는데에만 쓰이는 게 아니라, 적합한 통계량을 찾는데에도 쓰인다.

-"복원 추출", "독립 시행"과 관련된 모든 것이 독립인 것은 아님

-statistic:Z1,Z2,...,Zn의 함수

-추정용 statistic을 estimator라 하고

-검정용 statistic을 test statistic이라 한다.

-About Sample

-sample이 다음의 가정을 만족할 때, 다루기 쉬운 표본(이론적으로 의미있는 결과를 얻을 수 있는)이 된다. 이 때를 random sample이라 한다.

-sample은 population의 부분집합이다.(비복원 추출임을 함의하고 있음)

-sample은 무작위로 추출한다.

-population의 크기가 inf로 간주한다.(sample의 크기가 population에 비해 매우 작다.)

(그래야 비복원추출을 복원추출로 간주할 수 있어서 수학적 편의를 얻는다.)

(별말 없이 sample을 언급할 경우 random sample을 가리킨다.)

-Sample을 표현하는 방법에는

-{Z1,Z2,...,Zn}, 각각은 모집단의 분포와 같지만, 서로 독립은 아니다.

(기본적으로 비복원 추출이기때문)

(n<<N이면 독립으로 간주가능)

(복원 추출이었으면 각각은 모집단의 분포와 같으며 서로 독립이 된다.)

-{Z1,Z2,...,Zn}, 각각이 모집단의 분포와 같고, iid이면 LF로 joint분포가 간단해짐

-observed(or realized) sample의 표현은 {z1,z2,...,zn}으로 나타낸다.(각각은 real number)

-특징

-모집단의 분포가 연속이면 복원과 비복원의 차이는 없어진다.(연속은 uncountable개)

-모집단의 분포가 연속이면 표본 {Z1,Z2,...,Zn}에서 n이 아무리 크더라도 Z1,...,Zn은 iid이다.

-Sample Distribution

-정의:크기가 n인 표본 {Z1,Z2,...,Zn}에서 통계량(표본평균, 표본분산 등)의 분포를 표본분포라 한다.

-표본평균의 분포(모분포의 평균을 mu, 모분포의 표준편차를 sigma라 하자.)

-표본 {Z1,Z2,...,Zn}의 각각이 동일한 분포를 갖되 iid가 아니면 표본평균의 분포를 구하기 쉽지않고 중심극한정리도 이용 못함

-표본 {Z1,Z2,...,Zn}이 복원인 경우(iid)

-표본평균의 평균은 mu

-표본평균의 분산은 (sigma)^2/n

-표본 {Z1,Z2,...,Zn}이 비복원인 경우(not ind)

-표본평균의 평균은 mu

-표본평균의 분산은 [(sigma)^2/n]*[(N-n)/(N-1)], N은 모집단의 크기

-n<<N, or 복원 or 연속 모분포인 경우(iid)

-(Law of Large Number)

:{Z1,Z2,...,Zn}이 iid with E[Z1]=mu이면 lim (sum Zi/)/n = mu w.p.1

-(Strong Law of Large Number)

:{Z1,Z2,...,Zn}이 iid with E[Z1]=mu, MGF(Z1)(t) is finite for |t|<=T for some T>=0이면 lim (sum Zi)/n = mu w.p.1

-(Central Limit Theorem)

:{Z1,Z2,...,Zn}이 iid with E[Z1]=mu, V[Z1]=sigma^2 이면 sum Z_i는 n이 클수록 ND(n*mu,n*sigma^2)에 asymptotically approximated

(모분포를 몰라도 표본평균의 분포를 안다는게 가장 핵심)

-표본평균*(표본의 크기)는 martingale되므로 martingale성질 이용 가능, 예를 들면 Azuma's Inequality

-About Regression

-About Inference

-About Estimate

-About MLE(Maximum Likelihood Estimation)

-MLE(estimator)인 LF가 최대가 되게끔 하는 domain의 값을 MLE(estimate)라 한다.

-About Hypothesis Test

-About LRT(Likelihood Ratio Test)

-LF(x)/L_max가 significance level보다 이상이면 X=x라는 주장을 받아들인다.


'제거된 것' 카테고리의 다른 글

[금융]증자  (0) 2013.11.15
백업용1  (0) 2013.09.28
Dr.유, 내 몸과 삶을 내 마음대로 하라.  (0) 2013.09.27
[수업]금융경제학 개념정리, IE473, 박선영교수님  (0) 2013.09.05
[영어]접두사, 어근  (0) 2013.06.30

+ Recent posts