Probability, Statistics, and Process
-About Random Variable(rdv:(J1,C4(J1))->(R(std),C4(TS)), Z라 표현, ((ETR,C4(TS))에서도 다룰 때가 있음))
-Z는 MF이다. MF성질 다 만족
-rdv충분조건
-monotone이면 rdv이다.
-(R(std),C4(TS))에서 C4(TS)의 generating set에 대해서만 판단해도 됨
-정의역이 metric space인 경우, rdv가 conti이면 MF됨
-conti(rdv):rdv됨, 특히 rdv_1+rdv_2 같은 것도 rdv
-sup rdv_n, inf rdv_n, limsup(rdv_n), liminf(rdv_n) 모두 MF가 된다.(ETR,C4(TS))
-{x in J1 s.t. lim rdv_n(x) exists}는 C4(J1)의 원소이다.
-C4(rdv)
-정의:rdv가 rdv되게끔 하는 smallest C4 of subsets of J1
-C4(rdv_i)란, rdv_i들 모두가 rdv가 되게끔 하는 smallest C4 of subsets of J1(rdv_i들의 정의역은 모두 같을 때 논의)
-성질
-C4(rdv)<C4(1)
-for C:collection of subsets of R s.t. C4(C)=C4(TS) of R, C4(rdv^(-1)(C))=C4(rdv)
-P(|Z|<inf)=1이면 for any eps>0, te bdd rdv Y s.t. P(Z ≠ Y)<e
-(Approximation by Simple Functions)(S_n을 seq of simple function이라 하자.)
-nnn rdv가 있으면 te {S_n} s.t. nnn and pt cv to rdv
-게다가 {S_n}은 rdv가 bdd인 J1의 subset에서는 uni cv하게 됨
-(J1,C4(J1))에 sf-M가 있었다면, {S_n}을 finite support인 걸로 잡을 수 있음
-rdv가 있으면 te {S_n} s.t. 0<=|S_1|<=|S_2|<=...<=|rdv| and pt cv to rdv
-게다가 {S_n}은 rdv가 bdd인 J1의 subset에서는 uni cv하게 됨
-(Jensen's Inequality)f:R->R, convex이면 E[f(Z)]>=f(E[Z])
(Conditional Expectation에도 적용가능)
-(Markov's Inequality)P(|Z|>x)<=E[|Z|]/x
-Z:integrable iff E[|Z|]<inf iff lim n->inf E[|Z|*indi_{|Z|>n}]=0
(Z:integrable가 P(|Z|<inf)=1보다 강한 조건이다.)
-{Z_n}:uni-integrable iff lim n->inf sup over k E[|Z_k|*indi_{|Z_k|>n}]=0 iff {Z_n}:D-Martingale
-{Z_n}:uni-integrable이면
-te M>=0 s.t. E[|Z_n|]<=M for all n
-게다가 lim n->inf Z_n = Z w.p.1이면({Z_n}이 martingale이면 Martingale Convergence Theorem에 의해 됨)
-Z도 integrable이고
-E[Z_n]->E[Z]
-E[|Z_n - Z|]->0(이것이 바로 위의 2개를 imply함)
-(J1,C4(J1))=(R(std),C4(TS))인 경우
-Probability Measure induced by DF라면 {all atoms}={{x} in R s.t. DF(x)-DF(x-)>0}
-About Random Vector((J1,C4(J1))->(R^n,C4(TS)), F라 표현, coordinate function은 F1,F2,...로 표현)
-F가 MF이다. 따라서 MF의 성질을 따름
(예를 들면 F가 Random Vector iff F1, F2, ..., Fn이 rdv)
-C4(F)=C4(F1, F2, ..., Fn)
-About Probability Measure
-f-M이다.
-(J,C4)에서 Probability M1, Probability M2가 있을 때, C={E in C4 s.t. M1(E)=M2(E)}는 LC된다.
-(J,C4)에서 Probability M1, Probability M2가 있을 때, C가 PC이고, M1=M2 on C이면 M1=M2 on C4(C)
(즉 (R(std), C4(TS))에서 C4(TS)의 PC인 subcollection에서 M1과 M2가 서로 같으면 M1=M2 on C4(TS))
(구체적으론 DF1 from M1과 DF2 from M2가 같으면 M1=M2 on C4(TS))
(따라서 Probability Measure M on (R(std), C4(TS))는 DF에 의해 uniquely determined)
-for {E_n} in (J,C4,M) s.t. M(E_n)=1, M(c-intersection E_n)=1
-몇가지 examples
-sample space J=countable, C4=P(J),
-About Distribution Function, DF, PDF
-DF의 정의:R(std)->[0,1], right-conti, inc, F(-inf)=0, F(inf)=1
-DF의 motive, environment는 sample space는 R(std), C4가 C4(TS)일 때, Probability Measure가 있을 때의 얘기
-DF의 성질
-right-conti
-{x in R s.t. DF(x)>=y} is closed in R(std)
-conti이면 uni conti도 됨
-DF가 Probability Measure on (R(std), C4(TS))를 정의할 수 있다. using Lebesgue Measure on (0,1]
-DF가 있으면 left-conti inverse of DF(DF^(-1)라 하자)를 생각할 수 있다.
-DF^(-1)의 성질
-DF^(-1):(0,1)->R(std)
-inc
-left-conti
-DF(DF^(-1)(y))>=y
-DF(x)>=y iff x>=DF^(-1)(y)
-for E in C4(R(std)), the inverse image of E of DF^(-1) is in C4(TS), TS=(0,1] as subspace of R(std)
-About MGF
-의의:적분보다 미분이 쉽다. 일단 한번 적분하면(MGF구하면) 미분으로써 n-th moment을 다 구할 수 있다.
-성질
-Z1과 Z2가 ind일 때, MGF(Z1+Z2)=MGF(Z1)*MGF(Z2)
-복원추출 관련 분포
-Bernoulli-Distr
-의미:rdv가 0,1(일반적으론 2개의 값)만 가질 때의 distribution
-확률 구할 때:0, 1만 주어지면 됨
-Binomial-Distr
-의미:동일한 그리고 독립인 시행을 n번 했을 때 사건 A가 발생하는 횟수의 distribution
-확률 구할 때:n(총 시행 횟수), k(관심 횟수), P(1번 시행에서 사건A)가 주어져야됨
-Geometric-Distr
-의미:첫번째 사건 A가 일어날 때까지 시행하는 독립시행의 횟수의 distribution
-확률 구할 때:k(관심 횟수), P(1번 시행에서 사건A) 주어지면 됨
-Negative Binomial-Distr
-의미:사건 A가 일어난 횟수가 n번이 될 때까지 시행하는 독립시행의 횟수(적어도 n)의 distribution
(사건 A가 n번 나오는 순간, 더이상의 시행은 없는 상황)
-확률 구할 때:n(관심 횟수), P(1번 시행에서 사건A) 주어지면 됨
-Uniform-Distr
-의미:n회의 독립시행에서 단 한번 사건 A가 일어났다고 했을 때, A가 발생한 시행의 분포, 이 경우 1/n으로 동일(link)
-Multinomial-Distr
-의미:n회의 독립시행에서, n=사건A1일어난 횟수+사건A2일어난 횟수+...+사건Ak일어난 횟수=j1+j2+...+jk, (j1,j2,...,jk)의 분포
(Binomial-Distr는 n=사건A일어난 횟수+사건A^C일어난 횟수 인 경우다. 따라서 Binomial은 Multinomial의 특수한 경우)
-비복원추출 관련 분포
-Hypergeometric-Distr
-의미:n회의 비복원 추출시, 사건A가 일어난 횟수의 distribution
-Negative Hypergeometric-Distr
-의미:사건A가 일어난 횟수가 n이 될 때 까지의 시행횟수(추출 횟수)의 distribution
-Multivariate Hypergeometric-Distr
-의미:n회의 비복원 추출시, n=사건A1일어난 횟수+...+사건Ak일어난 횟수=j1+...+jk, (j1,j2,...,jk)의 분포
note:
Binomial<->Hypergeometric(복원이냐 비복원이냐)
Binomial<->Negative Binomial(총 시행횟수:fixed이고 일어난횟수 관심<->일어난 횟수:fixed이고 시행횟수 관심)
Binomial<->Multinomial(사건A만 관심<->여럿 사건 관심)
Hypergeometric<->Negative Hypergeometric(시행횟수:fixed, 일어난횟수 관심<->일어난 횟수:fixed, 시행횟수 관심)
Hypergeometric<->Multivariate Hypergeo(사건 A만 관심<->여럿 사건 관심)
Multinomial<->Multivariate Hypergeo(복원이냐 비복원이냐)
...비교하며 이해하고 외우기 필요
-Poisson Process 관련 Distribution
-포아송 분포(Poisson-Distr)
-의의:continuous variable T상에서(시간, 면적, 공간 등) random하게 발생하는 discrete 사건을 묘사할 때 활용
-의미:fixed:T>0, lambda>0일 때, dt마다 1회 시행, 즉 총 n(=T/dt)회 독립시행, 이 때 1회 시행에서 사건 A가 일어날 확률을 p(=lambda*dt)라 할 때, T시간동안 사건 A가 일어난 횟수의 확률분포를 가리킨다.(n->inf일 때)
-지수 분포(Exp-Distr)
-의미:Poisson Process에서 첫 사건A가 일어날 때까지의 걸리는 T의 분포
-Erlang 분포(Erlang-Distr)
-의미:Poisson Process에서 사건 A가 n번째 일어날 때까지의 걸리는 T의 분포
-Gamma 분포(Gamma-Distr)
-의미:Poisson Process에서 사건 A가 x번째 일어날 때까지의 걸리는 T의 분포(x는 실수)
(이때 gamma function필요, 실수!을 위해)
-Continuous Uniform Distr(Conti Uniform-Distr)
-의미:(0,s)동안에 한번 사건 A가 발생했을 시, (T,T+dt)에서 발생했을 확률은 모든 (T,T+dt)에 대해서 dt/s로 동일한, T의 분포
-Beta 분포(Beta-Distr)
-의미:(0,s)동안에 사건 A가 x1+x2-1번 발생시 (T,T+dt)에서 x1번째 A가 발생할 확률을 가진 시간 T의 분포
(dt->0, x1,x2는 양의 실수이고 이 때 실수!을 위해 gamma function필요)
(s=1일 때의 분포를 Standard beta 분포라 한다.)
-Normal Distribution(ND)
-의미:{Z_1,...,Z_n}이 iid이고 E[Z_1]<inf, V[Z_1]<inf일 때, Sample mean은 ND(E[Z_1],V[Z_1]/n)을 따른다.
(Z_1이 무슨 분포이든 상관없다.)
-ND의 pdf의 성질, X~ND(E[X],V[X])일 때
-E[X]+SD[X]에서 변곡점을 갖는다.
-X=E[X]에서 선대칭
-ND와 관련 분포
-Chi-Squared-Distr
-의미:
-Gamma-Distr의 특수한 경우로도 볼 수 있다.
-F-Distr
-의미:
-t-Distr
-의미:
-F-Distr의 특수한 경우로도 볼 수 있다.
-About 통계량 계산, 의의
-평균과 기댓값의 차이
-평균은, 총 변량/총 개수
-기댓값은 확률변수가 가질 값의 가중치인 확률을 곱해서 모두 더해 놓은 것
-둘이 같을 수도 있으나 태생이 다름
-평균과 중앙값(median)
-N개의 data, z_1<z_2<...<z_N이라 하고 각각이 발생할 확률이 1/N으로 같다고 하자.
-이때 z의 평균은 z_i들로부터의 거리를 제곱한 값의 합이 최소가 되는 값이다.
-이때 z의 중앙값은 z_i들로부터의 거리의 절댓값의 합이 최소가 되는 값이다.
(N이 홀수이면 중앙값은 z_{(N+1)/2}이고 N이 짝수일 땐 관례상, z_(N/2)와 z_{(N/2)+1}의 평균으로 정의한다.
-Z1과 Z2가 ind일 때
-E(Z1Z2)=E(Z1)E(Z2)
-cov(Z1,Z2)=0 (역은 성립 안함)
(특별히 Z1과 Z2가 Normal일땐 역이 성립)
-Z1과 Z2가 not ind일 때
-(Cauchy-Schwartz Inequality)E[Z1Z2]<={E[(Z_1)^2]*E[(Z_2)^2]}^(1/2)
-V(Z1+Z2+Z3+...+Zn)=sum over i,j cov(Zi,Zj)=sum V(Zn) + sum over i≠j cov(Zi,Zj)
-V(aZ1+bZ2)=a^2V(Z1)+b^2V(Z2)+2abcov(Z1,Z2)
-V(aZ1-bZ2)=a^2V(Z1)+b^2V(Z2)-2abcov(Z1,Z2)
(X=Y1+Y2, A에 투자, B에 투자한 금액이 각각 1억이고 1년 뒤 Y1,Y2억이 된다 했을 때를 생각하면, 투자할 때 cov(Y1,Y2)<0인 곳에 투자를 해야 V(X)가 작아진다. 즉 risk가 작아진다.)
-cov(Z1,Z2)=E[(Z1-E(Z1))(Z2-E(Z2))]=E(Z1Z2)-E(Z1)E(Z2), 중간의 식으로 cov의 의미를 생각할 수 있다.
-cov(Z,Z)=V(Z), 따라서 분산은 cov의 일종을 볼 수 있다.
-cov(sum a_i X_i, sum b_j Y_j)=sum sum a_i b_j cov(X_i, Y_j)가 성립
(i와 j의 ending index가 같을 때, cov(sum a_i X_i, sum b_j Y_j)=0 iff sum a_i b_i =0, 이때 sum a_i X_i와 sum b_j Y_j가 orthogonal이라고 통계학에선 부른다.)
-cor(Z1,Z2)=cov(Z1,Z2)/[SD(Z1)*SD(Z2)]
(cor은 Z1과 Z2의 선형종속성의 척도, |cor|가 1에 가까울수록 Z1과 Z2는 선형종속에 가까움, i.e. Z1=aZ2+b꼴에 가까움)
(Z1=aZ2+b, a가 양수이면 cor(Z1,Z2)=1, a가 음수이면 cor(Z1,Z2)=(-1))
-About Conditional Expectation
-Conditional Expectation을 알 경우 전체 Expectation을 구할 수 있음
(1반과 2반의 평균과 학생수를 알면 1반+2반 전체의 평균을 구할 수 있단 소리)
(Conditional variance는 위와 같은 성질이 만족하지 않음)
(반대로 E[Z]구함에 있어서 E[Z|X]를 이용할 수도 있다. unconditional mean=mean of conditional mean)
-E[Z1|Z2]:rdv, Z2->R->R
-E[Z1+Z2|Z3]=E[Z1|Z3]+E[Z2|Z3]
-E[aZ1|Z2]=aE[Z1|Z2]
-E[Z|Z]=Z
-E[Z1|Z1,Z2]=E[Z1], E[Z1|Z2,f(Z2)]=E[Z1|Z2]
-(unconditional mean=mean of conditional mean)E[E[Z1|Z2]]=E[Z1]
-E[E[Z1|Z2,Z3]]=E[Z1|Z2], E[E[Z1|Z2]|Z2,Z3]=E[Z1|Z2]
-V[Z1]=E[V[Z1|Z2]]+V[E[Z1|Z2]]
-About Process
-Discrete-time Process
-({Z_n,N>=1}가 discrete time stochastic process on the probability space(J,C4,M)인 경우도 rdv_1:(J,C4)->[0,inf)라면 Z_rdv_1도 rdv가 된다. P(rdv_1<inf)=1이라는게 중요
-정의:Stochastic Process {Z_n}이, P(Z_(n)=j_(n)|Z_(n-1)=j_(n-1),...,Z_0=j_0)=P(Z_(n)=j_(n)|Z_(n-1)=j_(n-1))을 만족할 때, {Z_n}을 Markov Process라 한다.
-성질:
-어떤 Stochastic Process가 Independent Increments라면, Markov Process가 된다.
(역은 성립 안함)
-Martingale({Z_n}을 martingale로 표현하겠다. 그냥 stochastic process는 {X_n}으로)
-for 1<=k<n, E[Z_n|Z_1,Z_2,...,,Z_k]=Z_k
-E[Z_n]=E[Z_(n-1)]=...=E[Z1]
-f:R->R, convex, {f(Z_n)}은 submartingale
(따라서 {|Z_n|}, {(Z_n)^2}은 submartingale됨)
-for any eps>0 and any fixed n in N,
P(max{|Z_1|,...,|Z_n|}>eps)<=E[|Z_n|]/(eps)
P(max{|Z_1|,...,|Z_n|}>eps)<=E[(Z_n)^2]/(eps)^2
-n<m에 대해 E[Z_n * Z_m]=E[(Z_n)^2]
-(Martingale Convergence Theorem)
:{Z_n}에 대해 sup over n {E[(Z_n)^2]}<=M<inf for some M>=0이면 lim n->inf Z_n은 exist and finite w.p.1
-(Extended Martingale Convergence Theorem)
:{Z_n}에 대해 sup oover n {E[|Z_n|]<=M<inf for some M>=0이면 lim n->inf Z_n은 exist and finite w.p.1
(따라서 nnn martingale은 반드시 lim n->inf Z_n은 exist and finite w.p.1)
-(Azuma's Inequality)
:Z_0=E[Z_1]=mu, -α_i <= Z_i - Z_(i-1) <= β_i for some α_i, β_i >=0 for any a>0이면
P(Z_n - mu >= a)<=exp((-2a^2)/f-sum from i=1 to i=n (α_i+β_i)^2)
P(Z_n - mu <= -a)<=exp((-2a^2)/f-sum from i=1 to i=n (α_i+β_i)^2)
-About Random Time
-N이 Stopping Time for {X_n}일 때
-lim_n->inf bar{X_n}=X_N w.p.1
-X:rdv with E[|X|]<inf일 때, limE[X*indi_{N>n}]=0
-(Wald's Equation)
:{X_n}:iid, E[X_n]<inf이고 N:stopping time for {X_n} with E[N]<inf이면 E[sum from i=1 to i=N X_i]=E[N]*E[X_1]
(P(N<inf)=1보다 E[N]<inf가 강한 조건이다.)
-bar{X_n} - X_N = [bar{X_n} - X_N]*indi_{n<N}
-X_N = X_1 * indi_{N=1} +X_2 * indi_{N=2} +....
-N:random time이 주어지면
-stopped process {bar{Z_n}}도 martingale이다.
(따라서 E[bar{Z_n}]=E[bar{Z_(n-1)}]=...=E[bar{Z_1}]=E[Z_1]이다.)
-N:stopping time이기도 할 때
-{bar{Z_n}}:uniformly bdd이면 limE[bar{Z_n}]=E[Z_N](=E[Z_1])
-N:bdd w.p.1이면 limE[bar{Z_n}]=E[Z_N](=E[Z_1])
-E[N]<inf and te M<inf s.t. E[|Z_(n+1)-Z_n| | Z_1, ..., Z_n]<=M for all n이면 limE[bar{Z_n}]=E[Z_N](=E[Z_1])
-submartingale관련({Z_n}이 submartingale이라 하자)
-E[Z_n]>=E[Z_(n-1)]>=...>=E[Z1]
-{Y_n}:martingale일 때, f:R->R, convex, {f(Y_n)}은 submartingale
-따라서 {|Y_n|}, {(Y_n)^2}은 submartingale됨
-(Kolmogorov's Inequality)for any eps>0 and {Z_n}:nnn submartingale, P{max{Z_1,...,Z_n}>eps}<=E[Z_n]/eps
-{Z_n}:submartingale일 때, te {X_n}, {Y_n} s.t. Z_n=X_n+Y_n, {X_n}:martingale, {Y_n}:inc
-N이 stopping time일 때
-bar{Z_n}:submartingale
-{bar{Z_n}}:uniformly bdd이면 E[Z_N]>=E[Z_1]
-N:bdd w.p.1 by (n_0)이면 E[Z_(n_0)]>=E[Z_N]>=E[Z_1]
-E[N]<inf and te M<inf s.t. E[|Z_(n+1)-Z_n| | Z_1, ..., Z_n]<=M for all n이면 E[Z_N]>=E[Z_1]
-supermartingale관련({Z_n}이 supermartingale이라 하자)
-E[Z_n]<=E[Z_(n-1)]<=...<=E[Z1]
-N이 stopping time일 때
-bar{Z_n}:supermartingale
-{bar{Z_n}}:uniformly bdd이면 E[Z_N]<=E[Z_1]
-N:bdd w.p.1이면 E[Z_N]<=E[Z_1]
E[N]<inf and te M<inf s.t. E[|Z_(n+1)-Z_n| | Z_1, ..., Z_n]<=M for all n이면 E[Z_N]<=E[Z_1]
-Martingale만들기
-{Z_n}:iid, E[Z_n]=0, E[|Z_n|]<inf일 때, 처음부터 n까지 합
-{Z_n}:iid, E[Z_n]=1, E[|Z_n|]<inf일 때, 처음부터 n까지 곱
-Branching Process
-Doob Martingale
-{Z_n}:D-Martingale iff {Z_n}:uni-integrable
-Continuous-time Process
-{Z_t, t>=0}가 continuous time stochastic process on the probability space (J,C4,M) whose paths are continuous인 경우, rdv_1:(J,C4)->[0,inf)가 있다면 Z_rdv_1는 rdv가 된다. P(rdv_1<inf)=1이라는게 중요
-Counting Process{N(t):t>=0}
-정의:[0,t]까지 사건 A가 일어난 횟수가 N(t)
-몇가지 용어들
-N(t)가 independent increments:for any two disjoint time intervals I1,I2, 각각에서 A가 일어난 횟수는 independent
-N(t)가 stationary increments:사건 A가 일어난 횟수의 distribution on any interval은 interval의 길이에만 dependent(interval의 위치와는 independent)
(즉 N(t2+s)-N(t1+s)와 N(t2)-N(t1)의 distribution이 같음, t1<t2, s>0)
-성질
-N(t)>=0
-N(t) integer valued
-t1<t2이면 N(t1)<N(t2)
-t1<t2이면 N(t2)-N(t1)은 (t1,t2]에 일어난 횟수
-Poisson Process with lambda>0
-정의:counting process N(t)가 N(0)=0 and independent increments and 길이가 t인 interval에서 사건 A가 일어난 횟수가 poisson distributed with mean (lambda*t)인 counting process을 Poisson Process라 한다.
-성질
-counting process의 성질들을 만족한다.
-stationary increments
-counting process N(t)가 poisson process with lambda>0
iff N(0)=0, stationary increments, independent increments, P{N(h)=1}=lambda*h+o(h), P{N(h)>=2}=o(h)
(이 성질로써 어떠한 counting process가 poisson process인지 확인 하기 쉬워짐)
-About Statistics
-기초
-Sample(표본)을 이용하여 Population(모집단)의 Characteristic(성질)을 Inference(추론)하는 것
-Inference는 estimation(추정)과 hypothesis test(검정)으로 이루어짐
-prediction(or forecasting, 예측)은 대게 시간이 지나면 실제값이 알려지나 안 알려질 수도 있다.
-population은 '필요한 정보'가 무엇이고 '얻을 수 있는 정보'가 무엇인지에 달려있다.
-통계학의 주요과제는 통계적 추론의 목적에 적합한 통계량(statistic)을 찾은 다음, 그 분포(표본분포, 통계량의 분포)를 구하는 것인데, 이 때 likelihood function이 핵심적인 역할을 한다. (sample {Z1,...,Z_n}이 iid인 경우)
LF는 통계량의 분포를 구하는데에만 쓰이는 게 아니라, 적합한 통계량을 찾는데에도 쓰인다.
-"복원 추출", "독립 시행"과 관련된 모든 것이 독립인 것은 아님
-statistic:Z1,Z2,...,Zn의 함수
-추정용 statistic을 estimator라 하고
-검정용 statistic을 test statistic이라 한다.
-About Sample
-sample이 다음의 가정을 만족할 때, 다루기 쉬운 표본(이론적으로 의미있는 결과를 얻을 수 있는)이 된다. 이 때를 random sample이라 한다.
-sample은 population의 부분집합이다.(비복원 추출임을 함의하고 있음)
-sample은 무작위로 추출한다.
-population의 크기가 inf로 간주한다.(sample의 크기가 population에 비해 매우 작다.)
(그래야 비복원추출을 복원추출로 간주할 수 있어서 수학적 편의를 얻는다.)
(별말 없이 sample을 언급할 경우 random sample을 가리킨다.)
-Sample을 표현하는 방법에는
-{Z1,Z2,...,Zn}, 각각은 모집단의 분포와 같지만, 서로 독립은 아니다.
(기본적으로 비복원 추출이기때문)
(n<<N이면 독립으로 간주가능)
(복원 추출이었으면 각각은 모집단의 분포와 같으며 서로 독립이 된다.)
-{Z1,Z2,...,Zn}, 각각이 모집단의 분포와 같고, iid이면 LF로 joint분포가 간단해짐
-observed(or realized) sample의 표현은 {z1,z2,...,zn}으로 나타낸다.(각각은 real number)
-특징
-모집단의 분포가 연속이면 복원과 비복원의 차이는 없어진다.(연속은 uncountable개)
-모집단의 분포가 연속이면 표본 {Z1,Z2,...,Zn}에서 n이 아무리 크더라도 Z1,...,Zn은 iid이다.
-Sample Distribution
-정의:크기가 n인 표본 {Z1,Z2,...,Zn}에서 통계량(표본평균, 표본분산 등)의 분포를 표본분포라 한다.
-표본평균의 분포(모분포의 평균을 mu, 모분포의 표준편차를 sigma라 하자.)
-표본 {Z1,Z2,...,Zn}의 각각이 동일한 분포를 갖되 iid가 아니면 표본평균의 분포를 구하기 쉽지않고 중심극한정리도 이용 못함
-표본 {Z1,Z2,...,Zn}이 복원인 경우(iid)
-표본평균의 평균은 mu
-표본평균의 분산은 (sigma)^2/n
-표본 {Z1,Z2,...,Zn}이 비복원인 경우(not ind)
-표본평균의 평균은 mu
-표본평균의 분산은 [(sigma)^2/n]*[(N-n)/(N-1)], N은 모집단의 크기
-n<<N, or 복원 or 연속 모분포인 경우(iid)
-(Law of Large Number)
:{Z1,Z2,...,Zn}이 iid with E[Z1]=mu이면 lim (sum Zi/)/n = mu w.p.1
-(Strong Law of Large Number)
:{Z1,Z2,...,Zn}이 iid with E[Z1]=mu, MGF(Z1)(t) is finite for |t|<=T for some T>=0이면 lim (sum Zi)/n = mu w.p.1
-(Central Limit Theorem)
:{Z1,Z2,...,Zn}이 iid with E[Z1]=mu, V[Z1]=sigma^2 이면 sum Z_i는 n이 클수록 ND(n*mu,n*sigma^2)에 asymptotically approximated
(모분포를 몰라도 표본평균의 분포를 안다는게 가장 핵심)
-표본평균*(표본의 크기)는 martingale되므로 martingale성질 이용 가능, 예를 들면 Azuma's Inequality
-About Inference
-About Estimate
-About MLE(Maximum Likelihood Estimation)
-MLE(estimator)인 LF가 최대가 되게끔 하는 domain의 값을 MLE(estimate)라 한다.
-About Hypothesis Test
-About LRT(Likelihood Ratio Test)
-LF(x)/L_max가 significance level보다 이상이면 X=x라는 주장을 받아들인다.
'제거된 것' 카테고리의 다른 글
[금융]증자 (0) | 2013.11.15 |
---|---|
백업용1 (0) | 2013.09.28 |
Dr.유, 내 몸과 삶을 내 마음대로 하라. (0) | 2013.09.27 |
[수업]금융경제학 개념정리, IE473, 박선영교수님 (0) | 2013.09.05 |
[영어]접두사, 어근 (0) | 2013.06.30 |