본문 바로가기
Study/통계학

21. 공분산과 상관계수(Covariance and Correlation)

by EDGE-AI 2022. 2. 20.

본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다.

 

공분산(Covariance)

Defn X, Y는 같은 표본 공간의 두 확률변수

Cov(X,Y)=E((XEX)(YEY))=E(XY)E(X)E(Y)

  • Cov(X, X) = Var(X)
  • Cov(X, Y) = Cox(Y, X)
  • Cox(X, c) = 0 if c is const
  • Cov(cX, Y) = c Cov(X, Y)
  • Cov(X, Y+Z) = Cov(X,Y) + Cov(X,Z)
    • 위 두개의 성질을 이중선형성이라 한다.
  • Cov(X+Y, Z+W) = Cov(X,Z) + Cov(X, W) + Cov(Y, Z) + Cov(Y, W)

Cov(i=1maiXi,j=1nbjYj)=i,jaibjCov(Xi,Yj)

  • Var(X1 + X2) = Var(X1) + Var(X2) + 2Cov(X1, X2)
    • X1과 X2가 독립인 경우 공분산이 0이 되고 합의 분산은 분산의 합과 같아진다.Var(X1++Xn)=Var(X1)++Var(Xn)+2i<jCov(Xi,Xj)

Thm. X, Y가 독립일 때, uncorrelated라고 표현하고, Cov(X, Y)=0이 된다.

* 역은 성립하지 않는다.

ZN(0,1),X=Z,Y=Z2

Cov(X,Y)=E(XY)E(X)E(Y)=E(Z2)E(Z)E(Z2)=0

공분산은 0이지만 Y는 X에 대한 함수이기 때문에 독립이 아니다.

상관(Correlation)

공분산의 표준화

Defn Corr(X,Y)=Cov(X,Y)SD(X)SD(Y)=Cov(XE(X)SD(X),YE(Y)SD(Y))

Thm -1 Corr(X, Y) 1 (form of Cauchy-Schwarz)

Proof WLOG( Without Loss of Generality) X, Y는 이미 정규화 되어있음, Corr(X, Y) = ρ

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)=2+2ρ

Var(XY)=Var(X)+Var(Y)2Cov(X,Y)=22ρ

분산은 0보다 크기 때문에 -1 ρ 1 이 된다.

 

Ex. 다항분포

(X1,,Xk)Mult(n,p)

Find Cov*Xi, Xj) for all i, j

i=jCov(Xi,Xi)=Var(Xi)=npi(1pi)

다항분포에서 i와 j가 다를 때, 일정한 집단에 대한 경쟁이기 때문에 공분산 값은 음수를 가진다.

ijCov(X1,X2)=c

Var(X1+X2)=np1(1p1)+np2(1p2)+2cn(p1+p2)(1(p1+p2))

Cov(X1,X2)=np1p2

General:Cov(Xi,Xj)=npipj,forij

 

Ex. 이항분포

X ~ Bin(n, p), X = X1 + .... + Xn ~ Bern(p)

Var(Xj)=E(Xj2)E(Xj)2=pp2=p(1p)

Var(X)=npq,(Cov(Xi,Xj)=0)

 

Ex. 초기하분포

X ~ HGeom(w, b, n), X = X1 + ... + Xn, Xj = {1 if jth ball is white, 0 otherwise

Var(X)=nVar(X1)+2(n2)Cov(X1,X2)

Cov(X1,X2)=E(X1X2)E(X1)E(X2)=ww+bw1w+b1ww+b2

 

 

 

출처: https://www.edwith.org/ai152

댓글