21. 공분산과 상관계수(Covariance and Correlation)

본 글은 Havard University Statistics 110 강의를 듣고 정리한 내용입니다.

공분산(Covariance)

Defn X, Y는 같은 표본 공간의 두 확률변수

$C o v (X, Y) = E ((X - E X) (Y - E Y)) = E (X Y) - E (X) E (Y)$

Cov(X, X) = Var(X)
Cov(X, Y) = Cox(Y, X)
Cox(X, c) = 0 if c is const
Cov(cX, Y) = c Cov(X, Y)
Cov(X, Y+Z) = Cov(X,Y) + Cov(X,Z)
- 위 두개의 성질을 이중선형성이라 한다.
Cov(X+Y, Z+W) = Cov(X,Z) + Cov(X, W) + Cov(Y, Z) + Cov(Y, W)

$C o v (\sum_{i = 1}^{m} a_{i} X_{i}, \sum_{j = 1}^{n} b_{j} Y_{j}) = \sum_{i, j}^{} a_{i} b_{j} C o v (X_{i}, Y_{j})$

Var(X1 + X2) = Var(X1) + Var(X2) + 2Cov(X1, X2)
- X1과 X2가 독립인 경우 공분산이 0이 되고 합의 분산은 분산의 합과 같아진다. $V a r (X_{1} + \dots + X_{n}) = V a r (X_{1}) + \dots + V a r (X_{n}) + 2 \sum_{i < j}^{} C o v (X_{i}, X_{j})$

Thm. X, Y가 독립일 때, uncorrelated라고 표현하고, Cov(X, Y)=0이 된다.

* 역은 성립하지 않는다.

$Z \sim N (0, 1), X = Z, Y = Z^{2}$

$C o v (X, Y) = E (X Y) - E (X) E (Y) = E (Z^{2}) - E (Z) E (Z^{2}) = 0$

공분산은 0이지만 Y는 X에 대한 함수이기 때문에 독립이 아니다.

상관(Correlation)

공분산의 표준화

Defn $C o r r (X, Y) = \frac{C o v (X, Y)}{S D (X) S D (Y)} = C o v (\frac{X - E (X)}{S D (X)}, \frac{Y - E (Y)}{S D (Y)})$

Thm -1≤ Corr(X, Y) ≤1 (form of Cauchy-Schwarz)

Proof WLOG( Without Loss of Generality) X, Y는 이미 정규화 되어있음, Corr(X, Y) = ρ

$V a r (X + Y) = V a r (X) + V a r (Y) + 2 C o v (X, Y) = 2 + 2 ρ$

$V a r (X - Y) = V a r (X) + V a r (Y) - 2 C o v (X, Y) = 2 - 2 ρ$

분산은 0보다 크기 때문에 -1 ≤ ρ ≤ 1 이 된다.

Ex. 다항분포

$(X_{1}, \dots, X_{k}) \sim M u l t (n, \vec{p})$

Find Cov*Xi, Xj) for all i, j

$i = j \to C o v (X_{i}, X_{i}) = V a r (X_{i}) = n p_{i} (1 - p_{i})$

다항분포에서 i와 j가 다를 때, 일정한 집단에 대한 경쟁이기 때문에 공분산 값은 음수를 가진다.

$i \neq j \to C o v (X_{1}, X_{2}) = c$

$V a r (X_{1} + X_{2}) = n p_{1} (1 - p_{1}) + n p_{2} (1 - p_{2}) + 2 c - n (p_{1} + p_{2}) (1 - (p_{1} + p_{2}))$

$\Rightarrow C o v (X_{1}, X_{2}) = - n p_{1} p_{2}$

$G e n e r a l : C o v (X_{i}, X_{j}) = - n p_{i} p_{j}, f o r i \neq j$

Ex. 이항분포

X ~ Bin(n, p), X = X1 + .... + Xn ~ Bern(p)

$V a r (X_{j}) = E (X_{j}^{2}) - E (X_{j})^{2} = p - p^{2} = p (1 - p)$

$V a r (X) = n p q, (∵ C o v (X_{i}, X_{j}) = 0)$

Ex. 초기하분포

X ~ HGeom(w, b, n), X = X1 + ... + Xn, Xj = {1 if jth ball is white, 0 otherwise

$V a r (X) = n V a r (X_{1}) + 2 (\binom{n}{2}) C o v (X_{1}, X_{2})$

$C o v (X_{1}, X_{2}) = E (X_{1} X_{2}) - E (X_{1}) E (X_{2}) = \frac{w}{w + b} \frac{w - 1}{w + b - 1} - {\frac{w}{w + b}}^{2}$

출처: https://www.edwith.org/ai152

'Study > 통계학' 카테고리의 다른 글

23. 베타분포(Beta disctribution) (0)	2022.02.21
22. 변수변환과 합성곱(Transformations and Convolutions) (0)	2022.02.21
11~15강 Review (0)	2022.02.16
4~10강 Review (0)	2022.02.13
20. 다항분포 및 코시분포(Multinomial and Cauchy) (0)	2022.02.07

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

엣지있는 인공지능

21. 공분산과 상관계수(Covariance and Correlation)

공분산(Covariance)

상관(Correlation)

'Study > 통계학' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

21. 공분산과 상관계수(Covariance and Correlation)

공분산(Covariance)

상관(Correlation)

'Study > 통계학' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역