상관 계수와 상관 분석
상관 계수와 상관 분석
〈빅데이터의과학적탐구〉 수업 노트
어떠한 두 변수에 대해서, 두 관계의 관계성을 측정하려고 시도할 수 있다. 이들 관계가 원인과 결과의 관계인지는 더 상세한 추정이 필요하지만, 획득한 데이터를 토대로 두 변수가 같은 방향성을 갖는지 혹은 연관되는 방향성이 존재하지 않는지 파악할 수 있다.
이들 관계를 파악하여 연관성이 있는지 수치화하여 표현한 값을 상관 계수라고 한다.
두 변수를 좌표평면에 산점도로 표현했을 때, 두 변수의 관계를 시각적으로 확인할 수 있다. 산점도 상의 점이 우상향하는 경향이 있으면 양의 상관관계가 있다고 표현, 상관 계수는 양수이다. 산점도 상의 점이 우하향하는 경향이 있으면 음의 상관관계가 있다고 표현, 상관 계수는 음수이다. 산점도 상의 점이 특정한 방향성을 갖지 않고 흩어져 있다면, 두 변수는 연관성이 없다고 표현, 상관 계수는 0에 가깝다.
상관 계수 $r$은 일반적으로 아래와 같이 받아들여진다:
| 상관 계수 범위 | 상관관계 | 해석 |
|---|---|---|
| $0.9 \pm \alpha \leq |r| \leq 1.0$ | 매우 강함 | 자연과학, 공학, 경제학 등 수치적 분석이 요구되는 분야에서는 대부분 이러한 수준의 상관관계를 요구한다. 하지만 정치학, 사회학 등의 사회과학에서는 데이터 조작을 의심해야 하는 경우가 있다. |
| $0.7 \pm \alpha \leq |r| < 0.8 \pm \alpha$ | 강함 | 상관관계가 있음을 통계적으로 지지받을 수 있다. 의학, 유전학 등에서는 유의미한 관계가 있다고 수용한다. |
| $0.5 \pm \alpha \leq |r| < 0.6 \pm \alpha$ | 중간 | 상관성이 있다고 받아들일 수는 있으나, 변인간의 관계를 신뢰하기 어렵다고 판단한다. |
| $0 \pm \alpha \leq |r| < 0.3 \pm \alpha$ | 상관 없음 | 대개의 경우 상관관계가 없다고 판단한다. |
상관 계수의 정의
상관 계수는 여러 인물의 정의 중에 선택하여 사용할 수 있다. 가장 일반적으로 사용되는 정의는 피어슨 상관 계수이다. 피어슨 상관 계수는 두 변수의 공분산을 각 변수의 표준편차의 곱으로 나눈 값으로 정의된다.
\[\begin{aligned} r &= \frac{cov(X, Y)}{\sigma_X \sigma_Y} \\ &= \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2} \sqrt{\sum_{i=1}^n (Y_i - \bar{Y})^2}} \end{aligned}\]피어슨의 상관 계수
상관분석의 수행
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
> table
성별 연령대 직업 쇼핑액 이용만족도
1 남자 45-49세 회사원 195.6 4
2 남자 25-29세 공무원 116.4 7
3 남자 50세 이상 자영업 183.6 4
4 남자 50세 이상 농어업 168.0 4
5 남자 40-44세 공무원 169.2 4
...
> table$성별 <- as.numeric(as.factor(table$성별))
> table$연령대 <- as.numeric(as.factor(table$연령대))
> table$직업 <- as.numeric(as.factor(table$직업))
> table
성별 연령대 직업 쇼핑액 이용만족도
1 1 5 5 195.6 4
2 1 1 1 116.4 7
3 1 6 3 183.6 4
4 1 6 2 168.0 4
5 1 4 1 169.2 4
...
> pearson_result <- rcorr(as.matrix(table), type="pearson")
> pearson_result
성별 연령대 직업 쇼핑액 이용만족도
성별 1.00 0.03 0.31 -0.10 0.04
연령대 0.03 1.00 -0.13 0.04 0.09
직업 0.31 -0.13 1.00 0.05 0.09
쇼핑액 -0.10 0.04 0.05 1.00 0.03
이용만족도 0.04 0.09 0.09 0.03 1.00
n= 90
P
성별 연령대 직업 쇼핑액 이용만족도
성별 0.8093 0.0025 0.3266 0.6872
연령대 0.8093 0.2357 0.7209 0.3972
직업 0.0025 0.2357 0.6456 0.4133
쇼핑액 0.3266 0.7209 0.6456 0.8100
이용만족도 0.6872 0.3972 0.4133 0.8100
