포스트

상관 계수와 상관 분석

상관 계수와 상관 분석

〈빅데이터의과학적탐구〉 수업 노트


어떠한 두 변수에 대해서, 두 관계의 관계성을 측정하려고 시도할 수 있다. 이들 관계가 원인과 결과의 관계인지는 더 상세한 추정이 필요하지만, 획득한 데이터를 토대로 두 변수가 같은 방향성을 갖는지 혹은 연관되는 방향성이 존재하지 않는지 파악할 수 있다.

이들 관계를 파악하여 연관성이 있는지 수치화하여 표현한 값을 상관 계수라고 한다.

두 변수를 좌표평면에 산점도로 표현했을 때, 두 변수의 관계를 시각적으로 확인할 수 있다. 산점도 상의 점이 우상향하는 경향이 있으면 양의 상관관계가 있다고 표현, 상관 계수는 양수이다. 산점도 상의 점이 우하향하는 경향이 있으면 음의 상관관계가 있다고 표현, 상관 계수는 음수이다. 산점도 상의 점이 특정한 방향성을 갖지 않고 흩어져 있다면, 두 변수는 연관성이 없다고 표현, 상관 계수는 0에 가깝다.

상관 계수 $r$은 일반적으로 아래와 같이 받아들여진다:

상관 계수 범위상관관계해석
$0.9 \pm \alpha \leq |r| \leq 1.0$매우 강함자연과학, 공학, 경제학 등 수치적 분석이 요구되는 분야에서는 대부분 이러한 수준의 상관관계를 요구한다. 하지만 정치학, 사회학 등의 사회과학에서는 데이터 조작을 의심해야 하는 경우가 있다.
$0.7 \pm \alpha \leq |r| < 0.8 \pm \alpha$강함상관관계가 있음을 통계적으로 지지받을 수 있다. 의학, 유전학 등에서는 유의미한 관계가 있다고 수용한다.
$0.5 \pm \alpha \leq |r| < 0.6 \pm \alpha$중간상관성이 있다고 받아들일 수는 있으나, 변인간의 관계를 신뢰하기 어렵다고 판단한다.
$0 \pm \alpha \leq |r| < 0.3 \pm \alpha$상관 없음대개의 경우 상관관계가 없다고 판단한다.

상관 계수의 정의

상관 계수는 여러 인물의 정의 중에 선택하여 사용할 수 있다. 가장 일반적으로 사용되는 정의는 피어슨 상관 계수이다. 피어슨 상관 계수는 두 변수의 공분산을 각 변수의 표준편차의 곱으로 나눈 값으로 정의된다.

\[\begin{aligned} r &= \frac{cov(X, Y)}{\sigma_X \sigma_Y} \\ &= \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^n (X_i - \bar{X})^2} \sqrt{\sum_{i=1}^n (Y_i - \bar{Y})^2}} \end{aligned}\]

피어슨의 상관 계수

상관분석의 수행

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
> table
   성별    연령대   직업 쇼핑액 이용만족도
1  남자   45-49세 회사원  195.6          4
2  남자   25-29세 공무원  116.4          7
3  남자 50세 이상 자영업  183.6          4
4  남자 50세 이상 농어업  168.0          4
5  남자   40-44세 공무원  169.2          4
...

> table$성별 <- as.numeric(as.factor(table$성별))
> table$연령대 <- as.numeric(as.factor(table$연령대))
> table$직업 <- as.numeric(as.factor(table$직업))

> table
   성별 연령대 직업 쇼핑액 이용만족도
1     1      5    5  195.6          4
2     1      1    1  116.4          7
3     1      6    3  183.6          4
4     1      6    2  168.0          4
5     1      4    1  169.2          4
...

> pearson_result <- rcorr(as.matrix(table), type="pearson")
> pearson_result
            성별 연령대  직업 쇼핑액 이용만족도
성별        1.00   0.03  0.31  -0.10       0.04
연령대      0.03   1.00 -0.13   0.04       0.09
직업        0.31  -0.13  1.00   0.05       0.09
쇼핑액     -0.10   0.04  0.05   1.00       0.03
이용만족도  0.04   0.09  0.09   0.03       1.00

n= 90 


P
           성별   연령대 직업   쇼핑액 이용만족도
성별              0.8093 0.0025 0.3266 0.6872    
연령대     0.8093        0.2357 0.7209 0.3972    
직업       0.0025 0.2357        0.6456 0.4133    
쇼핑액     0.3266 0.7209 0.6456        0.8100    
이용만족도 0.6872 0.3972 0.4133 0.8100