포스트

두 표본 비율 Z-검정

두 표본 비율 Z-검정

〈빅데이터의과학적탐구〉 수업 노트


두 표본 비율 Z-검정(Two proportion Z-test)은 두 집단 간의 비율 차이가 통계적으로 유의미한지 검정하는 방법이다.

여성 집단에서 40%의 고객층이 프로모션 쿠폰을 사용하고, 남성 집단에서는 20%의 고객층이 쿠폰을 사용했다고 가정해보자. 이 경우, 여성 집단에서 쿠폰 사용 비율이 남성 집단보다 20% 높다는 것을 알 수 있다. 하지만 이 차이가 우연에 의한 것인지, 아니면 실제로 두 집단 간에 유의미한 차이가 있는지를 검정하기 위해 비율 차이 분석을 수행할 수 있다.

t-검정이 수치형 자료의 차이를 검정하는데 사용한다면, 비율 차이 분석은 참/거짓, 예/아니오와 같은 이진 자료에서 차이를 검정하는 데 사용된다.


이 검정에서 귀무가설은 “두 집단 사이에 비율 차이가 있다”이고, 대립가설은 “두 집단 사이에 비율 차이가 없다”이다. 검정 결과로 p-value가 0.05보다 작으면 귀무가설을 기각하고, 두 집단 간의 비율 차이가 통계적으로 유의미하다고 결론지을 수 있다.

검정 수행

1
2
3
4
5
6
7
8
9
10
11
12
13
14
> n <- c(
+   length(which(df$성별=="남자")),
+   length(which(df$성별=="여자"))
+ )

> x <- c(
+   length(which(df$성별=="남자" & df$쿠폰사용=="예")),
+   length(which(df$성별=="여자" & df$쿠폰사용=="예"))
+ )

> n
[1] 55 35
> x
[1] 22 26
항목표본1(남자)표본2(여자)
표본 크기(n)5535
성공 횟수(x)2226


1
> prop.test(x, n)
1
2
3
4
5
6
7
8
9
10
11
	2-sample test for equality of proportions with continuity correction

data:  x out of n
X-squared = 8.7715, df = 1, p-value = 0.00306
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.5604717 -0.1252426
sample estimates:
   prop 1    prop 2 
0.4000000 0.7428571 


검정 결과, 여성의 쿠폰 사용 비율이 남성보다 높다는 것을 알 수 있으며, p-value가 0.00306으로 0.05보다 작으므로 귀무가설을 기각할 수 있다. 따라서, 두 집단 간의 비율 차이가 통계적으로 유의미하다고 결론지을 수 있다.

마무리

분석하고자 하는 항목이 이진적이지 않은 구성을 가지고 있을 수도 있다. 만약 세 가지 이상의 범주로 구성된 항목이 있어 이 분석을 사용하기 어렵다면, 카이제곱 검정(Chi-square test)을 사용하여 범주 간의 차이를 검정할 수 있다.