회귀분석의 개요
회귀분석의 개요
〈빅데이터의과학적탐구〉 수업 노트
주의: 데이터 분석 교양 수업에서 데이터 분석 도구로서 회귀분석의 개괄적인 내용과, R에서 회귀분석을 수행하는 실천적인 내용만을 다룬 것을 정리한 것이므로, 매우 기초적이거나 지엽적일 수 있음
개요
회귀분석은 어떤 변수들 사이에 존재하는 함수적인 관련성을 규명하기 위해, 수학적인 모형을 설정하고, 측정된 값을 이 모형에 적용하여 모형이 설명하는 변수들을 추정하는 통계적 분석 방법이다. 회귀분석은 자료를 설명할 수 있는 중심적인 추세를 찾는 것을 주요한 목적으로 한다. 따라서 이렇게 찾아낸 추세는 유용한 통찰을 제공하기 때문에 다양한 대상에 적용되고 있다.
어떤 관련성을 수학적인 관계로 표현했다는 점에서 모형은 현실의 추세를 간략히 대체적으로 표현한 것이다. 다만 이렇게 수학적으로 표현했을 때, 항상 현실을 제대로 묘사해내는 것은 아닌데, 현실 세계가 지나치게 복잡한 수준의 요인들로 구성되기 때문이다. 대개 모형을 통해 확인하려는 직관과 크게 관련이 없다면, 이들은 오차로서 간주된다. 다시 말해 모형은 추세와 오차로 구성된다.
회귀분석의 실행
다음과 같은 자료가 있다고 가정한다.
| 고객 번호 | 품질 | 가격 | 서비스 | 배송 | 쇼핑만족도 |
|---|---|---|---|---|---|
| 190105 | 7 | 7 | 1 | 4 | 4 |
| 190106 | 7 | 4 | 7 | 7 | 7 |
| 190107 | 4 | 4 | 3 | 3 | 6 |
| 190108 | 3 | 3 | 4 | 6 | 5 |
| 190109 | 6 | 4 | 7 | 4 | 6 |
이 자료에서 종속변수 $Y$ 를 쇼핑만족도로 두고, 이 종속변수 $Y$ 에 품질 $X_1$, 가격 $X_2$, 서비스 $X_3$, 배송 $X_4$가 영향을 미친다고 가정한다.
\[Y = \text{SomeModel}(X_1, X_2, X_3, X_4)\]1
2
3
4
5
6
7
anal <- lm(
# 독립변수들의 선형결합으로 종속변수를 설명하는 모형을 설정
formula = 쇼핑만족도 ~ 품질 + 가격 + 서비스 + 배송,
data = data
)
summary(anal)
Call:
lm(formula = 쇼핑만족도 ~ 품질 + 가격 + 서비스 + 배송, data = data)
Residuals:
Min 1Q Median 3Q Max
-3.1961 -0.4318 0.1002 0.7117 2.0134
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.39013 0.50495 2.753 0.007218 **
품질 0.40740 0.08659 4.705 9.75e-06 ***
가격 -0.09453 0.09324 -1.014 0.313523
서비스 0.29154 0.07847 3.715 0.000363 ***
배송 0.15679 0.08350 1.878 0.063871 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.005 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.034 on 85 degrees of freedom
Multiple R-squared: 0.5119, Adjusted R-squared: 0.4889
F-statistic: 22.29 on 4 and 85 DF, p-value: 1.312e-12