2019. 3. 5. 19:55ㆍData Science/Data Analytics
계속해서 3장 선형 회귀 분야입니다.
앞으로 여유시간이 많지 않을거 같은데… 끝까지 달려보겠습니다.
3.2 내용을 요약 및 제가 아는 부분을 포함해 정리했습니다. 이번 강의내용은 저에게 큰 의미가 있는 내용입니다.
Ch3 선형 회귀
3.1 단순선형회귀
3.2 가설 검증 및 신뢰 구간
3.3 다중선형회귀
3.4 주요 질문들
3.5 선형모델 확장
3.R R에서의 선형회귀
(출처: Statistical Learning, Stanford Online Lagunita)
강의 내용 요약
가설검증을 통해 계수에 대해 통계적으로 적합(유의)한지 판단할 수 있다. 이를 위해, 계수에 대한 신뢰구간이나, t 검정통계량에 대한 p값을 통해 계수가 적합한지 판단한다. 회귀 모델 자체에 대해서는 RSE(잔차표준오차)나, R^2 값을 이용해 정확도를 판단할 수 있다. R^2는 변수간의 상관계수와 비례함을 알 수 있다.
1. 가설 검증이란?
가설 검증(Hypothesis testing)을 통해서도 계수(기울기, 절편)에 대한 검증을 할 수 있다. 가설검증이란, 말그대로 가설에 대한 검증이다. 예를 들면, ‘XX은 OO이다’란 가설을 세우고, 통계치에 의해 이 가설을 받아들일지 아니면 안 받아들일지 판단하는 것이다. 전문 통계용어로 받아들이는 것을 채택(accept), 안 받아들이는 것을 기각(reject)한다고 한다.
일반적으로,
Ho을 귀무가설, 또는 영가설(Null Hypothesis)라고 하고, HA을 대립, 또는 대안가설(Alternative hypothesis)라고 한다. 대학교 시절, 응용통계를 배울 때 여기가 가장 이해가 안됐다. 이제 좀 커서 그런가? 아니면 계속 집요하게 이 분야를 건드려서 그런가? 이제 좀 이해가 되려고 한다.
영가설, 귀무가설이라 칭하는 이유는 실제로는 그러한 가능성이 희박한, 그렇지만 완전히 불가능하지 않는 일에 대해 가설을 세우기 때문에 명칭을 이렇게 정한거다. 즉, 가설을 하기 전에 이미 ‘이건 발생 가능성이 희박해’란 전제가 담긴 것이다. 하지만, 전체 자체가 완전히 불가능하지 않기에, 데이터 샘플에 대한 기준(통계용어로, 검정통계량…)을 갖고 이 가설을 채택하거나 기각하는 것이다.
영(귀무)가설을 기각한다고 표현한다는 것 자체에 주목할 필요가 있다. 기각이란 단어는 버린다는 것이지, 이 가설이 틀리다 옳다란 의미가 아니다. 즉, 가지고 있는 데이터 샘플에 따라 이 가설은 통계 분석에 적절한 범위에 있거나, 아닐 수 있다는 의미이지 맞고 틀림을 판단하는 것이 아니란 의미이다.
강의에 나온 예로,
H0 : X와 Y는 관계가 없다. 즉, 기울기는 0이다.
HA : X와 Y는 상관 관계에 있다. 즉 기울기는 0이 아니다.
식으로는,
으로 표현한다.
예를 들어 X는 TV 광고예산, Y는 매출인데, X와 Y가 서로 관계가 없는 것은 거의 희박한 확률로 존재한다. 이를 영가설, 기각 대상으로 놓고 이에 대한 검증을 한다. 여기서 검증은,
으로 계산하는데, t는 일반적으로 n-2의 자유도(총 샘플수에서 2개를 뺀 숫자)를 갖는다고 보며, β1=0으로, t분포를 따른다고 가정한다. t분포는 샘플 수가 적은 정규분포에 대해 평균을 검증할 때 쓰인다.
구해진 |t| 값 이상(검정통계량)이 나올 확률을 p값이라 한다. 일반적으로, p값의 기준은 0.05으로 보며, 0.05보다 작다는 의미는 영가설이 발생할 확률이 매우 희박하다는 걸 통계적으로 증명하는 것이다. 결과적으로, 0.05보다 작은 t값에 대한 p값이 확인되면, 영가설을 기각할 수 있다.
기울기에 대해 살펴봤기 때문에, 2번째 줄 TV에 대한 통계치를 보면, 계수는 0.0475, 표준오차는 0.0027 이며, 이를 이용해 구한 t 검정량이 17.67이다. 이러한 검정량에 대한 확률 p값은 0.05보다 훨씬 작은 수준이다. 즉, 영가설을 기각하고, 대안가설인 X와 Y는 관계가 있다는 가설을 채택한다.
2. 전체 모델에 대한 검증은?
1) 잔차표준오차
자, 그럼 지금까지는 계수(기울기)에 대한 검증을 했는데, 전체 모델(Y = β0 + β1 x X + ε)에 대한 검증은 어떻게 할까? 이를 위한 방법에는 잔차표준오차(RSE, Residual Standard Error)가 있다. 전체 식에 대한 평균오류를 구하는 방법이다.
여기서 RSS는 예측값과 실제값과의 차를 제곱하여 모두 합한 값이다. 식으로는,
이다.
2) R^2란
R^2은 구해진 모델식이 실제값들의 분산을 얼마나 잘 표현했느냐를 보여준다. 즉, 1에 가까울 수록 구한 수식은 실제값들의 분산을 거의 비슷하게 표현하며, 0에 가까울수록 식은 실제값들의 분산(분포)를 표현하지 못한다고 볼 수 있다. R^2은 아래와 같이 구한다.
여기서 RSS는 위 식에 나와있고, TSS(Total sum of squares)는,
이다. 즉, TSS는 실제값에서 y 평균값을 뺀 값들 제곱을 모두 합한 값이다. TSS는 RSS보다 항상 크다.
한가지 재미난(?!) 사실은 R^2 = r^2 값과 같은데, 여기서 r은 X와 Y의 상관정도, 기울기 값이다. 이는 수식으로 아래와 같이 표현된다.
위 식들에 대한 증명은… 예전에 배운게 있는데 보게 되면 차후….. 정리해보겠다.
위 예제에서 R^2의 값이 61%면 매우 높은 값으로 볼 수 있는데, 보통 금융이나 비즈니스 분야에서 볼 수 있다. 의료분야에서는 5%만 높아도 매우 높은 수치로 볼 수 있다고 한다. 즉, R^2값은 분석을 수행하는 산업에 따라 판단을 달리해야 한다. F값에 대해서는 추후 배울 수 있다.
강의수강 진행현황: 16%