Statistical Learning 챕터3: 선형회귀 수강노트(강의수강 진행 14%)

2019.03.04 17:46Data Science/Data Analytics

드디어 개요 부분을 지나 3장 선형 회귀 분야에 들어갑니다.
이번에도 두번째 강의수강노트 올리고, 2주 정도 흘렀군요.
먼저 3.1 내용을 요약 정리했습니다. 점점 양이 많아지는 듯하네요.


 

Ch3 선형 회귀

3.1 단순선형회귀

3.2 가설 검증 및 신뢰 구간

3.3 다중선형회귀

3.4 주요 질문들

3.5 선형모델 확장

3.R R에서의 선형회귀

(출처: Statistical Learning, Stanford Online Lagunita)


 

강의 내용 요약

선형회귀는 특정 값에 대한 예측을 선형식으로 표현한다. 복잡한 분석 기법을 이해하기 위해 개념을 잘 이해할 필요가 있다. 회귀분석 식은 RSS(잔차제곱합)을 최소로 하는 계수값들을 통해 구성하며, 계수값들의 정확도는 보통 계수에 대한 95% 신뢰구간을 통해 확인한다.




1. 선형회귀란?


선형회귀 모델은 아래 그래프에서 파란색 부분을 나타낸다.

빨간색은 실제 데이터의 분포지만, 선형 회귀로는 파란색 형태로만 나타낼 수 있다. 말그대로 직선 형태로 표현 가능한 식이다. 식으로는,

Y = β0 + β1X + ε

나타낸다여기서 β0은 절편(intercept), β1은 기울기(slope)라 하고, 2개를 합쳐 계수(coefficient) 또는 파라미터(parameter)라 한다.


예측한 값을 식으로 표현할때는 ‘^’(hat, )을 변수에 쓰면 예측한 값이다란 뜻이다. , 실제 데이터의 분포로 예측한 식을 표현할 때는 ‘^’을 써서,

yˆ1 = βˆ0 + βˆ1x

로 표현한다.

 

선형회귀는 심플하지만, 개념적으로 매우 중요하고, 실제 상황에도 많이 쓰이기 때문에 이해한다면 고난이도 분석 개념을 보다 이해하기 쉽다!

 

선형회귀 분석으로 아래와 같은 질문에 대해 답할 수 있다.

- 광고예산과 매출간에 서로 영향을 주나?

- 만약, 연관성이 있다면 그 정도는 얼마만큼이지?

- 얼마나 정확히 미래 매출을 예측할 수 있을까?

- 연관성이 선형인가?

- 여러 광고매체간에 시너지 효과가 있나?

 



2. 최소 제곱을 이용한 선형회귀식 계수(parameter) 구하기


수식으로 표현하면 복잡해보이지만, 원리는 간단한다. 예측한 값과 실제 값의 차이를 가장 적게 만드는 계수가 선형회귀에 쓰인다.


i번째 xi값에 대한 값이 yi 실제값이고, x^i 값에 대한 y^i 값이 예측값이다.


yi y^i 차이, 즉 실제값과 예측값과의 차이 ei의 값을 가장 작게 만드는 βˆ0 βˆ1를 구하면 된다. 실제값과 예측값 차이가 음수가 나올 수 있으므로, 여기에 제곱을 한 뒤, 모든 오차 제곱값을 더하면 이를 RSS(Residual sum of squares, 잔차 제곱합)라 한다.

RSS = e1^2 + e2^2 + … + en^2


이를 좀 더 풀어쓰면,

RSS = (y1βˆ0βˆ1x1)^2+(y2βˆ0βˆ1x2)^2+. . .+(ynβˆ0βˆ1xn)^2


RSS를 최소화 하는 값, 예를 들면 0이라 놓고 계산하면 계수값을 구할 수 있다. 식으로,


여기서 x작대기 및 y작대기는 x평균값, y평균값이다. R에서 쉽게 구할 수 있다.




3. y 절편값 βˆ0와 기울기 βˆ1을 구했는데, 정확도는 어떻게 평가할까?


데이터 샘플을 반복적으로 했을 때, βˆ0βˆ1 값의 정확도는



으로 표준오차(Standard Error, SE)로 나타낼 수 있다. 여기서 σ^2 은 잔차 ε 의 분산, Var(ε)이다βˆ,  기울기 값의 표준오차가 위의 식으로 보면, x가 넓게 분포할수록(분모값) 표준오차가 작아진다는 걸 알 수 있다.


이 표준오차(SE)를 통해 기울기 및 절편값에 대한 신뢰구간을 계산할 수 있다.

기울기의 95% 신뢰구간은

βˆ1 ± 2 · SE(βˆ1).

이다. , 위 신뢰구간은 95%확률로 실제값 βˆ1을 포함한다고 볼 수 있다. 다시 표현하면,

[ βˆ1 2 · SE(βˆ1),    βˆ1 + 2 · SE(βˆ1) ]

의 구간에 95% 확률로 실제값 βˆ1이 포함된다.


랜덤성은 실제값 βˆ1에 적용되는게 아니라, 구간에 적용된다는 점을 기억해야 한다데이터 샘플링이 각각 다를텐데, 그때마다 구해지는 βˆ1에 위 2SE 범위내의 값들 중에 실제 βˆ1가 포함될 확률이 95%란 말이다. 참고로, 95%란 통상 적용되는 수치이다.




강의수강 진행현황: 14%