Statistical Learning 챕터1: 입문 강의 수강노트(강의수강 진행: 3%)

2019. 1. 25. 16:20Data Science/Data Analytics

강의 내용 설명에 앞서 이 내용을 게재 및 다시 공부하게 된 이유는,

데이터 분석에 대해 제대로 공부하지도 않고 못했던 점들이 항상 걸렸기 때문이다.

이에, 기본부터 다시 시작하려고 한다.

궁금한 점이 있으면 댓글로 달아주시면 아는 범위 내에서 답변 및 공유드리겠다.

강의 내용을 적절히 재구성 및 요약한 점을 밝힌다. 


스탠포드 Statistical Learning 첫번째 챕터 내용이다.



챕터1 소개

1.1 오프닝 인사

1.2 예제 및 프레임워크

(출처: Statistical Learning, Stanford Online Lagunita)



한줄요약

Statistical Learning 정의부터, Statistical Learning을 통해 수행가능한 것들, 지도학습 및 비지도학습에 대한 개요, 분석을 대하는 자세에 대해 설명한다.




1. Statistial Learning은 무엇일까?


이 강의를 제공하는 2명의 교수님(Trevor Hastie, Robert Tibshirani)에 의하면, 

Statistical Learning은 통계학에서 시작된 분야로, 2명의 교수님과 관련 학생들이 함께 개발한 영역으로 머신러닝과 유사한 분야로 볼 수 있다.

머신러닝이 인공지능에서 시작됐다면, 통계적 학습 분야는 통계(Statistics)에서 발전한 분야인 점이 차이점이며, 그 구분은 점점 엷어지고 있다.


특징으로,

머신러닝은 보다 큰 규모 및 예측 정확도를 강조한다면,

통계적 학습은 모델 및 모델의 상호운용성, 정확도, 불확실성 등이 강조된다.




2. 통계적 학습(Statistical Learning)을 통해 할 수 있는게 무엇일까?


강의에서 소개한 예시는,

- 전립선암 위험요인 파악하기

- 로그 주기도 값 기반 음소(phoneme)값 구분하기

- 인구, 식습관, 의학정보를 토대로 심장마비가 걸릴 확률 예측하기

- 스팸 탐지 시스템 구성하기

- 수기로 작성한 우편번호 구분하기

- 유전자 발현 프로파일을 토대로, 여러가지 암에 대응하는 티슈 샘플 구분하기

- 인구통계 설문 데이터의 인구학 정보와 연봉과의 상관관계 파악하기

- LANDSAT 이미지의 픽셀을 사용에 따라 구분하여 실제 이미지 파악하기

이다.




3. 지도학습과 비지도학습


● 지도학습


지도학습(Supervised Learning)은 명확한 Y란 목표 변수가 있다. Y를 종속변수, 또는 반응(response) 변수 라고 불릴 수 있겠다.


Y는 X라는 여러 변수에 의해 영향을 받는데, 여기서 X를 독립변수라 한다. X는 인풋, 리그레서(regressor), 공변량(covariates), 피처(features)라고도 한다. 


보통, 분석에서 많이 얘기하는 회귀분석(regression analysis)이 Y = X1 + X2 + X3 + ... + e 형식으로 나타내진다. 여기서 Y는 양적(quantitative)인 값을 갖는다. 가격이나, 혈압 같이 숫자로 표기 가능하는한 값을 말한다.


또는 Y가 특정 분류값을 갖는 분류분석(classification analysis)에서 Y는 0 또는 1, 0~9값, 암 그룹, 생존 또는 사망) 등으로 나타난다. 


실제로 관측되는 여러가지 데이터는, (x1, y2), ... , (xn, yn)으로 나타나는데 이 값들이 실제 발생하는 관측값들이다. 이 관측값들을 토대로, Y값을 예측하는 모델을 구성하고, 이는 지도학습을 통해 가능하다.


지도학습을 통해, 예측을 하는 것도 중요하지만, 실제 분석 인풋값들이 목표값에 어떤 영향을 주는지 파악하는 것도 주요 활용 목적이다.



● 비지도학습


비지도학습에서는 목표값 Y가 없고, 여러가지 샘플값을 통해 구성 가능한 피처값들만 있다.

따라서, 지도 학습에 비해 목표가 명확하지가 않다.

비지도 학습을 통해서,

- 유사한 행동을 한 데이터 값들끼리 그룹화 하기

- 유사한 행동을 보인 특징값들 확인하기

- 변동성 있는 변수간 상관관계 파악하기

등을 할 수 있다.


보통, 비지도학습은 목표가 불명확해 분석을 얼마나 잘하고 있는지 파악하기 어렵다.


단, 비지도학습은 특징들을 파악하기에 유용하기에 지도학습을 수행하기 전 사전 단계로 수행하기도 한다.




4. 활용 예시


Statistical Learning에서 주요 예시로 얘기한 것은 넷플릭스(netflix)다.


Netflix는 2006년 본인들이 알고리즘을 통해 확인한 0.953 RMSE(Root Mean Square Error, 평균제곱근오차) 값을 10% 향상시키는 팀에게 1백만 달러를 제공하겠다는 분석 대회를 열었다. 약 3년의 시간 동안 전세계 팀에서 대회에 참가 했고, 2009년 BellKor's Pragmatic Chaos팀이 10.06% 향상으로 우승을 차지했다. The Ensemble 팀도 10.06% 향상을 시켰지만, 보다 빨리 제출한 BellKor팀에게 우승이 돌아갔다.


참고로, 넷플릭스 분석 문제는 확실한 예측변수(predictors)가 정해지지 않고, 목표값(response)은 정해져있기에 비지도학습에 가깝다. 지도학습 문제는 확실한 예측변수와 목표값이 정의되어져 있다.


(스탠포드 교수님들도 대학원 학생들과 초기 참가했는데, 당시 너무 큰 데이터를 분석하는데 시간이 수개월 이상 소요되는 등 대학원 학생들의 미래를 위해서라도 참가 도중 포기했다는 사연이...)




5. 참고사항


이 강의는 2013년 출간한 "An Introduction to Statistical Learning"에 대해 다루며,

종종 보다 깊은 내용은 "The Elements of Statistical Learning"에서 참고할 것이다.




Statistical Learning을 통해 분석시 어떤 기법이 왜 쓰이는지 이해가 필요하다.

분석할 때는 가장 기본적인 것을 통해 시작하여, 그에 적합한 기법을 써야 한다.

그리고 그 기법이 얼마나 성능이 좋은지 확인해야 한다.

Statistical Learning에 대해 학습하는 것은 데이터 사이언티스가 되기 위한 기본이다.




강의수강 진행현황: 3%