Statistical Learning 온라인 강의 및 커리큘럼 소개(강의수강 진행: 0%)

2019. 1. 25. 00:16Data Science/Data Analytics


'통계 학습을 위한 핵심요소', '통계 학습 입문', '데이터 분석 역량 핵심요소' 원서 소개글에서 언급한 원서에 대해 이제 차례차례 공부해보고자 한다.


원서 "2. "An Introduction to Statistical Learning with Applications in R(R 기반 애플리케이션과 함께하는 통계 학습 입문)"부터 차례대로 하고자 한다.


이 원서를 번역하면서 하나씩 차례로 익히면 좋겠지만 시간이 많이 소요된다. 그래서 좀 검색해보니 미국 스탠포트 대학에서 무료로 제공하는 온라인 강의가 이 자료의 전체를 커버한다는 사실을 발견했다.




StatLearning 이란 코스로 자기 페이스(Self-Pace)에 맞춰 강의 학습이 가능하다.


실제 위 원서 책을 저술한 교수님들(Trevor Hastie, Robert Tibshirani 스탠포드 통계학 교수)이 구성한 강의로, 이 책 내용 전반을 다룬다고 하니 온라인 강의로 공부하는게 완전 독학보다는 더 와닿고 도움이 될거라 생각한다. 강의는 영어 또는 스페인어로 제공되며, 한번 학습 신청해두면 최소 2020년 12월 3일까지는 온라인에 아카이빙 형태로 보존될 예정이라고 한다.


2014년에 궁금해서 신청해뒀는데, 그때 당시는 회사 및 연애 등으로 끝까지 수료하지 못했고 이번엔 최종까지 학습할 예정이다. 원서 대신에 이 온라인 무료 강의 토대로 공부를 진행하고자 한다. Thanks to Stanford faculty!


온라인 강의 커리큘럼을 정리해보면, 총 10개 챕터와 60개 서브 챕터로 나뉜다.

가능한 평일 시간이 허락하는한 2~3개 정도씩 공부한 내용을 정리해서 올리고자 한다.


아래는 온라인 강의 코스 커리큘럼(번역본)이다.


Ch1 입문

1.1 오프닝 인사말

1.2 예재 및 프레임워크


Ch2 통계적 학습 개요

2.1 회귀분석 입문 

2.2 차원 및 구조적 모델(structured models) 

2.3 모델 선정 및 편향-분산 트레이드오프 

2.4 분류분석

2.R R 소개 

존 챔버와의 인터뷰


Ch3 선형 회귀

3.1 단순선형회귀 

3.2 가설 검증 및 신뢰 구간

3.3 다중선형회귀

3.4 주요 질문들 

3.5 선형모델 확장 

3.R R에서의 선형회귀


Ch4 분류

4.1 분류분석 문제 입문

4.2 로지스틱 회귀 

4.3 다중 로지스틱 회귀 

4.4 로지스틱 회귀분석 - 사례통제 샘플링 및 다계층 

4.5 판별 분석 

4.6 가우시안 판별분석 - 단일 변수 

4.7 가우시안 판별분석 - 다중 변수 

4.8 2차 판별분석 및 나이브 베이즈 

4.R R에서의 분류 


Ch5 리샘플링 및 절차

브래드 애프론(Brad Efron)과의 인터뷰

5.1 교차 검증

5.2 K-겹 교차 검증 

5.3 교차 검증: 잘못되고 올바른 방법 

5.4 부트스트랩

5.5 부트스트랩 심화 

5.R R에서의 리샘플링


Ch6 선형 선형 모델 선정 및 일반화

통계학과 대학원생들 인터뷰

6.1 개요 및 베스트 서브세트 선정 

6.2 단계별 선택법 

6.3 후진 단계별 선택법 

6.4 테스트 오차 추정

6.5 검증 및 상호 검증

6.6 수축(shrinkage)법 및 릿지 회귀 

6.7 라소 

6.8 매개변수 선택법

6.9 차원 감소법 

6.10 주성분 회귀 및 부분 최소 제곱 

6.R. R에서의 모델 선정법 


Ch7 선형성에서 더 나아가기

7.1 다항식 및 계단함수 

7.2 단계적 다항식 및 스플라인 

7.3 스플라인 자연스럽게 연결하기

7.4 일반화가법모델 및 국소회귀(local regression) 

7.R R에서의 비선형 함수들 


Ch8 트리 기반 방법

제롬 프라이먼(Jerome Friedman)과의 인터뷰

8.1 트리 기반 방법 

8.2 트리 심화 

8.3 분류 트리 

8.4 배깅(bagging) 및 랜덤포레스트 

8.5 부스팅(boosting) 

8.R R에서의 트리 기반 방법들 


Ch9 서포트 벡터 머신(Supoort Vector Machine)

9.1 최적의 초평면(hyperplanes) 구분법 

9.2 서포트 벡터 분류법 

9.3 피처(feature) 확장 및 SVM 

9.4 예제 및 로지스틱 회귀와 비교 

9.R R에서의 SVM


Ch10 비지도학습

10.1 주성분 

10.2 고차원 주성분 

10.3 K-평균 군집화 

10.4 계층적 군집화 

10.5 유방암 예제 

10.R R에서의 비지도학습


출처: Statistical Learning, Stanford Online Lagunita



강의수강 진행현황: 0%