탐색적 데이터 분석 코스를 배워보자 : 분석적 그래프의 기본 원칙(출처: R내 swirl package)

2020. 1. 31. 01:25Data Science/Data Analytics

#

# swirl()내 탐색적 데이터 분석(Exploratory Data Course)를 실행해보자.

# jpeg 나 ggplot2 패키지가 안깔려있으면 함께 설치해준다.

# 

 

install.packages("jpeg")

install.ggplot2("ggplot2")

 

library("swirl")

swirl()

 

탐색적 분석 과정의 첫번째 섹션: 분석적 그래프의 기본 원칙(요약)
1. 첫번째 원칙: 비교하기
2. 두번째 원칙: 데이터 비교 결과에 대한 메커니즘을 보여준다.
3. 세번째 원칙: 다변수(multivariate)를 그래프로 보여준다.
4. 네번째 원칙: "증거(evidence)"를 다양한 방법(글, 숫자, 도형 등)으로 표현한다.
5. 다섯번째 원칙: "증거(evidence)"에 대한 출처, 적절한 레이블 및 스케일(등급)을 표현해준다.
6. 분석적 그래프의 여섯번째 원칙: 콘텐츠가 왕이다!

 

 

탐색적 분석 과정: 설치

 

총 4개의 과정을 공부할 수 있는데, 여기서는 탐색적 분석에 대해 먼저 살펴보겠다.

"4번" 과정 탐색적 분석 과정(Exploratory Data Analysis, EDA 이하 EDA로 표기)을 선택해서 설치해준다.

 

탐색적 분석 과정: 1번 분석용 그래프의 기본 원칙(Principles of Analytic Graphs)

 

과정이 성공적으로 설치되고 나면 EDA에서 배울 수 있는 항목들이 있다. 총 15개가 있는데 차례 차례 실행해서 배워보자. 1번 분석용 그래프의 기본 원칙(Principles of Analytic Graphs)을 선택하자. "jpeg"나 "ggplot2"패키지가 설치안되면 진행이 안되니 함께 설치한다. 참고로 해당 Edward Tufte's great 2006 book, "Beautiful Evidence"(www.edwardtufte.com)를 참조했다고 한다.

 

 

1. 분석적 그래프의 첫번째 원칙: 비교하기

이 그래프는 천식이 걸린 아이들이 공기청청기를 사용했을 때 증상이 얼마동안 없는 지 있는지를 박스플롯 형태로 비교해서 보여준다. X축 왼쪽 "control"이라고 쓰여있는 그룹이 공기청정기를 사용하지 않는 컨트롤 그룹이며, 오른쪽 "Air cleaner"가 공기청정기를 사용하는 그룹이다.

 

※ 박스플롯은 해당 데이터에 대해 0%, 25%, 50%, 75%의 그룹군을 쉽게 파악할 수 있게 보여준다. 예를 들어 "Control" 그룹의 데이터를 보면 "중간값(median)"은 대략 0에 가까운 값이라고 볼 수 있다.

 

여기서 간략히 비교하면, 공기청정기를 사용한 아이들 그룹이 그렇지 않은 아이들에 비해, 천식 증상이 없는 기간이 길다는 것을 알 수 있다.

 

2. 분석적 그래프의 두번째 원칙: 데이터 비교 결과에 대한 메커니즘을 보여준다.

왜 그럼, 공기청정기를 사용한 아이들 그룹에서 증상이 없는 기간이 길어진걸까? 이에 대해 설명할 수 있는 자료를 그래프로 보여준다. 아래 2개 그래프를 보면 PM2.5(입자가 2.5마이크로미터)입자가 공기청정기를 사용한 환경에서 줄어든 것을 볼 수 있다. 즉, 증상이 없는 이유로써, 공기청정기 사용으로 인해 오염물질이 줄어들고, 이는 천식이 있는 아이들의 천식 증상이 발현되지 않는 데 영향을 끼쳤다고 볼 수 있다. 

 

3. 분석적 그래프의 세번째 원칙: 다변수(multivariate)를 그래프로 보여준다.

다변수는 간단히 말하면 2개이상의 항목에 대한 값들을 말한다. 여기 아래 "Simpson 파라독스"를 보여주는 다면량 그래프를 보자. "Simpson 파라독스"란 데이터간의 어떤 관계가 다른 데이터와의 결합으로 인해 그 관계성이 없어지는 현상을 말한다. 아래 그름을 보면, 오염물질이 증가하는 데, 일간 사망자 수는 오히려 감소하는 것을 알 수 있다. 이것은 상식적으로 말이 안되다.

위 그래프에 있는 데이터들을 4개의 계절별로 쪼개서 보면, 계절별 오염물질이 증가함에 따라 일간 사망자 수도 증가하는 것을 알 수 있다.

 

4. 분석적 그래프의 네번째 원칙: "증거(evidence)"를 다양한 방법(글, 숫자, 도형 등)으로 표현한다.

아래 그래프는 오염물질이 증가에 따른 입원(hospitalization)에 관한 글이다. 여기서 오염물질과 입원기간과의 관계뿐만 아니라, 오른쪽 컬럼의 Posterior 확률을 보여줌으로써, 증거가 얼마나 효과적인지 함께 표현해준다. 여기서 포인트는 분석용 그래프를 보여줄 때 이를 설명하는 메커니즘에 대한 "증거"를 함께 표현했다는 것이다.

 

5. 분석적 그래프의 다섯번째 원칙: "증거(evidence)"에 대한 출처, 적절한 레이블 및 스케일(등급)을 표현해준다.

분석한 그래프 결과에 대해 수집한 증거에 대해 출처 및 관련 설명을 명시해준다.

 

 

6. 분석적 그래프의 여섯번째 원칙: 콘텐츠가 왕이다!

분석한 결과에 대해 의미가 있는 것을 표현할 필요가 있다. 그래프가 내포한 의미, 관련성, 정확성 등을 명확히 전달할 필요가 있다!

 

 

 

(To be Continued in the next article)