탐색적 데이터 분석 코스를 배워보자 : 탐색적 그래프 -1차원 정보 표현(출처: R내 swirl package)
#
# swirl()내 탐색적 데이터 분석(Exploratory Data Course)를 실행해보자.
#
#
library("swirl")
swirl()
탐색적 분석 과정의 두번째 섹션: 탐색적 그래프 - 1차원 정보 표현 방법들(요약)
head() # 데이터의 가장 위에서부터 데이터 항목을 O개 보여준다.
dim() # 데이터의 길이를 파악할 수 있다.
summary() # 특정 데이터에 대해 6가지 항목, 최소치, 25%값, 중간값, 평균값, 75% 값, 최대치를 보여준다.
quantile() # 데이터의 사분위수(quantile)를 보여준다.
boxplot() # R의 기본 함수로 데이터의 사분위로 표현하는 박스플롯 그래프를 보여준다.
abline() # 특정 값에 대해 직선을 그린다.
hist() # R의 기본 함수로, 데이터의 분포, 히스토그램을 보여준다.
rug() # 데이터 분포별 데이터 값들이 얼마나 분포해있는지 회색라인으로 보여준다.
names() # 데이터값의 헤더를 보여준다.
table() # 데이터값의 항목별 빈도수를 보여준다.
barplot() # 데이터의 1차원 빈도수를 그래프로 표현해준다.
탐색적 그래프(Exploratory Graphs)
탐색적 그래프는
- 데이터의 패턴 찾기
- 데이터의 특성 찾기
- 모델링 전략을 제안하기
- 분석 디버그 하기
등의 작업하는데 유용하다. 분석 결과를 소통하는 것은 탐색적 그래프와는 별도 작업이다.
탐험적 그래프를 보기 전 데이터의 형태를 파악하는데 아래의 함수 등이 쓰인다.
- head() # 데이터의 가장 위에서부터 데이터 항목을 O개 보여준다.
- dim() # 데이터의 길이를 파악할 수 있다.
pollution이란 데이터 항목이 576개 있으며, 데이터 항목별 세부 속성은 5개 있는 것을 알 수 있다.
- summary() # 특정 데이터에 대해 6가지 항목, 최소치, 25%값, 중간값, 평균값, 75% 값, 최대치를 보여준다. 데이터내의 항목은 '데이터$항목'으로 표기해주면 된다.
- quantile() # 데이터의 사분위수(quantile)를 보여준다. 평균값만 제외하고는 summary와 거의 유사한 결과값을 보여준다.
- boxplot() # R의 기본 함수로 데이터의 사분위로 표현하는 박스플롯 그래프를 보여준다.
예) boxplot(ppm, col="blue")로 나타난 그래프이다. 파란색 아래 부분이 25%, 가장 윗 부분이 75% 값을 나타낸다. 파란색내 줄은 중간값(median)을 나타낸다. 전체 값들의 중앙값이다. whisker는 R의 기본 값 1.5와 25%, 75% 상자 범위 범위를 기준 여기서는 2.8으로 그래프가 그려진다. whisker 박스 범위 밖의 데이터는 '아웃라이러' 값들이다.
- abline() # 특정 값에 대해 직선을 그린다.
예) abline(h=12) # 가로로 직선을 그린다. v로 하면 세로로 직선을 그린다.
- hist() # R의 기본 함수로, 데이터의 분포, 히스토그램을 보여준다.
예) hist(ppm, col="green") # 데이터 구간별로 데이터 분포량을 보여준다.
예) hist(ppm, col="green", breaks=100) # 100개의 항목으로 세부적으로 보여준다.
- rug() # 데이터 분포별 데이터 값들이 얼마나 분포해있는지 회색라인으로 보여준다.
예) rug(ppm) # 위 히스토그램 밑에 데이터 값들의 분포를 표시해준다.
- names() # 데이터값의 헤더를 보여준다.
- table() # 데이터값의 항목별 빈도수를 보여준다.
예) table(pollution$region)
- barplot() # 데이터의 1차원 빈도수를 그래프로 표현해준다.
예) barplot(reg, col="wheat", main="Number of Counties in Each Region") # wheat 색으로, 타이틀은 "Number of Counties in Each Region"을 표기한다.
(To be Continued in the next article)