탐색적 데이터 분석 코스를 배워보자 : 탐색적 그래프 -1차원 정보 표현(출처: R내 swirl package)

2020. 2. 1. 23:48Data Science/Data Analytics

#

# swirl()내 탐색적 데이터 분석(Exploratory Data Course)를 실행해보자.

# 

 

library("swirl")

swirl()

 

탐색적 분석 과정의 두번째 섹션: 탐색적 그래프 - 1차원 정보 표현 방법들(요약)
head()  # 데이터의 가장 위에서부터 데이터 항목을 O개 보여준다.
dim()  # 데이터의 길이를 파악할 수 있다.
summary()  # 특정 데이터에 대해 6가지 항목, 최소치, 25%값, 중간값, 평균값, 75% 값, 최대치를 보여준다. 
quantile()  # 데이터의 사분위수(quantile)를 보여준다. 
boxplot() # R의 기본 함수로 데이터의 사분위로 표현하는 박스플롯 그래프를 보여준다.
abline() # 특정 값에 대해 직선을 그린다.
hist() # R의 기본 함수로, 데이터의 분포, 히스토그램을 보여준다.
rug() # 데이터 분포별 데이터 값들이 얼마나 분포해있는지 회색라인으로 보여준다.
names() # 데이터값의 헤더를 보여준다.
table() # 데이터값의 항목별 빈도수를 보여준다. 
barplot() # 데이터의 1차원 빈도수를 그래프로 표현해준다.

 

탐색적 그래프(Exploratory Graphs)

탐색적 그래프는 

  • 데이터의 패턴 찾기
  • 데이터의 특성 찾기
  • 모델링 전략을 제안하기 
  • 분석 디버그 하기 

등의 작업하는데 유용하다. 분석 결과를 소통하는 것은 탐색적 그래프와는 별도 작업이다.

 

탐험적 그래프를 보기 전 데이터의 형태를 파악하는데 아래의 함수 등이 쓰인다.

 

 

 

  • head() # 데이터의 가장 위에서부터 데이터 항목을 O개 보여준다.

 

 

 

  • dim()  # 데이터의 길이를 파악할 수 있다.

pollution이란 데이터 항목이 576개 있으며, 데이터 항목별 세부 속성은 5개 있는 것을 알 수 있다.

 

 

 

  • summary() # 특정 데이터에 대해 6가지 항목, 최소치, 25%값, 중간값, 평균값, 75% 값, 최대치를 보여준다. 데이터내의 항목은 '데이터$항목'으로 표기해주면 된다.

 

 

 

  • quantile() # 데이터의 사분위수(quantile)를 보여준다. 평균값만 제외하고는 summary와 거의 유사한 결과값을 보여준다.

 

 

  • boxplot() # R의 기본 함수로 데이터의 사분위로 표현하는 박스플롯 그래프를 보여준다. 

예) boxplot(ppm, col="blue")로 나타난 그래프이다. 파란색 아래 부분이 25%, 가장 윗 부분이 75% 값을 나타낸다. 파란색내 줄은 중간값(median)을 나타낸다. 전체 값들의 중앙값이다. whisker는 R의 기본 값 1.5와 25%, 75% 상자 범위 범위를 기준 여기서는 2.8으로 그래프가 그려진다. whisker 박스 범위 밖의 데이터는 '아웃라이러' 값들이다.

 

 

  • abline() # 특정 값에 대해 직선을 그린다.

예) abline(h=12) # 가로로 직선을 그린다. v로 하면 세로로 직선을 그린다.

 

 

  • hist() # R의 기본 함수로, 데이터의 분포, 히스토그램을 보여준다.

예) hist(ppm, col="green") # 데이터 구간별로 데이터 분포량을 보여준다. 

예) hist(ppm, col="green", breaks=100) # 100개의 항목으로 세부적으로 보여준다.

 

 

  • rug() # 데이터 분포별 데이터 값들이 얼마나 분포해있는지 회색라인으로 보여준다.

예) rug(ppm) # 위 히스토그램 밑에 데이터 값들의 분포를 표시해준다.

 

  • names() # 데이터값의 헤더를 보여준다.

 

 

  • table() # 데이터값의 항목별 빈도수를 보여준다.

예) table(pollution$region)

 

 

  • barplot() # 데이터의 1차원 빈도수를 그래프로 표현해준다.

예) barplot(reg, col="wheat", main="Number of Counties in Each Region") # wheat 색으로, 타이틀은 "Number of Counties in Each Region"을 표기한다.

 

 

(To be Continued in the next article)