탐색적 데이터 분석 코스를 배워보자 : 탐색적 그래프 -2차원 정보 표현(출처: R내 swirl package)

2020. 2. 2. 18:23Data Science/Data Analytics

#

# swirl()내 탐색적 데이터 분석(Exploratory Data Course)를 실행해보자.

# 

 

library("swirl")

swirl()

 

탐색적 분석 과정의 두번째 섹션: 탐색적 그래프 - 2차원 정보 표현 방법들(요약)
boxplot() # 2개 데이터 항목에 대해 boxplot 형태를 보여준다.
par() # r에서 그래프를 보여주는 레이아웃을 정한다. 예를 들어 그래프 레이아웃과 그래프 아래, 왼쪽, 위, 오른쪽 순으로 마진 크기을 정한다.
subset() # 데이터 프레임, 벡터, 또는 메트릭스에서 원하는 데이터를 추출한다. 
with() # 데이터 항목을 메모리 상에 로딩한다.
plot() # x, y 형태로 그래프 점으로 표현한다.

 

 

  • boxplot() # 2개 데이터 항목에 대해 boxplot 형태를 보여준다.

예) boxplot(pm5 ~ region, data = pollution, col="red") # 데이터 pollution에서 pm5에 대해 region이 어떤 영향을 미치는지, 박스플롯 형태로 보여준다. 박스색은 빨간색이다.

 

  • par() # r에서 그래프를 보여주는 레이아웃을 정한다. 예를 들어그래프 레이아웃과 그래프 아래, 왼쪽, 위, 오른쪽 순으로 마진 크기을 정한다.

예1) par((mfrow=c(2, 1), mar=c(2, 1, 1, 1)) # 2개의 그래프를 한 열에 보여주고, 아래 라인 2, 왼쪽 1, 위 1, 오른쪽 1 형태로 마진을 정한다.

 

예2) latitudepar(mfrow=c(1, 2), mar = c(5, 4, 2, 1)) # 2r개의 그래프를 한 행에 보여주고, 아래 라인 5, 왼쪽 4, 위 2, 오른쪽 1 형태로 마진을 정한다.

 

 

  • subset() # 데이터 프레임, 벡터, 또는 메트릭스에서 원하는 데이터를 추출한다. 

 예) subset(pollution, region == "east")  #pollution이란 데이터에서 region 값이 east에 대해 추출한다.

 

 

  • with() # 데이터 항목을 메모리 상에 로딩한다.

예) with(pollution, plot(latitude, pm25)) # pollution이란 데이터를 로딩하고, 그 안에 있는 latitude와 pm25를 그래프화한다.

 

 

  • plot() # x, y 형태로 그래프 점으로 표현한다.

예1) plot(pollution$latitude, pollution$pm25) # latitude와 pm25를 그래프로 표현한다.

예2) plot(pollution$latitude, ppm, col = pollution$region)  # latitude(위도)가 ppm에 어떤 관계가 있는지 보여주고, 지역(region)에 대해서는 색깔로 구분해서 표시한다.

예3) par(mfrow = c(1, 2), mar=c(5, 4, 2 1) # 1행에 2개의 그래프를 그리도록 세팅.

      plot(west$latitude, west$pm25, main = "West")  # West 지역 데이터의 위도와 pm25간의 관계를 점을 쩍어준다.

       plot(east$latitude, east$pm25, main = "East")  # Eest 지역 데이터의 위도와 pm25간의 관계를 점을 쩍어준다.