R의 기본 플로팅 시스템에 대해 좀 더 자세히 알아보자- plot, boxplot (출처: R내 swirl package)

2020. 2. 5. 02:23Data Science/Data Analytics

#

# swirl()내 탐색적 데이터 분석(Exploratory Data Course)를 실행해보자.

# 

 

library("swirl")

swirl()

 

Exploratory Graphs 과정에서 5번 플로팅 시스템(5. Base Plotting System)을 선택한다.

 

 

 

탐색적 분석 과정의 다섯번째 섹션: 기본 플로팅 시스템 - plot, hist, boxplot(요약)
기본 플로팅 함수는 단계별로 기본함수(plot, hist, boxplot 등)를 그리고, 추가 작업(text, abline, points)을 그래프에 더해 보고자 하는 그래프를 완성한다.
  • 기본 플로팅 시스템은 크게 'graphics' 패키지, 'grDevices' 패키지가 있다.
  • 'graphics' 패키지에는, plot, hist, boxplot, barplot 등의 플로팅 함수가 있다.
  • 'grDevices' 패키지에는, X11, PDF, PostScript, PNG 등 다양한 모든 코드로 추가한 함수가 있다.
  • 기본 플로팅 함수는 단계별로 기본함수(plot, hist, boxplot 등)를 그리고, 추가 작업(text, abline, points)을 그래프에 더해 보고자 하는 그래프를 완성한다.
  • 그래프를 그리기 전에,
    - 데이터의 많고 적음 여부
    - 그래프를 다이나믹하게 크기 변경이 필요한지 여부 등
    을 고려한다.

 

 

  • 'grpahics' 패키지에 대한 기본 그래프 그리기 작업

airquality 데이터를 통해, 기본 플로팅 함수를 그려보자. airquality 데이터는 1973년 뉴욕의 5개월간 오존 등 공기에 관한 데이터 항목을 측정한 결과이다.

 

table(airquality$Month) #Month값에 대해 각 값에 대한 빈도수를 보여준다. 

  5  6  7   8   9 
31 30 31 31 30 

 

5월부터 9월까지의 데이터란 걸 알 수 있다.

 

 

head(airquality) # airquality의 데이터 헤더 구조를 살펴본다.

총 6개의 항목에 대한 데이터값들이 있다.

 

 

range(airquality$Ozone, na.rm = TRUE) # ozone항목의 결측치를 제외한 범위를 보여준다.

[1]    1    168

 

총 168개의 값들이 있다. 이 값들에 대해 hist을 통해 분포를 알아보자.

 

 

hist(airquality$Ozone) # Ozone의 분포를 보여준다. 제목 및 축값들은 R에서 자동으로 초기 생성한다.

 

boxplot(Ozone ~ Month, airquality) #airquality 데이터의 Ozone에 대한 Month값을 보여준다. 타이틀을 자동 생성하지 않는다.

boxplot(Ozone ~ Month, airquality, xlab="Month", ylab ="Ozone (ppb)", col.axis = "blue", col.lab = "red") # x축명, y축명, 축색깔, 레이블색을 지정한다.

 

title(main="Ozone and Wind in New York City") # 타이틀 제목을 추가한다.

 

(To Be Continued)