2020. 2. 5. 02:23ㆍData Science/Data Analytics
#
# swirl()내 탐색적 데이터 분석(Exploratory Data Course)를 실행해보자.
#
#
library("swirl")
swirl()
Exploratory Graphs 과정에서 5번 플로팅 시스템(5. Base Plotting System)을 선택한다.
탐색적 분석 과정의 다섯번째 섹션: 기본 플로팅 시스템 - plot, hist, boxplot(요약)
기본 플로팅 함수는 단계별로 기본함수(plot, hist, boxplot 등)를 그리고, 추가 작업(text, abline, points)을 그래프에 더해 보고자 하는 그래프를 완성한다.
- 기본 플로팅 시스템은 크게 'graphics' 패키지, 'grDevices' 패키지가 있다.
- 'graphics' 패키지에는, plot, hist, boxplot, barplot 등의 플로팅 함수가 있다.
- 'grDevices' 패키지에는, X11, PDF, PostScript, PNG 등 다양한 모든 코드로 추가한 함수가 있다.
- 기본 플로팅 함수는 단계별로 기본함수(plot, hist, boxplot 등)를 그리고, 추가 작업(text, abline, points)을 그래프에 더해 보고자 하는 그래프를 완성한다.
- 그래프를 그리기 전에,
- 데이터의 많고 적음 여부
- 그래프를 다이나믹하게 크기 변경이 필요한지 여부 등
을 고려한다.
- 'grpahics' 패키지에 대한 기본 그래프 그리기 작업
airquality 데이터를 통해, 기본 플로팅 함수를 그려보자. airquality 데이터는 1973년 뉴욕의 5개월간 오존 등 공기에 관한 데이터 항목을 측정한 결과이다.
table(airquality$Month) #Month값에 대해 각 값에 대한 빈도수를 보여준다.
5 6 7 8 9
31 30 31 31 30
5월부터 9월까지의 데이터란 걸 알 수 있다.
head(airquality) # airquality의 데이터 헤더 구조를 살펴본다.
총 6개의 항목에 대한 데이터값들이 있다.
range(airquality$Ozone, na.rm = TRUE) # ozone항목의 결측치를 제외한 범위를 보여준다.
[1] 1 168
총 168개의 값들이 있다. 이 값들에 대해 hist을 통해 분포를 알아보자.
hist(airquality$Ozone) # Ozone의 분포를 보여준다. 제목 및 축값들은 R에서 자동으로 초기 생성한다.
boxplot(Ozone ~ Month, airquality) #airquality 데이터의 Ozone에 대한 Month값을 보여준다. 타이틀을 자동 생성하지 않는다.
boxplot(Ozone ~ Month, airquality, xlab="Month", ylab ="Ozone (ppb)", col.axis = "blue", col.lab = "red") # x축명, y축명, 축색깔, 레이블색을 지정한다.
title(main="Ozone and Wind in New York City") # 타이틀 제목을 추가한다.
(To Be Continued)