'ggplot2' 표현에 대해 자세히 알아보자 - Part1: qplot (출처: R내 swirl package)

2020. 2. 23. 22:52Data Science/Data Analytics

#

# swirl()내 탐색적 데이터 분석(Exploratory Data Course)를 실행해보자.

# 

 

library("swirl")

swirl()

 

Exploratory Graphs 과정에서 8번 플로팅 시스템(8. GGPlot2 Part1)을 선택한다.

탐색적 분석 과정의 여덟번째 섹션 'ggplot2' 표현 - Part1(요약)
ggplot2는 최신의 플로팅 패키지로, qplot, ggplot을 통해 그래프를 그린다.
qplot을 통해, 스캐터플롯, 히스토그램, 박스플롯을 쉽게 표현할 수 있다.

 

 


  •   ggplot2란?

ggplot2는 R의 3가지 플로팅 시스템 중 가장 최신의 플로팅 패키지이다. gg는 grammar of graphics의 약자로, 그래픽에 대한 표현방법을 쉽게 구현했다. ggplot2는 Leland Wilkinson에 의해 최초 만들어졌고, Hadley Wickham에 의해 도입됐다. http://ggplot2.org에 다양한 문서가 있다고 나오는데... 현재 사라졌다. 

 

 

 

  • ggplot2의 주요 기능

ggplot2는 lattice패키지처럼 멀티패널 플롯을 그릴 수 있을뿐만 아니라, 기본 플로팅의 타이틀 및 레이블 등 추가할 수 있다. R의 기본으로 탑재된 기능을 통해 그래프를 그리며, 크기, 모양, 색상, 포인트, 선, 바 등의 조합으로 그래프를 그릴 수 있게 한다.

 

ggplot2의 2개의 중요 함수로는 qplot과 ggplot이 있다. 이중 ggplot이 더 자유로운데, qplot부터 배워보자.

 

qplot의 예제

> qplot(displ, hwy, data=mpg) #ggplot2에 내제된 mpg란 데이터에서, 엔진 교체가 갤런당 마일에 대해 그래프를 그려보자.

 

> qplot(displ, hwy, color=drv, data=mpg) #위의 예제에서 drv의 색상에 따른 그래프를 그려보자. drv는 전동휠, 후방휠, 4륜으로 구분된다.

> qplot(displ, hwy, color=drv, geom = c("point", "smooth"), data=mpg) #여기다, 각 데이터 포인트에 대한 선을 그려보자. 회색으로 표시된 부분은 95% 신뢰구간을 표현한다. geom을 사용할 때는 " " 스트링 형태로 표현한다.

 

> qplot(y=hwy, data=mpg, color=drv) #hwy값을 y로 놓고, 그래프를 그리면 어떨까? 이러면, 전체 hwy 데이터의 순서대로 각 데이터 값을 출력한다.

 

> qplot(drv, hwy, data=mpg, geom="boxplot") #qplot으로 boxplot도 그릴 수 있다. 그려보자. 드라이브 형태에 따른 3가지 박스플롯을 보여준다.

> qplot(drv, hwy, data=mpg, geom="boxplot", color=manufacturer) #여기서 색상을 제조사로 구분해보자. 좀 복잡해보여도, 3개의 플롯의 제조사별 세부 그래프를 보여준다.

 

> qplot(hwy, data=mpg, fill=drv)  #히스토그램도 표현 가능하다. mpg데이터의 hwy의 빈도수를 drv의 변수값에 따라 표현해보자.

> qplot(displ, hwy, data=mpg, facets = .~drv) #이번에는 한 페널에 표현하지 말고, 3개의 페널로 구분해서 표현해보자. facets의란 변수를 통해 각 데이터를 drv 변수에 따라 구분해서 표현해보자.

 

> qplot(hwy, data=mpg, facets = drv ~ . , binwidth = 2) #히스토그램도 그려보자. drv에 대해 각 행을 표현(3 by 1)하고, 히스토그램 가로는 2로 설정한다.

 

(To Be Conintued)