3.3 플롯
Plots 탭을 사용하여 R 분석 중에 생성한 플롯을 볼 수 있다. 이 탭을 클릭하면 그림 3.2와 같은 몇 가지 기능 버튼이 있는 빈 화면이 표시된다.
플롯을 보고, 플롯을 파일로 내보내고, 생성한 플롯 세트를 탐색 할 수도 있다. 이 위젯은 데이터를 살펴보고 조사할 때 체계적으로 유지되도록 도와준다. 이 기능을 더 자세히 살펴보기 위해서는 콘솔 화면으로 이동하여 데이터 정리를 수행하고 플롯을 생성해야 한다.
3.3.1 데이터 결합 소개
이전 장에서 가져온 데이터를 사용할 수 있다. 해당 데이터의 이름은 dormitory 이다. 이 데이터를 사용하여 플롯을 만들기 전에 몇 가지 “데이터 정리”를 수행해야 한다. 데이터 병합(data munging)은 분석에 적합하도록 데이터를 재구성하는 프로세스이다.
NOTE 위에서 “데이터 세트”와 “데이터 프레임”이라는 용어를 같은 의미로 사용한다. 그러나 R에서 작업하는 개체의 기술적 이름은 “데이터 프레임”(일반적으로는 표, 엑셀에서는 워크시트에 해당함)이다. “데이터 세트”라는 용어는 모든 분석 환경의 모든 데이터 세트에 적용되는 일반적인 용어이다.
이 그림의 경우 dormitory
데이터 프레임에서 학교명
, 재학생수
그리고 수용인원
등의 세 열을 보고 싶다. 이 세 항목이 관계가 있는 것 같으므로 플롯을 사용하면 이 데이터가 우리에게 알려주는 내용을 이해하는 데 도움이 될 수 있는 단서 역할을 하는 패턴을 볼 수 있는지 확인하는 것이 좋다.
내가 하고 싶은 첫 번째 일은 내가 관심있는 열의 데이터 유형을 확인하는 것입니다. R의 class()
함수를 사용하여 이를 수행 할 수 있다.
class(dormitory$학교명)
## [1] "character"
함수의 이름인 class가 괄호 안에 검사할 개체를 포함한다. 이미 데이터 프레임 이름 (dormitory
)을 보았지만 이제 달러 기호 ’$
’와 변수 학교명
이름도 있다. R의 달러 기호는 데이터 프레임에서 열을 참조하는 데 사용된다. 이러한 방식으로 dormitory
데이터 프레임의 각 열을 참조 할 수 있다. 위에서 우리는 학교명
열의 데이터 유형을 검사하기 위해 class()
함수를 사용했다. 그 결과로 “character”를 반환했다.
플롯의 경우 데이터가 숫자여야 한다. 이를 위해 두 번째 열인 재학생 수
를 확인해 본다. 그런데 이 떄 열의 이름이 재학생 수
로 공란이 포함되어 있다. 이때에는 \
`` 안에 컬럼 이름을 넣어 주면 된다.
class(dormitory$`재학생 수`)
이번에는 그림 3.3과 같이 콘솔에 “numeric”를 반환하고 있다.
3.3.2 플롯
이제 우리는 플롯을 만들 준비가 되었다. 콘솔 창에 다음 코드를 입력한다.
plot(dormitory$`재학생 수`)
이제 플롯 탭에 그림 3.4와 같은 플롯이 나타난다.
그림 3-4는 Y 축에 각 대학별 재학생 수
를 그리고 X축에는 데이터의 번호를 표시한다.
이것은 매우 기본적인 플롯이지만 이러한 데이터 요소 간의 관계를 암시하기에 충분하다. 어느 시점에서 기본 R을 확장하고 더 나은 시각화를 만드는 패키지에 대해 학습하게 되겠지만, 기본적으로 모두 Plots 탭에서 동일한 방식으로 작동한다.