7.5 하나의 셀에 저장된 여러 변수 또는 여러 셀에 흩어져 있는 한 변수

데이터 세트를 untidy하게 만드는 두 개의 다른 이슈로는 1) 동일한 셀에 여러 개 변수가 저장되어 있는 경우와, 2) 한 변수가 여러 셀에 흩어져 저장되어 있는 경우이다.

tidyr 패키지에 내장되어 있는 table5 데이터는 이 두 문제를 동시에 보여주고 있다.

7.5.1 데이터 세트

table5
## # A tibble: 6 x 4
##   country     century year  rate           
## * <chr>       <chr>   <chr> <chr>          
## 1 Afghanistan 19      99    745/19987071   
## 2 Afghanistan 20      00    2666/20595360  
## 3 Brazil      19      99    37737/172006362
## # ... with 3 more rows

  • rate 변수는 실제 casespopulations으로 나눈 식으로 표시되어, 두 개의 변수를 담고 있다.
  • 또한 centuryyear 라는 두 개의 컬럼으로 분리되어 있는 부분은 사실 year 변수로 통합될 수 있다.

Data Wrangling with dplyr and tidyr

Data Wrangling with dplyr and tidyr