12.2 값 레이블
R의 값 레이블(data label)을 이해하려면 제2부 제3장의 요인(factor) 데이터 구조를 이해해야 합니다. factor()
함수를 사용하여 고유한 값 레이블(unique value label)을 만들 수 있습니다.
# df의 myvar1 변수의 값이 1, 2, 또는 3으로 코드가 되어 있습니다.
# 이 값들에 1 = red, 2 = blue, 3 = green과 같은 값 레이블을 첨부하고 싶습니다.
$myvar1 <- factor(df$myvar1, # df$myvar1을 요인형으로 변환합니다.
dflevels = c(1, 2, 3), # 수준은 1, 2, 3입니다
labels = c("red", "blue", "green")) # 수준의 값 레이블을 지정합니다.
describe(df)
## df
##
## 4 Variables 3 Observations
## --------------------------------------------------------------------------------
## name : 회원들의 이름입니다.
## n missing distinct
## 3 0 3
##
## Value Kim Lee Park
## Frequency 1 1 1
## Proportion 0.333 0.333 0.333
## --------------------------------------------------------------------------------
## gender
## n missing distinct
## 3 0 2
##
## Value Female Male
## Frequency 2 1
## Proportion 0.667 0.333
## --------------------------------------------------------------------------------
## myvar1
## n missing distinct
## 2 1 2
##
## Value red green
## Frequency 1 1
## Proportion 0.5 0.5
## --------------------------------------------------------------------------------
## myvar2
## n missing distinct Info Mean Gmd
## 3 0 3 1 3 2.667
##
## Value 1 3 5
## Frequency 1 1 1
## Proportion 0.333 0.333 0.333
## --------------------------------------------------------------------------------
# df의 myvar2 변수의 값이 1, 3, 또는 5로 코드가 되어 있습니다.
# 이 값들에 1 = Low, 2 = Medium, 5 = High 와 같은 값 레이블을 첨부하고 싶습니다.
$myvar2 <- factor(df$myvar2, # df$myvar2를 요인형으로 변환합니다.
dflevels = c(1,3,5), # 수준은 1, 3, 5입니다
labels = c("Low", "Medium", "High")) # 수준의 값 레이블을 지정합니다.
describe(df)
## df
##
## 4 Variables 3 Observations
## --------------------------------------------------------------------------------
## name : 회원들의 이름입니다.
## n missing distinct
## 3 0 3
##
## Value Kim Lee Park
## Frequency 1 1 1
## Proportion 0.333 0.333 0.333
## --------------------------------------------------------------------------------
## gender
## n missing distinct
## 3 0 2
##
## Value Female Male
## Frequency 2 1
## Proportion 0.667 0.333
## --------------------------------------------------------------------------------
## myvar1
## n missing distinct
## 2 1 2
##
## Value red green
## Frequency 1 1
## Proportion 0.5 0.5
## --------------------------------------------------------------------------------
## myvar2
## n missing distinct
## 3 0 3
##
## Value Low Medium High
## Frequency 1 1 1
## Proportion 0.333 0.333 0.333
## --------------------------------------------------------------------------------
범주형 데이터에 factor()
함수를 사용하고 서열형 데이터를 생성하기 위해 ordered()
함수를 사용합니다. 그러면 R의 통계 분석과 그래픽 함수들이 이 데이터를 적절하게 처리할 것입니다.
factor()
함수와ordered()
함수는 동일한 인수로 동일한 방식으로 사용됩니다.factor()
함수는 요인을 생성하고,ordered()
함수는 요인을 서열화하여 서열형 데이터를 생성합니다.