12.2 값 레이블

R의 값 레이블(data label)을 이해하려면 제2부 제3장의 요인(factor) 데이터 구조를 이해해야 합니다. factor() 함수를 사용하여 고유한 값 레이블(unique value label)을 만들 수 있습니다.

# df의 myvar1 변수의 값이 1, 2, 또는 3으로 코드가 되어 있습니다.
# 이 값들에 1 = red, 2 = blue, 3 = green과 같은 값 레이블을 첨부하고 싶습니다.
df$myvar1 <- factor(df$myvar1,                         # df$myvar1을 요인형으로 변환합니다.
                   levels = c(1, 2, 3),                # 수준은 1, 2, 3입니다
                   labels = c("red", "blue", "green")) # 수준의 값 레이블을 지정합니다.
describe(df)
## df 
## 
##  4  Variables      3  Observations
## --------------------------------------------------------------------------------
## name : 회원들의 이름입니다. 
##        n  missing distinct 
##        3        0        3 
##                             
## Value        Kim   Lee  Park
## Frequency      1     1     1
## Proportion 0.333 0.333 0.333
## --------------------------------------------------------------------------------
## gender 
##        n  missing distinct 
##        3        0        2 
##                         
## Value      Female   Male
## Frequency       2      1
## Proportion  0.667  0.333
## --------------------------------------------------------------------------------
## myvar1 
##        n  missing distinct 
##        2        1        2 
##                       
## Value        red green
## Frequency      1     1
## Proportion   0.5   0.5
## --------------------------------------------------------------------------------
## myvar2 
##        n  missing distinct     Info     Mean      Gmd 
##        3        0        3        1        3    2.667 
##                             
## Value          1     3     5
## Frequency      1     1     1
## Proportion 0.333 0.333 0.333
## --------------------------------------------------------------------------------
# df의 myvar2 변수의 값이 1, 3, 또는 5로 코드가 되어 있습니다.
# 이 값들에 1 = Low, 2 = Medium, 5 = High 와 같은 값 레이블을 첨부하고 싶습니다.
df$myvar2 <- factor(df$myvar2,                           # df$myvar2를 요인형으로 변환합니다.
                   levels = c(1,3,5),                    # 수준은 1, 3, 5입니다
                   labels = c("Low", "Medium", "High"))   # 수준의 값 레이블을 지정합니다.
describe(df)
## df 
## 
##  4  Variables      3  Observations
## --------------------------------------------------------------------------------
## name : 회원들의 이름입니다. 
##        n  missing distinct 
##        3        0        3 
##                             
## Value        Kim   Lee  Park
## Frequency      1     1     1
## Proportion 0.333 0.333 0.333
## --------------------------------------------------------------------------------
## gender 
##        n  missing distinct 
##        3        0        2 
##                         
## Value      Female   Male
## Frequency       2      1
## Proportion  0.667  0.333
## --------------------------------------------------------------------------------
## myvar1 
##        n  missing distinct 
##        2        1        2 
##                       
## Value        red green
## Frequency      1     1
## Proportion   0.5   0.5
## --------------------------------------------------------------------------------
## myvar2 
##        n  missing distinct 
##        3        0        3 
##                                
## Value         Low Medium   High
## Frequency       1      1      1
## Proportion  0.333  0.333  0.333
## --------------------------------------------------------------------------------

범주형 데이터factor() 함수를 사용하고 서열형 데이터를 생성하기 위해 ordered() 함수를 사용합니다. 그러면 R의 통계 분석과 그래픽 함수들이 이 데이터를 적절하게 처리할 것입니다.

factor() 함수와 ordered() 함수는 동일한 인수로 동일한 방식으로 사용됩니다. factor() 함수는 요인을 생성하고, ordered() 함수는 요인을 서열화하여 서열형 데이터를 생성합니다.