Chapter 6 요인(factor)
이 장에서는 R 프로그래밍의 요인(factor)를 다루는 방법을 학습하겠습니다. 요인은 미리 정의된 유한한 수의 값에 사용되는 데이터 구조입니다. 또한 요인의 수준(levels)에 대해서도 학습하겠습니다.
R에는 플롯을 만들거나 통계 분석을 수행할 때 발생할 수있는 범주형 데이터(categorical data)를 처리하기 위한 요인(factor)이라는 특수 데이터 클래스가 있습니다. 요인은 매우 유용하며 실제로 R을 이용한 데이터 작업을 특히 적합하게 만드는 데 기여합니다.
요인은 범주형 데이터를 나타냅니다. 요인은 기본적으로 문자형 벡터의 형태를 가집니다. 그러나, 데이터를 저장할 때는각각의 요소에 대한 레이블이 정수 값으로 저장되며, 정렬이 된 순서로 지정되거나 정렬이 되지 않은 순서로 저장될 수도 있습니다.
요인은 요일 또는 설문 조사 질문에 대한 응답과 같은 범주형 변수의 여러 수준(값) 간에 구조화된 관계를 만듭니다. 이렇게 하면 한 요소가 다른 요소와 어떻게 관련되는지 쉽게 확인할 수 있습니다. 요인는 문자형 벡터처럼 보이며 종종 그렇게 동작하지만 실제로는 R에서는 정수형 벡터로 처리됩니다. 따라서 그것들을 문자열로 취급할 때 매우 조심해야합니다.
요인 개체에 있어서 중요한 두 개의 속성이 있습니다. 그것은 class
와 levels
입니다. class
는 요인이 factor 임을 알려 주고, 정수형 벡터와 다르게 사용되도록 합니다. levels
속성은 ‘미리 정의된 값’을 정의합니다.
일단 생성된 요인은 수준(levels) 이라고하는 미리 정의된 값의 집합 만을 포함할 수 있습니다. 기본적으로 R은 항상 사전(가나다 순, 알파벳 순) 순으로 수준을 정렬합니다.