Chapter 6 요인(factor)

이 장에서는 R 프로그래밍의 요인(factor)를 다루는 방법을 학습하겠습니다. 요인은 미리 정의된 유한한 수의 값에 사용되는 데이터 구조입니다. 또한 요인의 수준(levels)에 대해서도 학습하겠습니다.

R에는 플롯을 만들거나 통계 분석을 수행할 때 발생할 수있는 범주형 데이터(categorical data)를 처리하기 위한 요인(factor)이라는 특수 데이터 클래스가 있습니다. 요인은 매우 유용하며 실제로 R을 이용한 데이터 작업을 특히 적합하게 만드는 데 기여합니다.

요인은 범주형 데이터를 나타냅니다. 요인은 기본적으로 문자형 벡터의 형태를 가집니다. 그러나, 데이터를 저장할 때는각각의 요소에 대한 레이블이 정수 값으로 저장되며, 정렬이 된 순서로 지정되거나 정렬이 되지 않은 순서로 저장될 수도 있습니다.

요인은 요일 또는 설문 조사 질문에 대한 응답과 같은 범주형 변수의 여러 수준(값) 간에 구조화된 관계를 만듭니다. 이렇게 하면 한 요소가 다른 요소와 어떻게 관련되는지 쉽게 확인할 수 있습니다. 요인는 문자형 벡터처럼 보이며 종종 그렇게 동작하지만 실제로는 R에서는 정수형 벡터로 처리됩니다. 따라서 그것들을 문자열로 취급할 때 매우 조심해야합니다.

요인 개체에 있어서 중요한 두 개의 속성이 있습니다. 그것은 classlevels입니다. class는 요인이 factor 임을 알려 주고, 정수형 벡터와 다르게 사용되도록 합니다. levels 속성은 ‘미리 정의된 값’을 정의합니다.

일단 생성된 요인은 수준(levels) 이라고하는 미리 정의된 값의 집합 만을 포함할 수 있습니다. 기본적으로 R은 항상 사전(가나다 순, 알파벳 순) 순으로 수준을 정렬합니다.