5.1 데이터 세트 구성
우리가 하고 싶은 한 가지는 데이터를 프로젝트로 읽어 오는 것이다. 프로젝트의 구조를 유지하기 위해, 데이터를 저장할 폴더를 만드는 것이 좋다. 파일 뷰어를 사용하여 그림 5.1과 같이 새 폴더를 만든다.
파일로 이동 한 다음 “데이터”라는 단어를 “새 폴더”로 입력 한 다음 “확인”을 클릭한다. 이제 이 프로젝트와 관련된 새 폴더가 생긴다.
5.1.1 기대 수명 데이터 다운로드
다음으로이 링크를 따라 데이터 세트가있는 페이지로 이동합니다.
https://catalog.data.gov/dataset/nchs-death-rates-and-life-expectancy-at-birth-6db3e
이 페이지에는 데이터에 대한 자세한 설명이 포함되어 있다. 방금 만든 “data” 폴더에 csv 파일을 다운로드하려고 한다. 그림 5.2에 표시된 페이지 영역까지 아래로 스크롤한다.
“Download” 버튼을 클릭한다. csv 파일이 다운로드 폴더에 나타난다. csv 파일을 “다운로드” 폴더에서 프로젝트에서 만든 “data” 폴더로 이동시킨다.
5.1.2 R 프로젝트에 데이터 세트 추가
data 폴더에 원시 csv 파일이 저장되어 있지만 분석에 사용하려면 데이터가 데이터 프레임 형식이어야 한다. 이 형식의 데이터를 읽는 가장 쉬운 방법은 그림 5.3과 같이 환경보기에있는 “Import Dataset” 기능을 사용하는 것이다.
“Environment” 보기로 이동하여 “Import Dataset”을 클릭한 다음 “From Text (readr)…”를 선택한다. 그러면 그림 5.4와 유사한 화면이 나타난다.
“Browse” 버튼을 사용하여 csv 파일로 이동한다. 이것은 화면의 오른쪽 상단에 있는 그림 5-4에서 강조 표시된다. 데이터 프레임의 기본 이름은 파일과 동일하지만 매우 길게 나타날 것이므로 왼쪽 하단 영역의 “Name” 옆에 강조 표시된 영역에 표시된대로 이 위젯 화면에서 바로 변경할 수 있다. 우리는 단순히 데이터 프레임을 “expectancy”라고 명명했다.
이 프로세스를 완료하면 그림 5.5와 같이 R Studio 프로젝트에 데이터 프레임이 나타난다.
그림 5.5에서 왼쪽 상단에 데이터 프레임의 샘플을 볼 수 있다. 데이터를 읽는 데 사용 된 코드는 콘솔의 왼쪽 하단에 표시되며 이 코드는 히스토리 보기에서도 유지된다. 마지막으로 오른쪽 상단의 “Environment” 창에 “expectancy”라는 이름의 개체가 표시된다. 어떤 시점에서 창을 닫으면 이 개체를 클릭하여 데이터를 다시 표시할 수 있다.
이것은 프로젝트 설정의 첫 번째 단계이다. RStudio를 닫은 경우 프로젝트 상태를 저장해야 한다. 그렇지 않으면 데이터 프레임 작업을 위해 지금까지의 과정을 다시 반복해야 한다.