5.1 데이터 세트 구성

우리가 하고 싶은 한 가지는 데이터를 프로젝트로 읽어 오는 것이다. 프로젝트의 구조를 유지하기 위해, 데이터를 저장할 폴더를 만드는 것이 좋다. 파일 뷰어를 사용하여 그림 5.1과 같이 새 폴더를 만든다.

새 폴더 만들기

그림 5.1: 새 폴더 만들기

파일로 이동 한 다음 “데이터”라는 단어를 “새 폴더”로 입력 한 다음 “확인”을 클릭한다. 이제 이 프로젝트와 관련된 새 폴더가 생긴다.

5.1.1 기대 수명 데이터 다운로드

다음으로이 링크를 따라 데이터 세트가있는 페이지로 이동합니다.

https://catalog.data.gov/dataset/nchs-death-rates-and-life-expectancy-at-birth-6db3e

이 페이지에는 데이터에 대한 자세한 설명이 포함되어 있다. 방금 만든 “data” 폴더에 csv 파일을 다운로드하려고 한다. 그림 5.2에 표시된 페이지 영역까지 아래로 스크롤한다.

기대 수명 csv 다운로드 링크

그림 5.2: 기대 수명 csv 다운로드 링크

“Download” 버튼을 클릭한다. csv 파일이 다운로드 폴더에 나타난다. csv 파일을 “다운로드” 폴더에서 프로젝트에서 만든 “data” 폴더로 이동시킨다.

5.1.2 R 프로젝트에 데이터 세트 추가

data 폴더에 원시 csv 파일이 저장되어 있지만 분석에 사용하려면 데이터가 데이터 프레임 형식이어야 한다. 이 형식의 데이터를 읽는 가장 쉬운 방법은 그림 5.3과 같이 환경보기에있는 “Import Dataset” 기능을 사용하는 것이다.

데이터 세트 가져오기

그림 5.3: 데이터 세트 가져오기

“Environment” 보기로 이동하여 “Import Dataset”을 클릭한 다음 “From Text (readr)…”를 선택한다. 그러면 그림 5.4와 유사한 화면이 나타난다.

데이터 가져오기 위젯

그림 5.4: 데이터 가져오기 위젯

“Browse” 버튼을 사용하여 csv 파일로 이동한다. 이것은 화면의 오른쪽 상단에 있는 그림 5-4에서 강조 표시된다. 데이터 프레임의 기본 이름은 파일과 동일하지만 매우 길게 나타날 것이므로 왼쪽 하단 영역의 “Name” 옆에 강조 표시된 영역에 표시된대로 이 위젯 화면에서 바로 변경할 수 있다. 우리는 단순히 데이터 프레임을 “expectancy”라고 명명했다.

이 프로세스를 완료하면 그림 5.5와 같이 R Studio 프로젝트에 데이터 프레임이 나타난다.

프로젝트의 데이터 프레임

그림 5.5: 프로젝트의 데이터 프레임

그림 5.5에서 왼쪽 상단에 데이터 프레임의 샘플을 볼 수 있다. 데이터를 읽는 데 사용 된 코드는 콘솔의 왼쪽 하단에 표시되며 이 코드는 히스토리 보기에서도 유지된다. 마지막으로 오른쪽 상단의 “Environment” 창에 “expectancy”라는 이름의 개체가 표시된다. 어떤 시점에서 창을 닫으면 이 개체를 클릭하여 데이터를 다시 표시할 수 있다.

이것은 프로젝트 설정의 첫 번째 단계이다. RStudio를 닫은 경우 프로젝트 상태를 저장해야 한다. 그렇지 않으면 데이터 프레임 작업을 위해 지금까지의 과정을 다시 반복해야 한다.