알 수 있다. 만일 영화 장르에 기반한 분석을 하려면 영화 장르 정보를 좀 더 사용하기 편한 형
식으로 변형할 필요가 있다.
14.3
신생아 이름
미국사회보장국(
SSA
)에서는
1880
년부터 현재까지 가장 빈도가 높은 신생아 이름에 대한 정
보를 제공하고 있다. 여러 가지 유명한
R
패키지 개발자인 해들리 위컴은
R
에서 데이터를 다루
는 방법을 설명할 때 종종 이 데이터셋을 활용한다.
이 데이터셋을 불러 오려면 데이터를 다듬는 과정이 필요한데 일단 정리하고 나면 다음과 같은
DataFrame
을 얻을 수 있다.
In
[
4
]:
names
.
head
(
10
)
Out
[
4
]:
name sex births year
0 Mary F 7065 1880
1 Anna F 2604 1880
2 Emma F 2003 1880
3 Elizabeth F 1939 1880
4 Minnie F 1746 1880
5 Margaret F 1578 1880
6 Ida F 1472 1880
7 Alice F 1414 1880
8 Bertha F 1320 1880
9 Sarah F 1288 1880
이 데이터를 이용해서 여러 가지 분석을 할 수 있다.
●
시대별로 특정 이름이 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.