
90
1
부
머신러닝
5 0.114583
1 0.039729
Name: income_cat, dtype: float64
비슷한 코드로 전체 데이터셋에 있는 소득 카테고리의 비율을 측정합니다. [그림
2
-
10
]은 전체
데이터셋과 계층 샘플링으로 만든 테스트 세트에서 소득 카테고리 비율을 비교한 것입니다. 그
림에서 보듯이 계층 샘플링을 사용해 만든 테스트 세트가 전체 데이터셋에 있는 소득 카테고리
의 비율과 거의 같습니다. 반면 일반 무작위 샘플링으로 만든 테스트 세트는 비율이 많이 달라졌
습니다.
그림
2-10
계층 샘플링과 순수한 무작위 샘플링의 샘플링 편향 비교
이제
income
_
cat
특성을 삭제해서 데이터를 원래 상태로 되돌리겠습니다.
28
for set_ in (strat_train_set, strat_test_set):
set_.drop("income_cat", axis=1, inplace=True)
테스트 세트 생성에 대해 자세히 설명하는 데에는 그럴 만한 이유가 있습니다. 종종 등한시되
기도 하지만 머신러닝 프로젝트에서 아주 중요한 부분이기 때문입니다. 게다가 이런 아이디어
들은 나중에 교차 검증에 대해 이야기할 때 도움이 됩니다. 이제 데이터를 탐색하는 다음 단계
로 넘어갑시다.
28
옮긴이_ 판다스 데이터프레임의
drop
메서드는 행 또는 열을 삭제합니다. ...