
91
2
장
머신러닝 프로젝트 처음부터 끝까지
2.4
데이터 이해를 위한 탐색과 시각화
지금까지는 다뤄야 할 데이터의 종류를 파악하기 위해 데이터를 간단히 살펴보았습니다. 이제
조금 더 깊이 파악해보도록 하겠습니다.
먼저 테스트 세트를 떼어놓았는지 확인하고 훈련 세트에 대해서만 탐색을 하겠습니다. 또한 훈
련 세트가 매우 크면 조작을 간단하고 빠르게 하기 위해 탐색을 위한 세트를 별도로 샘플링할
수도 있습니다. 예제에서는 크기가 작으므로 훈련 세트 전체를 사용하겠습니다. 훈련 세트를
손상시키지 않기 위해 복사본을 만들어 사용합니다.
housing = strat_train_set.copy()
2.4.1
지리적 데이터 시각화
지리 정보 (위도와 경도 )가 있으니 모든 구역을 산점도로 만들어 데이터를 시각화하는 것은 좋
은 생각입니다 (그림
2
-
11
).
housing.plot(kind="scatter", x="longitude", y="latitude")
그림
2-11
데이터의 지리적인 산점도