
341
6
장
이상 탐지
면 해당 데이터는 삭제하는 편이 좋습니다. 대용량 데이터에서는 레코드 몇 개 정도는 삭제해
도 분석 결과에 전혀 영향이 없지만, 만약 매우 극단적인 아웃라이어 값 때문에 완전히 다른 결
과가 도출될 우려가 있다면 해당 데이터를 삭제하는 편이 좋습니다.
앞서
earthquakes
데이터셋에서 지진 규모 값 중에 수백 개의 –
9
.
99
와 수십 개의 -
9
가 포함
돼 있음을 확인했습니다. 이 값들은 일반적인 지진 규모 값에 비해 극단적으로 작은 값이므로
잘못 입력했거나 (실제 지진 규모를 알 수 없어서 ) 임의로 입력한 값으로 의심됩니다.
WHERE
절을 사용해 이렇게 극단적으로 작은 값을 간단히 제거해봅시다.
SELECT
time
, mag,
type
FROM
earthquakes
WHERE
mag
not
in
(-9,-9.99)
;
time mag type
------------------- ---- ----------
... ... ...
2019-08-11 03:25:39 1.8 earthquake
2019-08-11 03:27:19 0.32 earthquake
2019-08-11 03:29:20 4.3 earthquake
... ... ...
아웃라이어가 발생한 레코드를 삭제하기 전에 전체 데이터 분석 결과가 해당 아웃라이어로 인
해 달라지는 ...