
303
6
장
이상 탐지
지진 규모
magnitude
는 지진 크기를 측정하는 단위로, 근원지에서 발생한 지진파를 기준으로 합니
다. 지진 규모는 로그 스케일로 기록되므로 규모
5
의 지진은 규모
4
의 지진보다
10
배 강력합
니다. 상세한 지진 측정 방법은 이 책에서는 생략합니다. 지진 데이터셋에 관해 더 알고 싶다면
USGS
웹사이트
4
를 참고하기 바랍니다.
6.3
아웃라이어 탐지
실제로 데이터셋에서 이상값 또는 아웃라이어를 찾는 작업은 그리 간단하지 않습니다. 첫 번째
문제는 언제 어떤 값이 자주 또는 드물게 나타나는지 확인하는 일이고, 두 번째 문제는 일반적
인 값과 이상값을 결정짓는 임계값을 설정하는 일입니다. 지진 데이터셋의
earthquakes
테이
블을 살펴보며 지진의 깊이와 규모를 프로파일링해봅시다. 이를 통해 어떤 값이 정상이고 어떤
값이 비정상적인지 판단합니다.
일반적으로 대규모의 복잡한 데이터셋일수록 이상값을 찾기가 쉽습니다. 이상값 여부가 표시
된 데이터나 실제 검증 자료
ground
truth
가 있다면 이상값을 찾는 데 참고합니다. 이러한 데이터
에는 별도의 열에 해당 레코드의 이상값 여부가 기록돼 있습니다. 실제 검증 자료는 산업 및 과
학계에서 입수한 자료 또는 과거 분석 데이터를 의미하며, 이를 통해 ‘지진 규모
7
이상’과 같은
명확한 판단