
345
6
장
이상 탐지
6.5.4
리스케일
이상값이 포함된 레코드를 필터링하거나 이상값을 다른 값으로 대체하는 방법 이외에, 필드를
리스케일하면 값이 모두 보존되고 분석도 더 쉬워집니다.
앞서
z
-점수 개념과 이를 활용한 아웃라이어 탐지를 살펴봤는데,
z
-점수는 양수와 음수를 모
두 다룰 수 있다는 장점을 활용해 값을 리스케일하는 데도 사용합니다.
z
-점수 대신 로그
log
스케일을 사용해 값을 변환하기도 합니다. 이때 모든 값의 상대적 크기가
그대로 보존된다는 장점이 있지만 작은 값들은 더 좁게 몰린다는 단점도 있습니다. 로그 변환
한 값은 필요시 원래 값으로 복구 가능합니다. 단점으로, 로그는 음수에는 사용할 수 없습니다.
earthquakes
데이터셋 저장된 지진 규모 값은 이미 로그 스케일이 적용된 값입니다. 동일본
대지진의 지진 규모는
9
.
1
로 매우 극단적인 값이지만, 로그 스케일을 적용하지 않았다면 훨씬
더 극단적으로 큰 아웃라이어 값이었을 것입니다.
depth
필드는 킬로미터 단위로 저장돼 있습니다. 다음 쿼리는 이 필드에
log
함수를 사용해
로그 스케일로 변환된 값을 나타냅니다. [그림
6
-
12
]와 [그림
6
-
13
]은 각각 로그 스케일을 적
용하기 전후의 지진 깊이 분포를 그래프로 보여줍니다.
log
함수에서 밑의 기본값은
10
입니
다. 그래프로 ...