
27
1
장
탐색적 데이터 분석
•
중간값
median
: 데이터에서 가장 가운데 위치한 값 (유의어:
50
번째 백분위수
percentile
)
•
가중 중간값
weighted
median
: 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치
하는 데이터 값
•
절사평균
trimmed
mean
: 정해진 개수의 극단값
extreme
value
을 제외한 나머지 값들의 평균 (유의어: 절단평
균
truncated
mean
)
•
로버스트하다
robust
: 극단값들에 민감하지 않다는 것을 의미한다. (유의어: 저항성 있다
resistant
)
•
특잇값
outlier
: 대부분의 값과 매우 다른 데이터 값 (유의어 : 극단값 )
데이터를 요약하려면 그냥 데이터의
평균
(다음 절 참고)을 구하기만 하면 되지 않느냐고 생각
할지도 모르겠다. 사실 평균이 계산하기도 쉽고 사용하기도 편리하긴 하다. 하지만 평균이 데
이터의 중간을 대표하는 가장 좋은 방법은 아니다. 몇 가지 이유로, 통계학자들은 평균을 대체
할 만한 다른 값들을 개발해냈다.
NOTE
_
측정 지표와 추정값
통계학자들은 보통 데이터로부터 얻은 값과 실제 상태를 나타내는 이론적인 참값을 구분하기 위해, 데이터로
부터 계산된 값들을 보통 추정값
estimate
이라는 용어를 사용한다. 반면 데이터 과학자나 비즈니스 분석가들은 ...