
89
3
장
기술 통계와 추론 통계
모집단, 표본, 편향에 대해 충분히 이야기한 것 같습니다. 이제 수학과 기술 통계에 대해 알아
보겠습니다. 수학과 컴퓨터는 데이터에 있는 편향을 인식하지 못한다는 점을 기억하세요. 이를
감지하는 것은 훌륭한 데이터 과학자의 몫입니다! 항상 데이터를 어떻게 얻었는지 질문하고 그
과정에서 데이터에 편향이 있는지 면밀히 조사해야 합니다.
머신러닝의 표본과 편향
이러한 표본과 편향의 문제는 머신러닝에도 적용됩니다. 선형 회귀, 로지스틱 회귀, 신경망 모두 데이터 표본
을 사용해 예측을 추론합니다. 데이터가 편향되어 있으면 머신러닝 알고리즘도 편향된 결론을 내립니다.
이에 관한 사례는 많습니다. 형사 사법 분야는 머신러닝을 적용하기에 상당히 불안정한 분야입니다. 소수자
위주의 데이터셋으로 인해 소수자를 차별하는 등 모든 면에서 편향된 모습을 반복적으로 보이기 때문입니다.
2017
년 볼보는 사슴, 엘크, 순록을 촬영한 데이터셋으로 훈련된 자율 주행 자동차를 테스트했습니다. 하지만
호주에서 주행한 데이터가 없었기 때문에 자율 주행 자동차가 캥거루를 인식하지 못했고, 캥거루의 점프 동
작을 이해하지도 못했습니다! 이 둘 모두 편향된 데이터의 예입니다.
3.4
기술 통계
기술 통계는 대부분의 사람들에게 익숙한 영역입니다. 이번 절에서는 평균, ...