
35
2
장
데이터의 중요성
2.1.2
헬스케어: 심장 질환 예방 캠페인
여기서는 여러분이 의료 컨설턴트라고 가정한 채 미국의
35
세 이상 인구의 심장 질환에 따른
사망률에 관한 데이터를 제공합니다. 우리의 목표는 해당 데이터를 분석하여 심장 질환 예방
캠페인에서 활용할 수 있는 사례를 제시하는 것입니다. 가령 시간에 따른 사망률 추세를 추적
하거나, 사망률 예측 모델을 개발하고 검증하는 것이 될 수 있겠죠. 이 데이터셋은 지저분합니
다. 일부 필드에 누락된 값이 있으며, 어떤 필드는 통째로 누락되었습니다. 데이터를 가져오고,
분석하고, 잘못된 점을 수정하는 방법을 주피터 노트북을 사용하며 배웁니다. 이 분석에 연관
된 데이터 요소는 [그림
2
-
2
]에 있습니다.
그림
2-2
심장 질환에 따른 사망률 관련 데이터 요소들
2.1.3
에너지: 공익 캠페인
이번에 여러분의 역할은 공익 회사의 비즈니스 분석가입니다. 전기 에너지를 많이 소비하는
지역사회를 대상으로 마케팅 및 홍보 프로그램을 개발하는 임무를 맡습니다. 데이터는 이미
전처리되었지만, 여러분은
ML
에 관한 배경지식이 없고, 프로그래밍할 줄 모릅니다. 따라서
AutoML
을 사용하기로 합니다. [그림
2
-
3
]은 모델에 기여하는 데이터 요소를 보여줍니다.
심장 질병 사망률
시계열 데이터
위치 데이터
사망률 데이터
인종 ...