179
4
장
코호트 분석
4.3.2
시계열을 조절해 리텐션 정확도 향상하기
2
장에서 학습한 결측 데이터 처리 방법을 되짚어보고, 의원 리텐션 분석에서 리텐션 커브를 더
부드럽게 만들고 데이터 신뢰도를 높이는 데 활용해봅시다. 코호트 분석에서 시계열 데이터를
다룰 때는 데이터가 잘 저장돼 있는지만 확인할 것이 아니라 데이터가 현재를 정확하게 반영하
는지, 각 시간 구간에서 손실된 개체는 없는지 확인해야 합니다. 데이터셋에 포함된 특정 개체
의 이벤트가 데이터에 포함되지 않는 시간 구간에서도 지속되는 경우 문제가 발생할 수 있습니
다. 예를 들어, 소프트웨어 구독료를 지불한 고객의 내역이 데이터셋에 저장돼 있지만, 그 이후
에 고객이 몇 달 또는 몇 년 동안 소프트웨어를 사용한 정보는 데이터에 포함되지 않을 수도 있
습니다. 이 문제를 해결하려면 고객이 소프트웨어 사용을 끝낸 날짜나 구독 기간과 같이, 소프
트웨어를 사용한 전체 기간을 계산할 수 있는 데이터를 확보해야 합니다. 시작 날짜와 종료 날
짜가 언제인지 알면 특정 이벤트가 정확히 어느 기간 동안 발생했는지 계산할 수 있습니다.
입법가 데이터셋에 의원의 임기 시작 날짜는 저장돼 있지만,
2
년 또는
6
년과 같이 의원직을 수
행할 자격이 부여된 ‘기간’에 대한 데이터가 손실된 상태입니다. 이 문제를 해결하고 리텐션 커
브를 더 부드럽게 만들려면 실제로 재임한 기간에 대한 결측값을 채워 넣어야 합니다. 데이터
셋에는 임기가 끝나는
term
_
end
값이 저장돼 있으므로 임기 시작 날짜와 종료 날짜 ...