
197
4
장
코호트 분석
성별에 따른 의원 리텐션
리텐션 비율
구간(연도)
그림
4-8
성별에 따른 의원 리텐션(
1917
~
1999
년의 코호트)
코호트를 정의하는 방법은 시계열 데이터의 속성을 이용하거나 별도 테이블의 속성을 이용하
는 등 여러 가지가 있습니다. 지금까지 사용한 프레임워크, 서브쿼리, 뷰, 기타 테이블을 적절
히 변형하거나 대체해 코호트 분석에 활용합니다. 시작 연도와 성별을 동시에 고려하는 등 다
중 속성 기반 코호트를 정의할 수도 있습니다. 이때 주의할 점은 데이터셋에서 해당 속성에 해
당하는 코호트가 매우 작거나 개체가 아예 없는
희소 코호트
sparse
cohort
가 생길 수 있다는 점입니
다. 이어서 희소 코호트 문제를 해결하는 법을 알아봅시다.
4.3.5
희소 코호트 다루기
분석하려는 구간 전체에서 모든 코호트가 시계열 데이터를 적절한 수만큼 포함한다면 아주 이
상적인 데이터셋입니다. 서비스 구독 또는 의원의 임기가 여러 구간에 걸쳐 이어지는 경우 ‘결
측’ 날짜가 발생하기도 하며, 이 문제는 날짜 차원 테이블로 해결 가능합니다. 다중 속성 기반
으로 코호트를 정의하면 크기가 매우 작은 코호트가 생길 수 있고, 그로 인해 해당 코호트의 결