
201
6
장
지도 학습: 분류
채무 불이행 확률을 예측하는 머신러닝 모델 생성
1.
문제 정의
이 실전 문제에 사용된 프레임워크에서 예측되는 변수는 대손상각으로 차용인이 몇 개월 동
안 지불하지 못해 채권자가 회수하려고 했으나 실패한 빚이다. 예측되는 변수는 회수 실패
의 경우 값
1
을, 그렇지 않은 경우 값
0
을 사용한다.
캐글
3
에서 제공하는 렌딩클럽
Lending
Club
의
2007
년부터
2017
년
3
분기까지의 대출 데이터를
분석할 것이다. 렌딩클럽은 미국의
P2P
대출 회사로, 차용인이 대출을 받고 투자자가 대출
지불로 보증되는 어음을 구매하는 온라인 대출 플랫폼을 운영한다. 데이터셋에는 지정된 기
간 동안 발행된 모든 대출에 대한 완전한 데이터를 비롯해
150
개의 변수가 있는
887
,
000
여
개의 관측치가 들어 있다. 특성에는 소득, 연령, 신용 점수, 주택 소유, 차용인 지위, 수입 및
기타 여러 가지가 포함된다. 특성 선택을 위해
150
개의 예측 변수를 조사할 것이다.
이 실전 문제를 마치고 나면, 데이터 수집 및 정리부터 분류기 구축과 튜닝까지 대출 기본
모델링의 일반적인 접근방식에 익숙해질 것이다.
2.
시작하기 - 데이터 및 패키지 불러오기
2.1
패키지 불러오기
이 단계에서는 표준 파이썬 패키지를 불러온다. 세부 사항은 이전 실전 문제에서 설명했다. ...