료되면 엔지니어링 팀에서 더 나은 사기 탐지 파이프라인 개발을 시작할 수 있는 벤치마크 모
델이 준비됩니다.
5.1.2
프로젝트 데이터셋
이 장에서 사용하는 데이터셋은 사용자의 행동과 사기 거래에 대해
PaySim
1
으로 시뮬레이션
된 거래 데이터로 구성되었습니다.
PaySim
은 확장 가능한 자원 효율적 시스템을 연구하던 연
구 그룹이 빅데이터 분석을 위해개발한 오픈 소스 도구입니다.
2
금융 거래와 같은 데이터에는 사용자의 정보가 들어 있고,이를 활용하면 필연적으로 사용자
정보가 노출되므로 시뮬레이션된 데이터를 사용하기로 했습니다. 데이터 분석가가 시뮬레이션
된 데이터와 실제 데이터의 분포가 매우 유사함을 검증했다고 가정합니다.
데이터셋은구글 클라우드 스토리지에서
CSV
파일로 제공합니다.
3
해당 데이터셋은
10
개의
열로 구성되며,이를열 이름,데이터 유형,참고 사항에 따라 정리하면 [표
5
-
1
]과 같습니다.
표
5-1
고객 이탈 데이터셋의 스키마 및 필드 정보
열 이름데이터 유형참고 사항
step
정수시뮬레이션 데이터가 생성된 단계 수
type
문자열거래 유형
amount
부동소수점거래 금액
nameOrig
문자열 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.
O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.