했습니다. 그리고 이 과정에서 예측 시점의 데이터가 아직 변환되지 않아 부정확한 결과로 이
어지는학습-서빙 왜곡이라는 문제가 자연스럽게 드러났습니다.
또 다른 일반적인 문제는 예측을 위해 입력된 데이터 형식이 학습에 사용된 데이터와는 다를
수 있다는 점입니다. 가령 학습 데이터는
CSV
형식을 따르지만,예측 서비스에 입력된 데이터
는 웹 애플리케이션에서 일반적으로 사용하는
JSON
형식일 수 있습니다.
모델로 예측 서비스를 제공하려고 할 때는 지금껏 수행한 모든 변환을 되돌아보는 것이 중요합
니다. 모든 변환 작업을 하나의 함수에 포함해서 예측 시점에도 해당 함수를 포함해 모델의 예
측이 호출되기 전에 데이터가 적절히 변환되도록 하면 편리할 수 있습니다.
데이터를 변환할 때는다음과 같은 단계를 수행했습니다.
1
.
TotalCharges
의 데이터 유형이
float
인지를 확인하고자 데이터를 정리했습니다.
2
.
DiffBuckets
라는 신규 특징을 만들었습니다.
3
.
CustomerID
,
gender
,
StreamingTV
,
StreamingMovies
,
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.
O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.