시간여행을 소재로 한 <백 투 더 퓨쳐> 영화의 주인공들이 미래를 엿봄으로써 재앙을 불러올 뻔한
순간을 경험한다. 머신러닝에서도 모델이 미래를 엿보는 것은 문제를 일으킬 수 있다.
한편으로, 우리는 동일한 고객에 대한 데이터를 분할된 데이터셋 중 한 곳에 모두 같이 모아두
고 싶을 수 있다. 그렇지 않으면 개인의 고객 데이터가 여러 분할에 분산되어 문제가 발생할 수
있다. 이를 해결하려면 분할을 생성하기 전에
customer
_
id
별로 데이터를 그룹화하면 된다.
하지만 우리의 예제에서 훈련시킬 모델은
customer
_
id
별로 데이터를 그룹화하는 것을 필요
로 하지 않기 때문에 이 그룹화 과정은 생략한다.
세이지메이커로 대규모 데이터셋을 처리할 때 클러스터의 여러 인스턴스에 걸쳐 데이터를 분
할할 수 있다. 이것을
샤딩 샤딩
sharding
이라고 하는데 나중에 사이킷런, 아파치 스파크, 텐서플로우를
사용해 세이지메이커 클러스터의 여러 인스턴스에서 데이터 변환 작업을 할 때 더 자세히 살펴
볼 것이다.
6.1.4 6.1.4
원시 텍스트를 원시 텍스트를
BERTBERT
임베딩으로 변환하기 임베딩으로 변환하기
이번 절에서는 텐서플로우와 최신 자연어 처리
natural ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month, and much more.