Skip to Content
AWS 기반 데이터 과학
book

AWS 기반 데이터 과학

by 크리스 프레글리, 안티 바르트, 최미영, 이용혁 (감수), 서진호
April 2023
Beginner to intermediate
664 pages
15h 49m
Korean
Hanbit Media, Inc.
Content preview from AWS 기반 데이터 과학
267
6
모델 훈련을 위한 데이터셋 준비
다 더 좋은 퍼포먼스를 보이는 것으로 판단될 수 있다.
5
NOTE_
시간여행을 소재로 한 <백 투 더 퓨쳐> 영화의 주인공들이 미래를 엿봄으로써 재앙을 불러올 뻔한
순간을 경험한다. 머신러닝에서도 모델이 미래를 엿보는 것은 문제를 일으킬 수 있다.
한편으로, 우리는 동일한 고객에 대한 데이터를 분할된 데이터셋 중 한 곳에 모두 같이 모아두
고 싶을 수 있다. 그렇지 않으면 개인의 고객 데이터가 여러 분할에 분산되어 문제가 발생할 수
있다. 이를 해결하려면 분할을 생성하기 전에
customer
_
id
별로 데이터를 그룹화하면 된다.
하지만 우리의 예제에서 훈련시킬 모델은
customer
_
id
별로 데이터를 그룹화하는 것을 필요
로 하지 않기 때문에 이 그룹화 과정은 생략한다.
세이지메이커로 대규모 데이터셋을 처리할 때 클러스터의 여러 인스턴스에 걸쳐 데이터를 분
할할 수 있다. 이것을
샤딩 샤딩
sharding
이라고 하는데 나중에 사이킷런, 아파치 스파크, 텐서플로우를
사용해 세이지메이커 클러스터의 여러 인스턴스에서 데이터 변환 작업을 할 때 더 자세히 살펴
볼 것이다.
6.1.4 6.1.4
원시 텍스트를 원시 텍스트를
BERTBERT
임베딩으로 변환하기 임베딩으로 변환하기
이번 절에서는 텐서플로우와 최신 자연어 처리
natural ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

풀스택 서버리스: 리액트, AWS, 그래프QL을 이용한 최신 애플리케이션 개발

풀스택 서버리스: 리액트, AWS, 그래프QL을 이용한 최신 애플리케이션 개발

김범준, 네이더 다빗
SRE를 위한 시스템 설계와 구축

SRE를 위한 시스템 설계와 구축

헤더 애드킨스, 벳시 바이어, 폴 블랭킨십, 피오트르 레반도프스키, 애나 오프레아, 애덤 스터블필드

Publisher Resources

ISBN: 9791169210942