book

머신러닝 시스템 설계

by 칩 후옌, 김대근, 김영민

March 2023

Beginner to intermediate

436 pages

9h 20m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

Content preview from 머신러닝 시스템 설계

216

머신러닝 시스템 설계

6.1.4 6.1.4

분산 훈련분산 훈련

모델이 점점 커지고 자원을 대량으로 사용함에 따라 대규모 훈련은 기업들의 관심 대상이 되고

있습니다.

확장성에 대한 전문성은 대규모 연산 자원을 다루는 경험이 필요하기에 쉽게 얻을

수 없습니다. 확장성 자체는 책 여러 권으로 다룰 만한 중요한 주제이지만 이 절에서는 대규모

을 수행할 때 발생 가능한 문제점에 집중합니다. 프로젝트를 위한 자원 계획을 수립하는 데

도움이 될 핵심 문제 몇 가지를 살펴봅니다.

모델 훈련에 메모리 크기보다 큰 데이터를 사용하는 일은 드물지 않습니다.

스캔이나 유전

체 염기서열

genome

sequences

같은 의료 데이터를 다룰 때 특히 그렇습니다. 대규모 언어 모델, 예

컨대 오픈

, 구글, 엔비디아, 코히어

Cohere

등을 훈련하는 팀에서 일한다면 텍스트 데이터로

인해 그런 상황이 발생하죠.

데이터가 메모리 크기보다 크다면 데이터 전처리(예:

으로 중심값 맞추기, 정규화, 화이트

닝), 셔플링, 데이터 배치 분할 처리를 수행하는 알고리즘 작업을 아웃 오브 코어 형태 그리고

병렬로 처리해야 합니다.

데이터 샘플 크기가 크다면, 예컨대 머신 한 대로 한 번에 처리 가

능한 샘플 수가 적다면 작은 배치로 연산을 처리해야 하는데, 이로 인해

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

개발 7년차, 매니저 1일차

권원상, 한민주, 카미유 푸르니에

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리

개발자를 위한 머신러닝&딥러닝

로런스 모로니

러닝 타입스크립트

조시 골드버그

Publisher Resources

ISBN: 9791169210850