book

머신러닝 시스템 설계

by 칩 후옌, 김대근, 김영민

March 2023

Beginner to intermediate

436 pages

9h 20m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

Content preview from 머신러닝 시스템 설계

141

장

훈련 데이터

하는 것입니다. 트위터 해시태그 주제 분류 작업에서 해시태그 사이의 유사성을 사용하는 것

이 좋은 예입니다. 일단 해시태그 ‘#

’에 ‘컴퓨터 과학’이라는 레이블을 지정합니다. 같은 트

윗이나 프로필에 함께 사용된 해시태그끼리 주제가 같다고 가정한다면, [그림

]처럼

MIT

CSAIL

프로필에 사용된 해시태그 ‘#

’과 ‘#

bigdata

’도 ‘컴퓨터 과학’이라는 레이블을 지정할

수 있죠.

그림

4-6

‘#

’과 ‘#

bigdata

’는 ‘#

’와 같은 프로필에 적혀 있으므로 주제가 같다고 볼 수 있습니다.

대부분의 경우 유사성을 찾으려면 더 복잡한 방법을 적용해야 합니다. 예를 들어, 클러스터링

방법이나

-최근접 이웃 알고리즘을 적용해 동일한 클러스터에 속하는 샘플을 찾아냅니다.

최근 몇 년간은 교란

perturbation

기반 준지도 학습 방법이 큰 인기를 얻었습니다. 이 방법은 샘플

에 작은 교란 신호를 더했을 때 레이블이 변하면 안 된다는 가정에 기초합니다. 따라서 훈련 대

상 샘플에 작은 교란 신호를 더해 새로운 훈련 대상 샘플을 얻습니다. 교란 신호는 샘플에 직접

적용하거나 (예: 이미지에 백색 잡음 추가 ) 샘플 표현에 적용합니다 (예: 단어 임베딩에 작은

무작위 값 추가 ). 교란 신호를 적용한 샘플과 미적용한 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

개발 7년차, 매니저 1일차

권원상, 한민주, 카미유 푸르니에

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리

개발자를 위한 머신러닝&딥러닝

로런스 모로니

러닝 타입스크립트

조시 골드버그

Publisher Resources

ISBN: 9791169210850