Skip to Content
머신러닝 시스템 설계
book

머신러닝 시스템 설계

by 칩 후옌, 김대근, 김영민
March 2023
Beginner to intermediate
436 pages
9h 20m
Korean
Hanbit Media, Inc.
Content preview from 머신러닝 시스템 설계
141
4
훈련 데이터
하는 것입니다. 트위터 해시태그 주제 분류 작업에서 해시태그 사이의 유사성을 사용하는 것
이 좋은 예입니다. 일단 해시태그 ‘#
AI
’에 ‘컴퓨터 과학’이라는 레이블을 지정합니다. 같은 트
윗이나 프로필에 함께 사용된 해시태그끼리 주제가 같다고 가정한다면, [그림
4
-
6
]처럼
MIT
CSAIL
프로필에 사용된 해시태그 ‘#
ml
’과 ‘#
bigdata
’도 ‘컴퓨터 과학’이라는 레이블을 지정할
수 있죠.
그림
4-6
‘#
ml
’과 ‘#
bigdata
’는 ‘#
AI
’와 같은 프로필에 적혀 있으므로 주제가 같다고 볼 수 있습니다.
대부분의 경우 유사성을 찾으려면 더 복잡한 방법을 적용해야 합니다. 예를 들어, 클러스터링
방법이나
k
-최근접 이웃 알고리즘을 적용해 동일한 클러스터에 속하는 샘플을 찾아냅니다.
최근 몇 년간은 교란
perturbation
기반 준지도 학습 방법이 큰 인기를 얻었습니다. 이 방법은 샘플
에 작은 교란 신호를 더했을 때 레이블이 변하면 안 된다는 가정에 기초합니다. 따라서 훈련 대
상 샘플에 작은 교란 신호를 더해 새로운 훈련 대상 샘플을 얻습니다. 교란 신호는 샘플에 직접
적용하거나 (예: 이미지에 백색 잡음 추가 ) 샘플 표현에 적용합니다 (예: 단어 임베딩에 작은
무작위 값 추가 ). 교란 신호를 적용한 샘플과 미적용한 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

개발 7년차, 매니저 1일차

개발 7년차, 매니저 1일차

권원상, 한민주, 카미유 푸르니에
견고한 데이터 엔지니어링

견고한 데이터 엔지니어링

조 라이스, 맷 하우슬리
러닝 타입스크립트

러닝 타입스크립트

조시 골드버그

Publisher Resources

ISBN: 9791169210850