Skip to Content
머신러닝 파워드 애플리케이션: 아이디어에서부터 완성된 제품까지, 강력한 머신러닝 애플리케이션 구축 과정 배우기
book

머신러닝 파워드 애플리케이션: 아이디어에서부터 완성된 제품까지, 강력한 머신러닝 애플리케이션 구축 과정 배우기

by 박해선, 에마뉘엘 아메장
September 2021
Beginner to intermediate
304 pages
5h 42m
Korean
Hanbit Media, Inc.
Content preview from 머신러닝 파워드 애플리케이션: 아이디어에서부터 완성된 제품까지, 강력한 머신러닝 애플리케이션 구축 과정 배우기
126
2
초기 프로토타입 제작
샘플을 레이블링하면서 어떤 과정으로 결정을 내렸는지 확인해보세요. 이렇게 하면 모델에 유
용한 특성을 생성하고 트렌드를 찾아내는 데 도움이 됩니다.
4.3.4
데이터 트렌드
데이터를 레이블링하고 나면 일반적으로 트렌드를 읽을 수 있습니다. 일부는 유용한 정보 (짧
은 트윗이 긍정이나 부정으로 분류하기 쉽다는 경향)를 담고 있어 모델에 유익한 특성을 생성
하는 데 도움이 됩니다. 일부는 데이터의 수집 방식 때문에 상관관계가 없을 수도 있습니다.
수집한 프랑스어 트윗이 모두 부정적이라면 모델은 자동으로 프랑스어 트윗을 부정으로 분
류하게 됩니다. 더 폭넓고 대표성이 뛰어난 샘플에서 모델이 얼마나 부정확할지 판단해야 합
니다.
이런 종류의 문제가 생기더라도 절망하지 마세요! 모델을 만들기 시작하기 전에 이런 종류의
트렌드를 발견하는 것이 중요합니다. 왜냐하면 훈련 데이터에서 모델 성능을 인공적으로 부풀
린 뒤 제품에 모델을 투입하면 잘 동작하지 않기 때문입니다.
편향된 샘플을 다루는 가장 좋은 방법은 추가적인 데이터를 모아 훈련 세트의 대표성을 높이는
겁니다. 모델이 편향되는 것을 피하기 위해 훈련 데이터에서 편향된 특성을 제거할 수도 있습
니다. 하지만 실전에서는 모델이 종종 다른 특성과의 상관관계를 활용해 편향을 일으키기 때문
에 효과적이지 않을 수 있습니다 (
8
장 참조 ).
어떤 트렌드를 발견했다면 이를 활용할 차례입니다. 대부분 두 가지 방법 중 하나를 사용합니
다. 트렌드가 잘 드러나는 특성을 만들거나 이를 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

머신러닝을 위한 실전 데이터셋: 개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기

머신러닝을 위한 실전 데이터셋: 개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기

심상진, 칼리드 엘 에맘, 루시 모스케라, 리처드 홉트로프

Publisher Resources

ISBN: 9791162244692