Skip to Content
머신러닝 파워드 애플리케이션: 아이디어에서부터 완성된 제품까지, 강력한 머신러닝 애플리케이션 구축 과정 배우기
book

머신러닝 파워드 애플리케이션: 아이디어에서부터 완성된 제품까지, 강력한 머신러닝 애플리케이션 구축 과정 배우기

by 박해선, 에마뉘엘 아메장
September 2021
Beginner to intermediate
304 pages
5h 42m
Korean
Hanbit Media, Inc.
Content preview from 머신러닝 파워드 애플리케이션: 아이디어에서부터 완성된 제품까지, 강력한 머신러닝 애플리케이션 구축 과정 배우기
113
4
초기 데이터셋 준비하기
BoW
표현이나 이를 정규화한 버전인
TF
-
IDF
term
frequency
inverse
document
frequency
는 다음처럼
이킷런에서 쉽게 사용할 수 있습니다.
# TfidfVectorizer 클래스 객체를 만듭니다.
# 정규화되지 않은 CountVectorizer를 사용할 수도 있습니다.
vectorizer = TfidfVectorizer()
# vectorizer를 데이터셋에 있는 질문에 훈련하면
# 벡터화된 텍스트의 배열이 반환됩니다.
bag_of_words = vectorizer.fit_transform(df[df["is_question"]]["Text"])
2013
Word2Vec
17
부터 시작해서
fastText
18
같은 최신 방식까지 수년간 여러 가지 새로운
텍스트 벡터화 방법이 개발되었습니다. 이 벡터화 기법은
TF
-
IDF
인코딩보다 개념 사이의 유
사도를 더 잘 감지하는 표현을 학습하는 단어 벡터를 생성합니다. 위키백과 같은 대용량의 텍
스트에서 비슷한 문맥에서 나타나는 단어를 학습하여 이런 표현을 만듭니다. 이런 방식은 분포
가 비슷하면 언어적 요소가 비슷한 의미를 가진다고 주장하는 분포 가설을 기반으로 합니다.
구체적으로 이 방식은 각 단어 벡터를 학습하고, 주변 단어의 단어 벡터를 사용해 빠진 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

머신러닝을 위한 실전 데이터셋: 개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기

머신러닝을 위한 실전 데이터셋: 개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기

심상진, 칼리드 엘 에맘, 루시 모스케라, 리처드 홉트로프

Publisher Resources

ISBN: 9791162244692