
533
13
장
텐서플로에서 데이터 적재와 전처리하기
등장하므로 보통은 흥미로운 정보가 없지만 대부분의 텍스트에서 큰 값을 가집니다 (예를 들어
"
more
and
more
basketball
"
텍스트에서
"
basketball
"
는 자주 등장하는 단어가 아니기 때
문에 확실히 가장 중요한 단어입니다). 따라서 단어 카운트는 자주 등장하는 단어의 중요도를
줄이는 방향으로 정규화되어야 합니다. 자주 사용하는 방법은 전체 샘플 수를 단어가 등장하
는 훈련 샘플 개수로 나눈 로그를 계산한 후 단어 카운트와 곱하는 것입니다. 이런 기법은
TF
-
IDF
term
frequency
-
inverse
document
frequency
라고 부릅니다. 예를 들어
"
and
"
,
"
basketball
"
,
"
more
"
단어가 훈련 세트에서 각각
200
,
10
,
100
번 등장하고 전체 샘플 개수가
500
개라면 최종 벡터
는
[
1
*
log
(
1
+
500
/(
1
+
200
)),
0
*
log
(
1
+
500
/(
1
+
10
)),
2
*
log
(
1
+
500
/(
1
+
100
))]
가 되므로
약
[
1
.
25
,
0
.,
3
.
57
]
가 됩니다.
19
TextVectorization
층에
TF
-
IDF
옵션이 (아마도 ) 포함
될 것입니다.
NOTE
_
표준 전처리 층이 주어진 작업에 충분하지 않다면 앞서 만들었던
Standardization
클래스와 같 ...