4章特徴量スケーリングによる効果:Bag-of-WordsのTF-IDFによる重み付け

Bag-of-Wordsは取り組みやすい方法ではありますが、欠点が無い訳ではありません。全ての単語を同じようにしてカウントすると、必要以上に強調されてしまう単語があるためです。3章のエマ(Emma)とカラス(raven)の例を用いて説明します。2つの文書の違いを表す特徴がどのように表現できるかを考えます。“Emma”と“raven”という単語はいずれも3回現れますが、“the”は8回、“and”は5回、“it”と“was”はそれぞれ4回現れます。この例のように、単純な出現頻度だけでは文書の特徴を表現できません。

ここで各文書には、雄大に(magnificently)、微光(gleamed)、怖気づいた(intimidated)、恐る恐る(tentatively)、支配(reigned)などの雰囲気を表現する単語が含まれていることに着目しましょう。したがって、このような意味のある(meaningful)単語が強調されるような特徴を表現できる方法を用いるべきです。

4.1 TF-IDF:Bag-of-Wordsに対するシンプルな変換方法

TF-IDFはBag-of-Words に対するシンプルな変換方法です。TF-IDFはTFとIDFの積になります。TFは単語の出現頻度(Term Frequency)、IDFは逆文書頻度(Inverse Document Frequency)を意味しています。TFは、各文書における各単語の出現回数であるBag-of-Wordsを正規化して頻度に変えたものです。IDFはある単語がどれほど情報をもたらすかを表す量です。多くの文書に出現する単語の影響が弱くなり、ごく一部の文書に出現する単語の影響が強くなります。きちんと定義を書くと以下になります。 ...

Get 機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.