
8.3 行列の分解 233
メータが少なくなる。これらのより抽象化された特徴は、データセットの行の簡潔な記述として他の
応用例でも役に立つかもしれない。
• C
T
は、
A
T
に代わる小さな特徴行列になる:特徴行列を転置すると、列(特徴)が行(要素)にな
る。分解後の行列 C
T
は、m 個の行とその性質を表す k 個の列を持つ。多くの場合、m 個のもとの
「特徴」には、独立にモデリングする価値がある。
テキスト分析の分野の代表的な例について考えてみよう。使用される語彙の観点から、n 個の文書(ツ
イートや SNS のメッセージのような文書)を表現したいとする。それぞれ m 個の特徴は、異なる語彙に対
応しており、A[i, j] は、メッセージ i に含まれる語彙で w
j
(例えば cat)の数を表す。英語で使われている
語彙は非常に多く、頻度の低い語彙もたくさんある。したがって、m = 50, 000 のように最も頻繁に使われ
る単語だけに制限する。ほとんどのメッセージは短く、数百語以上にはならない。そこで、この特徴行列 A
は、0 が多くある疎な行列となる。
A = BC のような分解ができて、内部次元 k が比較的小さいものとする。ここでは、k = 100 としてお
こう。すると、各メッセージは、5 万個ではなく、わずか 100 個の数値しか持たない B の 1 行によって表
現される。これなら意味のある形でテキストが似ているかどうか、はるかに簡単に比較できる。これら k 個
の次元は、文書の「トピック」のようなものと考えることができる。スポーツ関連のメッセージでは、メッ ...