219
8 章
線形代数
数学は主として「定理の証明」であるとよく言われる。作家の仕事は主として「文を書くこと」ではないのか?
— ジャン・カルロ・ロタ
データサ
イエンスプロジェクトのデータの部分は、見つけた情報を 1 つ以上のデータ行列(できる限り大
きなもの)に変換することだ。個々の行列の行は項目や具体例を表すのに対し、列は個々の特徴や属性を
表す。
線形代数は、行列の数学である。数値を並べたものの性質とそれに作用する演算を研究する。そうした理
由から、線形代数はデータサイエンスの共通的な言語となっている。多くの機械学習アルゴリズムは、線形
代数を通じてよく理解できる。実際、線形回帰のような問題を解くアルゴリズムは、1 つの式で表すことが
できる。つまり、適切な行列を順次掛け合わせていくうちに、望ましい結果が得られる。そのようなアルゴ
リズムは、単純で線形代数との相性が良く、実装もしやすいが、効率的で頑健なものとするのは容易では
ない。
読者は今までに線形代数の講義を受けたことがあるだろうが、おそらく学んだことの大半を忘れてしまっ
ているだろう。この章では、知っておくべき大部分の内容を概説する。行列に対する基本演算とそれが役に
立つ理由、演算が行っていることの直観的な理解などである。
8.1 線形代数の威力
なぜ線形代数は強力なのか。線形代数は行列の抽象的な操作であるが、行列で表現できるような例はどこ
にでもある。そのような重要な例を示そう。
• データ:数値データセットの最も一般的に役に立つ形式は、n ×m 行列である。n 個の行が、物(物
体)、項目、事例を表すのに対し、m 個の列はそれぞれ別々の特徴を表す。つまり、座標軸を作る。
• 幾何学的な点の集合:n × m 行列は、空間内の点の集まりを表現できる。 ...