11章因果関係

この本で取り上げた多くのモデルや例では、予測の基本的な問題を扱ってきました。8章の例で議論したように、レコメンデーションエンジンを構築する目的は、ある人が映画や本などある商品を好むかどうかを予測することです。モデルに入れる「特徴」は多量にあり、特徴選択を行って特徴を減らしていきますが、最終的にモデルは予測の正確性が最大になるように最適化されます。正確度を最大化しようとするとき、人は必ずしも特徴の意味解釈について深く考えることはありません。特に、数千もの特徴があれば、それを解釈するのはほとんど無理であると言えます。

さらに、レコメンデーションエンジンに使った特定の特徴が、あるアイテムを購入する原因であると主張するのは難しいでしょう。例えば、Amazonで本の購入予測やレコメンデーションをするモデルを構築し、その特徴として「Wes McKinney著のO'Reillyの本『Pythonによるデータ分析入門』(『Python for Data Analysis』)を買ったかどうか」が選択されたとします。しかし、その本を読んだことが、この本を読む原因となったとは言えないでしょう。その特徴は、正確度の最大化のプロセスで発見され明らかになった、単によい予測因子であるというだけです。相関関係から単純に因果関係を想定してしまうことは、既に頭に刷り込まれているかもしれません。しかし、ここで強調しておきたいのは、このようなモデルやシステムを構築する意図は、その因果関係を理解することではなく、予測することです。そして、もしあなたが因果関係を理解するためのモデルを構築したいのであれば、違った方法で取り組まなければなりません。

因果関係を理解したい場合、つまりある事柄がある結果を引き起こしたと言いたいときには、実際にはこれまで使ってきた同じ統計手法(ロジスティック回帰や線形回帰など)を問題解決の一部として使いますが、解決しようとする問題はこれまでと全く違ったものです。こうした問題に取り組む場合の考え方、あるいはゴールは、予測の正確性を最大化することではなく、原因を特定することです。 ...

Get データサイエンス講義 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.