4章スパムフィルタ、単純ベイズ、データラングリング

この章のゲスト講師はジェイク・ホフマン(Jake Hofman)です。ジェイク・ホフマンは、最近Yahoo!リサーチを離職し、現在はマイクロソフトリサーチで働いています。彼はコロンビア大学で物理学の博士号を取得し、現在はコロンビア大学でデータ駆動型モデリングについての素晴らしい定期講義や計量社会科学の新しい講義を行っています。

他のゲスト講師と同じく、まず最初にジェイクのデータサイエンスに関するプロフィールを紹介します。彼は、彼自身がデータサイエンスの一分野とした「データラングリング(data wrangling)」と呼ばれる分野の専門家です。彼は、自分がデータラングリングにこれほど多くの時間を費やしているのは、それが得意だからか苦手だからかわからないと打ち明けました(それはもちろん、得意だからです)。

4.1 思考実験:スパムフィルタの例から学ぶ

まず図4-1に示した一連のテキストを見てみることから始めましょう。テキストの各行には、受信トレイにあるメールの件名と本文の最初の行が含まれています。

いくつかのメールは、スパムメールのように見えることに気付いたかもしれません†1

[†1] 訳注:図に示されたメールのタイトルを見ると、ダイエットサプリや車のローン、ブランド製品のレプリカなどの広告メール、動画への誘導メールなどが普通の電子メールに混じって届いているようだ。

あなたは、どうしてそれがスパムであるとわかったのでしょうか。あなたの脳がしたように、自動でスパムを見つけ出すスパムフィルタのコードを書くことができるのでしょうか。

図4-1 怪しいスパムメール

レイチェルの講義では、スパムの明確な指標となる特徴について次のようなアイデアが出されました。 ...

Get データサイエンス講義 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.