4章テキスト分類

整理整頓は、何かをする前にすべきことです。

何かをしたときに、すべてが混ざってしまわないように。

—— A・A・ミルン

誰もが、メールのチェックを毎日、何度もしています。多くのメールサービス事業者は、スパムメールを通常のメールから自動的に分離する機能を提供しています。この機能は、本章で取り上げているテキスト分類と呼ばれるタスクのユースケースです。テキスト分類とは、与えられたテキストに、複数のカテゴリ集合から1つ以上のカテゴリを割り当てるタスクです。電子メールのスパム分類器の例では、スパムと非スパムの2つのカテゴリがあり、各受信メールはこれらのカテゴリのいずれかに割り当てられます。いくつかの特性に基づいてテキストを分類するこのタスクは、ソーシャルメディア、Eコマース、医療、法律、マーケティングなど、多様なドメインで幅広く応用されています。テキスト分類の目的や用途はドメインごとに異なっていても、根底にある抽象的な問題は変わりません。このように、中核となる問題が不変であり、無数のドメインに応用されていることから、テキスト分類は、産業界でもっとも広く使用され、学術界でもっとも研究されているNLPのタスクとなっています。本章では、テキスト分類の有用性と、ユースケースに合わせたテキスト分類器の構築方法を、実際のシナリオに合わせた実践的なヒントとともに紹介します。

機械学習において、分類とは、データを1つ以上の既知のクラスに分類する問題です。データは、テキスト、音声、画像、数値など、さまざまな形式から成ります。テキスト分類は、分類問題の特別な場合です。テキスト分類の入力データはテキストであり、その目標はテキストを事前に定義されたバケット(クラス)の集合のうち、1つ以上のバケットに分類することです。「テキスト」は、1文字、1単語、1文、1段落、あるいは文書全体など、任意の長さにできます。ある製品に対するカスタマーレビューを、ポジティブ、ネガティブ、ニュートラルの3つのカテゴリに分類したいというシナリオについて考えてみましょう。テキスト分類の課題は、この分類を、各カテゴリのデータ集合から学習し、新しい未知の製品やカスタマーレビューのカテゴリを予測することです。ただ、分類するカテゴリは必ずしも1つとは限らず、複数のカテゴリになる場合もあります。このことを理解するために、テキスト分類の分類法を簡単に見てみましょう。 ...

Get 実践 自然言語処理 ―実世界NLPアプリケーション開発のベストプラクティス now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.