9章ラベルのないまたは少ない状況への対応方法

データサイエンティストの心に深く刻まれ、通常、新しいプロジェクトが始まると最初に聞かれる質問があります。それは、「ラベル付きデータはありますか?」という質問です。多くの場合、その答えは「ない」か「少し」です。しかし、クライアントからは「あなた方のチームの素晴らしい機械学習モデルであればうまくいくはずだ」と期待されています。一般的には、非常に小さなデータセットでモデルを学習しても、良い結果は得られません。この問題に対する明らかな解決策は、より多くのデータにアノテーションすることです。しかし、アノテーションには時間とお金がかかり、その傾向はアノテーションの検証に専門知識が必要な場合はとくに顕著です。

幸いなことに、ラベルがほとんどない場合に適した手法がいくつかあります。ゼロショット学習(zero-shot learning)や少数事例学習(few-shot learning)という用語について耳にしたことがあるかもしれません。GPT-3は、わずか数十の事例だけを使って、さまざまなタスクを実行する素晴らしい能力を持っていることを示しました。

一般に、最適な手法は、タスクや利用可能なデータ量、およびそのデータの何割がラベル付けされているかによって異なります。図9-1に示す決定木は、もっとも適切な手法を選択するためのガイドとして役立ちます。

大量のラベル付きデータがない場合に、モデルの性能を向上させるために使用できるテクニック

図9-1 大量のラベル付きデータがない場合に、モデルの性能を向上させるために使用できるテクニック

Get 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.