8章データセットエンジニアリング
モデルの品質は学習データの品質に依存します。世界最高の機械学習チームが無限の計算能力を持っていても、データがなければ良いモデルをファインチューニングすることはできません。データセットエンジニアリングの目標は、理想的には予算内で最高のモデルを訓練できるデータセットを作成することです。
モデルをゼロから開発できる企業が減るにつれ、AIの性能で差別化を図るためにデータに注目する企業が増えています。モデルがより多くのデータを必要とするようになると、その取り扱いはさらに難しくなり、人材とインフラへの投資が一層求められます†1。
[†1] データの重要性の高まりは、GPT-3からGPT-4にかけてのデータへの取り組みの変化にも表れています。GPT-3のコントリビューターリスト(OpenAI, 2020, https://oreil.ly/R4-VI)では、データの収集、フィルタリング、重複排除、そして学習データの重複分析の担当者としてクレジットされていたのはわずか2人でしたが、この状況は3年後には劇的に変わりました。GPT-4(OpenAI, 2023, https://oreil.ly/F9Fyc)では、さまざまなデータプロセスに関与したとして80人の名前がクレジットされています。このリストには、OpenAIがデータプロバイダーを通じて契約したデータアノテーターは含まれていません。ChatMLフォーマットという単純に聞こえるものに対しても、11人が関与し、その多くはシニアリサーチャーでした。2016年のAMA(ask me anything)スレッド(https://oreil.ly/h-lAl)で、OpenAIの共同創設者の1人であるWojciech Zarembaは、研究の大部分を公開されているデータセットを使用して行うつもりだと述べていました。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access