第5章 ワークフロー ワークフロー
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
はじめに
データのトレーニングとは、データを使って人間の意味を作成することだ。そのためには当然、人間が不可欠な要素である。この章では、トレーニング・データにおける人間のワークフローについて、その要点を解説する。
まず、ワークフローがいかに技術と人間の接着剤であるかを簡単に説明する。人間の作業に対する動機から始め、ワークフローの中核となるテーマへと話を進める:
はじめに
品質保証
アナリティクスとデータ探索
データの流れ
ディレクトリ注釈
Getting Started with Human Tasks」では、スキーマが残りやすい理由、ユーザの役割、トレーニングなど、基本的なことを話す。次に理解すべき最も重要なことは、品質保証(QA)である。私は構造的なレベルに焦点を当て、人間のアノテーターを信頼するための重要な動機、標準的なレビューのループ、よくあるエラーの原因について考える。
QAを開始し、基本的なQAを行った後、タスクやデータセットなどを分析する方法について学び始めるだろう。このセクションでは、データをデバッグするためにモデルを使う方法、そしてより一般化したモデルの扱い方について説明する。
データフロー、つまりデータを動かし、人間の前に出し、そしてモデルに渡すことは、ワークフローの重要な部分である。
最後に、直接アノテーションそのものを深く掘り下げることで、この章を締めくくる。この章では、ビジネス・プロセスの統合、既存データの監督、インタラクティブな自動化といったハイレベルな概念と、ビデオ・アノテーションの詳細な例を取り上げる。
技術と人間の接着剤
データエンジニアリングと人間の作業そのものとの間にあるのが、ここでワークフローと呼ぶ概念である。
ワークフローとは、技術的なデータ接続とそれに関連する人間のタスクの間に起こるすべての定義であり、「接着剤」である。
例えば、データエンジニアリングはバケットをトレーニングデータプラットフォームに接続するかもしれない。しかし、そのデータをタスクに取り込むタイミングはどうやって決めるのか?タスクが完了した後はどうするのか?優れたワークフローは、人間のタスクが完了する前と後に、データとプロセスを正しい方向に進める。
このような管理者の決定を実装するために必要なコードは、アドホックなメモ、単発のスクリプト、その他かなりもろい成果物やプロセスで構成されていることが多い。さらにこれを複雑にしているのが、プライバシーフィルターの実行、データの事前ラベリング、ルーティング、ソート、サードパーティのビジネスロジックとの統合など、中間的なステップの選択が増えていることだ。
その代わり、優れたワークフローは一般的に、、次のような特徴を目指す:
プロセスを明確に定義し、ステージ間のグルー・コードを可能な限り表面化させる。
人間の仕事が明確に含まれている
よく理解されたタイミング・プロトコル:何が手動で、何が自動で、そしてその間にあるものすべてである。
どのようなデータセットまたはデータのスライス(例:データクエリ)を使用するかを含む、明確に定義されたエクスポートステップ。
ウェブフック、トレーニングシステム、プレラベリングなど、サードパーティのステップや統合がすべて明確に示されている。
例えば、大規模なオーケストレーション・システムやモデル・トレーニング・システムに接続する場合など、明確なシステム境界や ...