第8章. オートメーション
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
はじめに
自動化は堅牢なプロセスの作成、面倒なワークロードの削減、品質の向上に役立つ。この章で扱う最初のトピックは、プリラベリング(アノテーションの前にモデルを実行すること)である。基本をカバーした後、データの一部だけにプレ・ラベルを付けるような、より高度な概念について説明する。
次に、対話型オートメーションとは、ユーザがアルゴリズムを助けるために情報を追加することである。インタラクティブ・オートメーションの最終的なゴールは、アノテーション作業を、人間の思考の延長として、より自然なもの()にすることだ。例えば、多角形によってマークされたより狭い場所を自動的に得るためにボックスを描くことは、私たちにとって直感的に感じられる。
品質保証(QA)は、トレーニング・データ・ツールの一般的な使い方()のひとつである。私は、グランドトゥルースをデバッグするためにモデルを使用するようなエキサイティングな新しいメソッドをカバーする。他のツールは、自動的にベースケースをチェックし、一般化のためにデータを見る。
事前ラベリング、インタラクティブな自動化、そしてQAツールは、あなたを大きく前進させるだろう。基礎を学んだ後は、データ探索と発見の重要な側面について説明する。データをクエリし、最も関連性の高い部分だけにラベルを付けることができたらどうなるだろうか?この領域には、未知のデータセットを管理可能なサイズにフィルタリングするなどの概念が含まれる。
今回はデータ補強について、その一般的な使われ方と注意点について触れる。データオーグメンテーションとは、ベースとなる情報をもとに新たなデータを導き出すことである。その観点からは、ベースとなる情報をコアとなる学習データと考え、その導出プロセスであるオーグメンテーションをマシンラーニングの最適化と考えるとわかりやすいだろう。そのため、トレーニングデータの範疇を逸脱する部分もあるが、意識しておく必要がある。シミュレーションや合成データは状況に応じた使い道があるが、性能の限界については前面に出さなければならない。
この章では、多くのことを解き明かし、試してみたい。まずは、現在一般的に使われているプロジェクトプランニングのプロセスとテクニックを詳しく見てみよう。
はじめに
人件費の高騰、人手不足、繰り返し作業、十分な生データを得ることがほぼ不可能なケースなど、これらは自動化を使用する動機の一部である。自動化の中には、より実用的なものもある。まず、よく使われるメソッドの概要を説明し、次にどのような結果が期待でき、また期待できないかを説明する。最後に、オートメーションに関して最もよく混乱する2つの領域、完全自動ラベリングと独自メソッドについて説明する。
コストとリスクを見て、このセクションを締めくくる。このセクションは、概念がどのようにマッピングされているか、そして最終的には、それらが実際にあなたの仕事にどのように役立つかを示すものである。また、あなたの読み取りを方向付けるのに役立ち、一般的な解決パスを素早く調べるための参考資料としても機能する。
モチベーションを高める:いつこれらのメソッドを使うのか?
トレーニングデータを扱うとき、、自動化が役立つ問題に遭遇する可能性が高い。表8-1は、自動化に焦点を当てたソリューションで最も一般的な問題をいくつか取り上げている。