第6章 理論、概念、メンテナンス
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
はじめに
これまで、トレーニング・データの実用的な基本、つまり、どのように立ち上げ、実行し、どのように仕事のスケーリングを始めるかについて説明してきた。基本を理解したところで、さらに高度な概念、推測理論、メンテナンスの方法について説明しよう。
この章では、次のことを取り上げる:
セオリー
概念
サンプル作成
メンテナンス
世界を理解し、知的に解釈するためにマシンを訓練することは、途方もない作業のように感じられるかもしれない。しかし朗報がある。舞台裏のアルゴリズムが力仕事の多くをこなしてくれるのだ。学習データに関する我々の主な関心事は、「アライメント」、つまり何が良くて、何が無視されるべきで、何が悪いかを定義することに集約される。もちろん、実際のトレーニングデータには、うなずいたり首を振ったりするだけでは不十分だ。曖昧な人間用語を、マシンが理解できるように変換する方法を発見しなければならない。
技術的な読者への注意:この章は、トレーニングデータとデータサイエンスの関係についての概念的な理解を助けるためのものでもある。ここで取り上げたいくつかの概念に関するデータサイエンスの技術的な詳細は、本書の範囲外であり、トピックの言及はトレーニングデータとの関連においてのみであり、網羅的な説明ではない。
セオリー
トレーニングデータについてよりよく考えるのに役立つと思う理論がいくつかある。
ここでは箇条書きで理論を紹介し、各セクションでそれぞれの理論を説明する:
システムは、そのスキーマがあって初めて役に立つ。
意図的に選ばれたデータがベストだ。
人間による監視は、古典的なデータセット(異常検出など)とは異なる。
トレーニングデータはコードのようなものだ。
誰がデータを監督するかが重要だ。
トレーニングデータの使用に関する仮定を表面化する。
トレーニングデータの作成、更新、維持が仕事だ。
システムはスキーマと同じだけ有用である
これを説明するために、 "完璧なシステム "を想像してみよう。
例えば、街頭画像のような任意のサンプルに対して、「信号」や「一時停止標識」のようなスキーマを100%の確率で、失敗することなく自動的に検出することを完璧と定義しよう。
商業的に意味のある意味で完璧なのだろうか?
残念ながら、我々の "完璧な "システムは実際には完璧ではない。
というのも、祝杯を挙げ、塵も積もれば山となるで、私たちは信号を検知したいだけでなく、それが赤か、赤左か、緑か、緑左か、なども検知したいことに気づくからだ。この例の続きで、トレーニングデータを新しいクラス(赤、緑など)で更新する。そしてまたもや問題にぶつかる。光が遮られることがあるのだ。今度は、オクルージョンを考慮してトレーニングしなければならない。おっと、夜の例、雪に覆われた例など、リストはまだまだ続く。
初期化されたシステムがどんなにうまく計画されていたとしても、現実は複雑で常に変化する。私たちのニーズやスタイルは変化する。システムは、スキーマを設計し、更新し、維持する私たちの能力と同じくらいしか役に立たないだろう。
理想的なAI」は、我々が定義した抽象化(スキーマ)を、完璧に検出する。したがって、抽象化、つまりスキーマは、予測の精度と同じくらい、あるいはそれ以上に重要である。GenAIシステムの場合、このスキーマはアラインメントプロセスの ...