第4章. テクニカル・インタビューモデルトレーニングと評価
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
この章では、 MLモデルのトレーニングプロセスと関連するインタビュー質問を取り上げる。多くの実務家にとって、モデルのトレーニングは最もエキサイティングな部分であり、私もそう思う。しかし、MLモデルのトレーニング、ハイパーパラメータのチューニング、様々なアルゴリズムの実験を始めるには、データが必要だ。機械学習の核心は、アルゴリズムにデータのパターンを発見させ、そのパターンに基づいて予測や決定を下すことだ。有用なデータを持つことはMLの基礎であり、業界の格言にあるように、"Garbage in, garbage out."(ゴミを入れればゴミが出る)である。つまり、MLモデルが役に立たないデータでトレーニングされている場合、結果として得られるモデルや推論も役に立たないということだ。
データ処理とクリーニングの概要から始め、生データをMLアルゴリズムに有用な(そして互換性のある)形式に変換する。次に、異なるシナリオにおけるMLアルゴリズム間のトレードオフや、与えられた問題に対して一般的に最適なものを選択する方法など、アルゴリズムの選択について説明する。
その後、モデルのトレーニングと、モデルのパフォーマンスを最適化するプロセスについて説明する。これは曖昧で困難なプロセスであり、ハイパーパラメータのチューニングや実験のトラッキングなど、ベストプラクティスを学ぶことで、最良の結果が失われるのを防ぎ、再現性を確保することができる。その上で、実用的な意味でのMLアルゴリズムがいつ優れているかを知る方法についても説明する。これにはモデルの評価と、ベースラインモデルやベースラインヒューリスティックとの比較が含まれる。モデル評価は、新しい未知のデータに対するモデルの有効性を判断し、モデルが実世界でオーバーフィット、アンダーフィット、あるいはその他の点でパフォーマンスが低下する可能性があるかどうかを発見するのにも役立つ。
注
スペースが許す限り、一般的なMLの面接テクニックを紹介しようと試みたが、太陽の下にはもっと多くのテクニックがある。リンク先のリソースをチェックして、学習と面接の準備を進めてほしい!
この章を通して、MLインタビューに成功するための実践的なヒントや例を挙げていく。この章が終わるころには、データのクリーニング、前処理、モデルのトレーニング、評価のプロセスについてSolidityを理解し、自分のインタビューでそれらをうまく議論できるようになっているはずである。
機械学習の問題を定義する
このセクションでは、MLの問題の定義について、なぜ、そしてどのようにインタビューの質問に現れるのかを含め、大まかな概要を説明する。
次のようなシナリオを考えてみよう:候補者であるあなたは、あなたが構築したMLプロジェクトについて説明している。目標は、ユーザが特定の歌手のコンサートの宣伝メールをクリックするかどうかを予測することだ。1ユーザがアーティストAを聴いた時間を使って、誰がそのアーティストのプロモーションメールを送るかを決めることができそうだ。例えば、週に5時間以上アーティストAを聴いている場合、そのリスナーの地域でアーティストAのコンサートがあればメールを送る。機械学習を使わず、あなたのモデルと同じことを達成するもっとシンプルなアプローチがあることを考えると、なぜMLを選んだの ...