4章データ検証
「3章 データの取り込み」では、さまざまなソースからパイプラインにデータを取り込む方法について説明しました。本章では、図4-1に示すように、データの検証方法を紹介します。
データはあらゆる機械学習モデルの基礎であり、モデルの有用性と性能は、モデルの学習、検証、分析で用いたデータに依存します。ご存じのとおり、ロバストなデータがなければ、ロバストなモデルは構築できません。口語風に言えば、「ゴミを入れればゴミが出てくる(garbage in, garbage out)」というフレーズを耳にしたことがあるでしょう。このフレーズには、学習データが厳選・検証されていなければ、モデルは性能を発揮しないという意味があります。つまり、モデルに性能を発揮させることこそが、パイプラインの最初にデータの検証をする目的です。
本章では、最初にデータ検証の必要性を説明し、次にデータ検証を支援するPythonパッケージTensorFlow Data Validation(TFDV)を紹介します。その後、ご自身のデータサイエンスプロジェクトでTFDVを使う方法を示し、一般的なユースケースと非常に便利なワークフローを紹介します。
データ検証ステップでは、パイプライン内のデータが特徴エンジニアリングステップで期待されているものかチェックします。また、複数のデータセットを比較するのにも役立ちます。さらに、データが時間の経過とともに変化する場合、その問題を浮かび上がらせてくれます。そのような問題の例として、モデルへ入力されるデータが学習時と推論時で大きく異なる場合などが挙げられます。 ...
Get 入門 機械学習パイプライン ―TensorFlowで学ぶワークフローの自動化 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.