6章モデル訓練のためのデータセットの準備
前章では、Amazon SageMaker StudioとさまざまなPythonベースの可視化ライブラリを使用してデータセットを探索しました。Amazon Customer Reviews Datasetを使用して、商品カタログに関する重要なビジネス洞察を得ました。さらに、SageMaker Processing Job、Apache Spark、AWS Deequオープンソースライブラリを使用して、データセットの要約統計量を分析し、品質チェックを行いました。
本章では、「特徴量エンジニアリング」と呼ばれるプロセスで、人間が読めるテキストを機械が読めるベクトルに変換する方法について説明します。具体的には、Amazon Customer Reviews Datasetから生のreview_body
列をBERTベクトルに変換します。これらのBERTベクトルを使って、「7章 最初のモデル訓練」と「8章 大規模なモデルの訓練と最適化」では、レビュー分類器モデルの訓練と最適化を行います。また、「7章 最初のモデル訓練」では、自然言語処理とBERTの起源について深く掘り下げます。
レビュー分類器モデルを使って、ソーシャルチャネルやパートナーサイトなどからの商品レビューのstar_rating
を予測します。レビューのstar_rating
を予測することで、製品管理チームやカスタマーサービスチームは、この予測を利用して、品質問題が公にエスカレーションされた際に、利用者からのメールや電話を待つことなく対処することができます。これにより、品質問題を検出するまでの平均時間は、数日/数ヶ月から数分/数時間に短縮されます。
6.1 特徴量選択と特徴量エンジニアリングを行う ...
Get 実践 AWSデータサイエンス ―エンドツーエンドのMLOpsパイプライン実装 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.