5章データセットを探索
前章では、Amazon AthenaとAmazon Redshiftを使ってクラウドにデータを取り込む方法を紹介しました。Athenaは、クラスターのセットアップ、スケーリング、および管理を必要とせずに、S3内のデータに対するアドホックでサーバーレスなSQLクエリを提供します。Redshiftは、企業レポートやビジネスインテリジェンスワークロードのための、特にリレーショナルデータベースやフラットファイルを含む多くのデータソースにまたがる複数のジョインやサブクエリを含む複雑なSQLを行うワークロードに対して、最速のクエリパフォーマンスを発揮します。AWS Glue Catalogを使用して、S3ベースのデータレイクのデータカタログマッピングを作成しました。Athenaを使ってデータレイクでアドホックなクエリを実行しました。また、Redshiftデータウェアハウスのクエリを実行しました。
また、データセットの中身を少し覗いてみました。Amazon Customer Reviews Datasetは、1995年から2015年までの間に得られた、Amazon.comウェブサイト上の43個の商品カテゴリーの商品に対する1億5千万件以上のカスタマーレビューから構成されています。このデータセットには、実際のカスタマーレビューのテキストと追加のメタデータが含まれています。データのフォーマットは2種類あります。行ベースのタブ区切り値(TSV)と列指向のApache Parquetです。
本章では、SageMaker Studio統合開発環境(IDE)を、データ分析とモデル開発ライフサイクルのための主要なワークスペースとして使用します。SageMaker Studioは、フルマネージドのJupyter ...
Get 実践 AWSデータサイエンス ―エンドツーエンドのMLOpsパイプライン実装 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.