4章クラウドへのデータの取り込み

 本章では、クラウドにデータを取り込む方法を紹介します。このために、アプリケーションがAmazon Simple Storage Service(Amazon S3)データレイクにファイルを書き出し、図4-1に示すように、そのデータレイクにはMLエンジニアリング/データサイエンスチームやビジネスインテリジェンス/データアナリストチームがアクセスする必要があるという、典型的なシナリオを見てみましょう。

図4-1 アプリケーションがデータサイエンスチーム、機械学習エンジニアリングチーム、ビジネスインテリジェンスチームのためにデータをS3データレイクに書き出す

図4-1 アプリケーションがデータサイエンスチーム、機械学習エンジニアリングチーム、ビジネスインテリジェンスチームのためにデータをS3データレイクに書き出す

 Amazon S3は、フルマネージドのオブジェクトストレージであり、極めて高い耐久性、高可用性、および無限のデータスケーラビリティを非常に低いコストで提供します。そのため、データレイク、訓練データセット、モデルの基盤として理想的です。次節では、Amazon S3でデータレイクを構築するメリットについて詳しく説明します。

 ここでは、アプリケーションが継続的にデータ(ウェブサイトでの顧客とのやり取り、商品レビューのメッセージなど)を取得し、そのデータをタブ区切り値(TSV)ファイル形式でS3に書き込むと仮定しましょう。

 データサイエンティストや機械学習エンジニアとしては、生のデータセットを素早く探索したいものです。ここでは、Amazon Athenaをインタラクティブなクエリサービスとして活用して、データを移動することなく標準的なSQLを使ってS3のデータを分析する方法を紹介します。最初のステップでは、S3バケット内のTSVデータをAthenaに登録し、データセットに対していくつかのアドホックなクエリを実行します。また、TSVデータを、よりクエリに最適化された列指向ファイルフォーマットであるApache ...

Get 実践 AWSデータサイエンス ―エンドツーエンドのMLOpsパイプライン実装 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.