第7章 ビッグデータ ビッグデータ
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
7.0 はじめに
データは "新しい金"と呼ばれることがある。多くの企業()は、利用可能なデータ・サイエンス・ツールが改良され続けているため、日々新しくエキサイティングな方法でデータを活用している。最新の分析ツールを使えば、過去の膨大なデータから洞察やパターンを素早く探し出すことができる。データに対して実行する必要のあるクエリや分析はまだわからないかもしれないが、明日には、新しく登場したテクニックを使った過去のデータ分析によってサポートできる課題に直面するかもしれない。より安価なデータストレージの実装により、多くの組織や個人はデータを廃棄するのではなく、保持しておくことを選択し、履歴分析を実行してビジネス上の洞察を得たり、トレンドを発見したり、AI/MLモデルを訓練したり、データを使用できる将来のテクノロジーを実装する準備をしたりできるようになっている。
時間の経過とともに収集するデータ量が増えるだけでなく、収集するデータの種類や構造も多様化し、その速度もますます速くなっている。センサー・データを収集するためにIoTデバイスをデプロイすることを想像してほしい。継続的なデプロイを長期的に続けていくと、スケーラブルな方法でデータをキャプチャしストアする方法が必要になる。これは、構造化データ、半構造化データ、非構造化データなどがあり、新しいデータソースが取り込まれると、スキーマを予測するのが難しくなるかもしれない。多様なデータを変換・分析できるツールが必要だ。
Francis Jayakumar氏による有益で簡潔なAWS re:Invent 2020のプレゼンテーション "An Introduction to Data Lakes and Analytics on AWS"は、ビッグデータとアナリティクスのためにAWSで利用可能なもののハイレベルな紹介を提供している。この章では、もう一冊の本が書けるほど多くの内容を盛り込むことができたが、S3へのデータ送信、S3上のデータの発見、データの変換といった基礎的なレシピに焦点を当て、AWS上でデータを扱う例を紹介する。
ワークステーションの構成
この章のレシピのために、、いくつかのものをインストールしておく必要がある。
一般設定
CLIレシピのための一般的なワークステーションのセットアップ手順」に従って、設定を確認し、必要な環境変数をセットアップする。それから、章コード・リポジトリをクローンする:
git clone https://github.com/awscookbook/BigData
7.1ストリーミングデータの取り込みにKinesisストリームを使う
問題
アプリケーション用にストリーミング・データを取り込む方法が必要だ。
解決策
Kinesisストリームを作成し、図7-1に示すように、AWS CLIを使用してストリームにレコードを追加し、動作することを確認する。
図7-1. Kinesisストリームを使ってストリーミング・データを取り込む
ステップ
-
Kinesisストリームを作成する:
aws ...