book

リアルタイム分析システムの構築

by Mark Needham

March 2025

Beginner to intermediate

220 pages

3h 15m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
イベントストリームとは何か？ストリーミング・データを理解するリアルタイム分析とは何か？リアルタイム分析の利点新たな収入源洞察へのタイムリーなアクセスインフラコストの削減総合的なカスタマー・エクスペリエンスの向上リアルタイム分析の使用例ユーザ向けアナリティクスパーソナライゼーションメトリック異常検出と根本原因分析視覚化アドホック分析ログ分析/テキスト検索リアルタイム分析アプリケーションを分類する内向きと外向きマシンと人間の対決概要
リアルタイム分析エコシステムの定義クラシック・ストリーミング・スタック複雑なイベント処理ビッグデータ時代現代のストリーミング・スタックイベントプロデューサーストリーミング・データ・プラットフォームストリーム処理レイヤーサービング・レイヤーフロントエンド概要
既存のアーキテクチャセットアップMySQLApache KafkaZooKeeper注文サービスコンポーネントをスピンアップするデータを検査するリアルタイム分析の応用概要
Kafkaストリームとは何か？Quarkusとは何か？QuarkusアプリケーションQuarkus CLIのインストールQuarkusアプリケーションの作成トポロジーの作成キーバリューストアをクエリするHTTPエンドポイントの作成アプリケーションを実行するHTTPエンドポイントをクエリするKafkaストリームの限界概要
なぜ他のストリームプロセッサーを使えないのか？なぜデータウェアハウスは使えないのか？アパッチ・ピノとは何か？ピノはどのようにデータをモデル化し、ストアしているのか？スキーマテーブルセットアップデータの取り込みピノ・データ・エクスプローラーインデックスウェブアプリを更新する概要
ダッシュボードアーキテクチャストリームリットとは何か？セットアップダッシュボードを構築する概要
演算子データベースからの変更点の取得変更データの取得なぜCDCが必要なのか？CDCとは何か？CDCを実装するための戦略とは何か？ログベースのデータ収集CDCシステムの要件デベシウムCDCをAATDに適用するセットアップMySQLにDebeziumを接続する製品ストリームをクエリする製品を更新する概要
Kafkaストリームで注文を充実させるピノにオーダー項目を追加する受注サービスを更新するStreamlitダッシュボードをリフレッシュする概要

注文状況エンリッチド・オーダー・ストリームアパッチ・ピノのアップサート受注サービスを更新するUsersResourceの作成allUsersエンドポイントを追加するユーザ・エンドポイントの注文を追加する個別注文のエンドポイントを追加するクロスオリジンリソース共有を設定するフロントエンドアプリダッシュボードでの注文状況各注文ステータスに費やした時間注文が滞っている可能性がある概要
配送状況アパッチ・ピノをアップデートする受注状況配送状況受注サービスを更新する個別注文地域別受注遅延新しいAPIエンドポイントを消費する概要
プリプロダクションキャパシティ・プランニングデータのパーティション分割スループットデータ保持データの粒度合計データサイズ複製因子デプロイプラットフォーム社内スキルデータのプライバシーとセキュリティコストコントロールポストプロダクションモニタリングとアラートデータガバナンス概要
コンテンツ・レコメンデーション（プロフェッショナル・ソーシャルネットワーク）問題点解決策利点オペレーショナル・アナリティクス（ストリーミング・サービス）問題点解決策利点リアルタイム広告分析（オンライン・マーケットプレイス）問題点解決策利点ユーザ向けアナリティクス（コラボレーションプラットフォーム）問題点解決策利点概要
エッジ分析コンピューティングとストレージの分離データレイクハウスリアルタイムデータ可視化ストリーミング・データベースサービスとしてのストリーミング・データ・プラットフォーム逆ETL概要

Content preview from リアルタイム分析システムの構築

第5章. サービング・レイヤーアパッチ・ピノ

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

AATDは、スケーラブルなリアルタイム・アナリティクスを実現するためには、新しいインフラを導入する必要があるという結論に達したが、本格的なOLAPデータベースが必要だとはまだ確信していない。

この章では、リアルタイム分析用に設計された新しいタイプのOLAPデータベースの1つであるApache Pinotを紹介する前に、ストリームプロセッサを使ってストリームにクエリを提供できない理由を説明することから始める。orders ストリームを取り込む前に、Pinotのアーキテクチャとデータモデルについて学ぶ。その後、タイムスタンプインデックスについて学び、SQLを使ってPinotに対してクエリを記述する方法を学ぶ。

図5-1は、この章でインフラをどのように進化させていくかを示している。

なぜ他のストリームプロセッサーを使えないのか？

前章の最後で、Kafka Streamsを使ってストリーム上でクエリを提供することの限界について、、いくつか説明した（「Kafka Streamsの限界」参照）。(Kafka Streamsの限界」参照）これらは決してKafka Streamsを技術として批判しているわけではなく、Kafka Streamsが設計されたタイプの問題に実際に使っていなかったというだけのことだ。

なぜksqlDBやFlinkのような別のストリーム・プロセッサーを代わりに使えないのか？これらのツールはどちらもSQLインタフェースを提供しており、ストリームをクエリするためにJavaコードを書かなければならないという問題を解決している。

残念ながら、それでも根本的な問題を克服することはできない。ストリーム処理ツールは、分析クエリを大規模に実行するために構築されていないのだ。これらのツールは、ストリーム処理アプリケーションを構築する際に優れており、ストリームのフィルタリング、ストリームの結合、アラートの作成などに最適だ。

しかし、1秒間に何万、何千というリクエストを処理するようなアプリケーションを構築したいのであれば、このような状況用にカスタム構築されたOLAPデータベースを導入する必要がある。

なぜデータウェアハウスは使えないのか？

データウェアハウスはOLAPデータベースの一形態であるが、、、第2章で明らかにした要件（取り込み遅延、クエリ遅延、同時実行性）を満たさないため、リアルタイム分析には適していない。

バッチETLパイプラインは、BigQueryやRedshiftのようなビッグデータウェアハウスに。しかし、これは取り込み遅延を引き起こし、クエリ時にデータが古くなる。さらに、これらのクエリエンジンはミリ秒単位の遅延のために最適化されているのではなく、数秒単位の遅延を許容するアドホックなクエリのために最適化されている。最後に、我々のサービングレイヤーは、ユーザ向けのアプリケーションを構築する場合、毎秒数千のクエリに拡張する必要があり、これはデータウェアハウスのスイートスポットではない。