book

リアルタイム分析システムの構築

Name: リアルタイム分析システムの構築
Author: Mark Needham
ISBN: 9798341626881

by Mark Needham

March 2025

Beginner to intermediate

220 pages

3h 15m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

序文
序文
本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
1.リアルタイム分析入門
イベントストリームとは何か？ストリーミング・データを理解するリアルタイム分析とは何か？リアルタイム分析の利点新たな収入源洞察へのタイムリーなアクセスインフラコストの削減総合的なカスタマー・エクスペリエンスの向上リアルタイム分析の使用例ユーザ向けアナリティクスパーソナライゼーションメトリック異常検出と根本原因分析視覚化アドホック分析ログ分析/テキスト検索リアルタイム分析アプリケーションを分類する内向きと外向きマシンと人間の対決概要
2.リアルタイム分析エコシステム
リアルタイム分析エコシステムの定義クラシック・ストリーミング・スタック複雑なイベント処理ビッグデータ時代現代のストリーミング・スタックイベントプロデューサーストリーミング・データ・プラットフォームストリーム処理レイヤーサービング・レイヤーフロントエンド概要
3.生地のすべてを紹介するピザのリアルタイム分析
既存のアーキテクチャセットアップMySQLApache KafkaZooKeeper注文サービスコンポーネントをスピンアップするデータを検査するリアルタイム分析の応用概要
4.KafkaストリームでKafkaをクエリする
Kafkaストリームとは何か？Quarkusとは何か？QuarkusアプリケーションQuarkus CLIのインストールQuarkusアプリケーションの作成トポロジーの作成キーバリューストアをクエリするHTTPエンドポイントの作成アプリケーションを実行するHTTPエンドポイントをクエリするKafkaストリームの限界概要
5.サービングレイヤーアパッチ・ピノ
なぜ他のストリームプロセッサーを使えないのか？なぜデータウェアハウスは使えないのか？アパッチ・ピノとは何か？ピノはどのようにデータをモデル化し、ストアしているのか？スキーマテーブルセットアップデータの取り込みピノ・データ・エクスプローラーインデックスウェブアプリを更新する概要
6.リアルタイム分析ダッシュボードを構築する
ダッシュボードアーキテクチャストリームリットとは何か？セットアップダッシュボードを構築する概要
7.変更データ・キャプチャーで製品の変更を把握する
演算子データベースからの変更点の取得変更データの取得なぜCDCが必要なのか？CDCとは何か？CDCを実装するための戦略とは何か？ログベースのデータ収集CDCシステムの要件デベシウムCDCをAATDに適用するセットアップMySQLにDebeziumを接続する製品ストリームをクエリする製品を更新する概要
8.Kafkaストリームでストリームを結合する
Kafkaストリームで注文を充実させるピノにオーダー項目を追加する受注サービスを更新するStreamlitダッシュボードをリフレッシュする概要

9.サービング・レイヤーのアップサート
注文状況エンリッチド・オーダー・ストリームアパッチ・ピノのアップサート受注サービスを更新するUsersResourceの作成allUsersエンドポイントを追加するユーザ・エンドポイントの注文を追加する個別注文のエンドポイントを追加するクロスオリジンリソース共有を設定するフロントエンドアプリダッシュボードでの注文状況各注文ステータスに費やした時間注文が滞っている可能性がある概要
10.地理空間クエリ
配送状況アパッチ・ピノをアップデートする受注状況配送状況受注サービスを更新する個別注文地域別受注遅延新しいAPIエンドポイントを消費する概要
11.生産に関する考慮事項
プリプロダクションキャパシティ・プランニングデータのパーティション分割スループットデータ保持データの粒度合計データサイズ複製因子デプロイプラットフォーム社内スキルデータのプライバシーとセキュリティコストコントロールポストプロダクションモニタリングとアラートデータガバナンス概要
12.実世界におけるリアルタイム分析
コンテンツ・レコメンデーション（プロフェッショナル・ソーシャルネットワーク）問題点解決策利点オペレーショナル・アナリティクス（ストリーミング・サービス）問題点解決策利点リアルタイム広告分析（オンライン・マーケットプレイス）問題点解決策利点ユーザ向けアナリティクス（コラボレーションプラットフォーム）問題点解決策利点概要
13.リアルタイム分析の未来
エッジ分析コンピューティングとストレージの分離データレイクハウスリアルタイムデータ可視化ストリーミング・データベースサービスとしてのストリーミング・データ・プラットフォーム逆ETL概要
インデックス
著者について

Content preview from リアルタイム分析システムの構築

第7章. 変更データキャプチャで製品の変更を取得する

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

AATDの演算子は現在、注文数と事業の収益についてしっかりとした概要を把握することができる。欠けているのは、製品レベルで何が起きているのかがわからないことだ。事業の他の部分からの苦情によると、注文が急増している商品もあれば、在庫が多すぎる商品もあるという。

現在、個々の商品に関するデータはMySQLデータベースに保存されているが、それをリアルタイム分析アーキテクチャに取り込む必要がある。この章では、変更データキャプチャ（CDC）と呼ばれるテクニックを使って、これを行う方法を学ぶ。

演算子データベースからの変更点の取得

ビジネスでは、トランザクションを演算子、つまりOLTP データベースに記録することが多い。しかし、どのように分析すればよいのだろうか。

従来、ETLパイプラインは、演算子データベースからデータウェアハウスのような分析用データベースにデータを移動するために使用されてきた。これらのパイプラインは定期的に実行され、ソースデータベースから大量のバッチでデータを抽出した後、分析用データベースにロードする前にデータを変換していた。

この古典的なアプローチの問題点は、データ収集から意思決定までの遅延が大きいことであった。例えば、典型的なバッチパイプラインでは、オペレーションデータから洞察を得るまでに数分、数時間、数日を要する。

もし、ソース・データベースに加えられた変更を、その都度リアルタイムで捕捉する仕組みがあるとしたらどうだろう？ CDCテクノロジーの出番である。

変更データの取得

このセクションでは、CDCを定義し、なぜそれが必要なのかを説明し、それを実現するためのテクニックを説明する。最後に、CDCツールのデファクトスタンダードとして登場したDebeziumについて説明する。

なぜCDCが必要なのか？

アプリケーションを構築し始めた当初は、、すべてのデータニーズに対して単一のデータベースを使用することで済ませられることが多い。しかし、アプリケーションが進化するにつれて、異なるデータアクセスパターンを持つようになり、異なるデータモデルを必要とするようになる。

例えば、全文検索を行う検索エンジン、読み取りを高速化するキャッシュ、データの複雑な履歴分析を行うデータウェアハウスなどが必要になるかもしれない。

図7-1は、アプリケーションが複数のデータシステムをどのように使用するかを示している。

複数のシステムにデータを持つことは、データの信頼できる情報源に関する新たな問題を引き起こす。データの信頼できる情報源とは、権威のあるバージョンである。異なるシステムのデータの間に矛盾がある場合、私たちは信頼できる情報源を信頼する。

したがって、データソースの1つを信頼できる情報源として指定する必要がある。他のシステムは、図7-2に示すように、そのソースデータを取得し、独自の変換を適用し、独自の表現で保存することができる。これらのシステムは、実質的に派生データでオペレーティングシステムを作成している。データを失っても、信頼できる情報源から再作成できるので、特に問題にはならない。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341626881

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills