book

データエンジニアリングの設計パターン

by Bartosz Konieczny

April 2025

Beginner to intermediate

374 pages

5h 49m

Japanese

O'Reilly Media, Inc.

Read now

Unlock full access

本書で使用されている慣例本書の構成本書の使い方本書を読み進める前に知っておくべきことは何か？用語集とコード例オライリー・オンライン・ラーニング問い合わせ先謝辞
デザインパターンとは何か？さらにデザインパターン？一般的なデータエンジニアリングパターン本書で使用したケーススタディ概要
フルロードパターンフルローダーインクリメント負荷パターンインクリメントローダーパターンデータキャプチャを変更するレプリケーションパターンパススルー・レプリケーターパターントランスフォーメーション・リプリケーターデータ圧縮パターンコンパクターデータの準備パターンレディネス・マーカーイベント・ドリブンパターン：外部トリガー概要
処理不能な記録パターンデッドレター重複記録パターン窓付きデュプリケーター後期データパターン後期データ検出器パターンスタティック・レイト・データ・インテグレーターパターンダイナミック・レイト・データ・インテグレーターフィルタリングパターンフィルターインターセプターフォールト・トレランスパターンチェックポインター概要
上書きパターン高速メタデータクリーナーパターンデータの上書き更新情報パターン合併パターンステートフル・マージャーデータベースパターンキー付きべき乗パターントランザクション・ライター不変性データセットパターンプロキシ概要
データの充実パターンスタティック・ジョイナーパターンダイナミック・ジョイナーデータデコレーションパターンラッパーパターンメタデータ・デコレーターデータ集約パターン分散アグリゲーターパターンローカル・アグリゲーターセッション化パターンインクリメント・セッショナイザーパターン：ステートフルセッショナイザーデータの注文パターンビンパックオーダーパターンFIFOオーダラー概要
シーケンスパターンローカル・シーケンサーパターンアイソレーテッド・シーケンサーファンインパターン：整列ファンインパターン：アンアライン・ファンインファンアウトパターン：パラレルスプリットパターンエクスクルーシブ・チョイスオーケストレーションパターンシングルランナーパターンコンカレント・ランナー概要
データ削除パターンバーチカル・パーティショナーパターンインプレイス・オーバーライターアクセス・コントロールパターン：テーブルのきめ細かいアクセッサーパターン：リソースのきめ細かいアクセッサーデータ保護パターン暗号機パターンアノニマイザーパターン疑似匿名化コネクティビティパターンシークレット・ポインターパターンシークレットレス・コネクター概要
パーティショニングパターン水平パーティショナーパターンバーチカル・パーティショナー記録組織パターンバケットパターンソーター読み取り性能の最適化パターンメタデータ・エンハンサーパターンデータセット・マテリアライザーパターンマニフェストデータ表現パターンノーマライザーパターンデノーマライザー概要
品質執行パターン監査-執筆-監査-出版パターンコンストレインツ・エンフォーサースキーマの一貫性パターンスキーマ互換性エンフォーサーパターンスキーマ・マイグレーター品質観察パターンオフライン・オブザーバーパターンオンラインオブザーバー概要

データ検出器パターンフロー中断検出器パターンスキュー検出器時間検出器パターンラグ検出器パターンSLAミス検出器データの系譜パターンデータセットトラッカーパターンファイングレイントラッカー概要
データ・インジェスト・デザイン・パターンエラー管理のデザインパターンべき等デザインパターンデータバリューのデザインパターンデータフローデザインパターンデータセキュリティのデザインパターンデータストレージのデザインパターンデータ品質デザインパターンデータ可観測性デザインパターン

Content preview from データエンジニアリングの設計パターン

第4章. べき等デザインパターン

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

データエンジニアリングの各活動は、最終的にエラーにつながる。ありがたいことに、正しく実装されたエラー管理デザインパターンは、エラーのほとんどに対処する。そう、すべてではなく、ほとんどである。しかし、なぜなのか？

一時的な故障からの自動リカバリーの例を見てみよう。エンジニアリングの観点からは、再試行回数を設定する以外に何もすることがないので、これは素晴らしい機能だ。しかし、データの観点からは、この素晴らしい機能は一貫性という重大な課題をもたらす。再試行されたタスクor演算子は、ターゲット・データストアで既に成功した書き込み演算子を再生する可能性があり、最良のシナリオでは重複につながる。重複はコンシューマ側で削除できるので、重複は最善のシナリオである。しかし、逆の場合を想像してみよう。再試行されたアイテムは重複を発生させ、それが同じデータであることさえわからないため、削除することができない！悪夢とデータセットの悪評を歓迎しよう。

うまくいけば、この章で紹介する冪等性デザインパターンを使って、これらの問題を軽減できるかもしれない。しかし、それらがデータエンジニアリングにどのように適用されるかを知る前に、idempotencyの定義を思い出してみよう。これを説明するのに最適な例は、absolute 関数だ。入力引数が負の数でも正の数を返す単純なメソッドだ。なぜべき等なのか？関数を何度呼び出しても、常に同じ結果が得られるからだ。つまり、absolute(-1) == absolute(absolute(absolute(-1))) 。

データエンジニアリングの文脈における冪等性も同じ目的を持っている。データ処理ジョブを何度実行しても、重複のない、あるいは重複が明確に識別できる一貫した出力が得られるようにする方法だ。ところで、重複を避けることは常に可能というわけではない。トランザクションプロデューサをサポートしていないメッセージングシステムにデータを生成した場合、再試行でも重複エントリが生成される可能性がある。しかし、idempotent処理のおかげで、コンシューマはそのようなレコードを識別することができる。

この章では、データ工学における様々な冪等性のアプローチについて学ぶ。データセットを完全に上書きできる場合、あるいはサブセットしか利用できない場合の対処法を学ぶ。また、データベースを活用してidempotency戦略を実装する方法についても学ぶ。最後に、データセットは不変性を保ちつつも冪等性を維持するデザインパターンを紹介する。

そして、パターンを見る前に最後にもうひとつ：2018年、最先端の論文「Functional Data Engineering」でidempotencyを流行らせたMaxime Beauchemin（）をここに特殊化して残しておきたい：バッチデータ処理のためのモダンなパラダイム」である。

上書き

第一のべき乗ファミリーは、データ削除のシナリオをカバーしている。新しいデータを書き込む前に既存のデータを削除するのは、最も簡単なアプローチである。しかし、大きなデータセットでこれを実行すると、計算量が多くなることがある。そのため、削除を処理するために、データまたはメタデータベースのソリューションを使うことができる。