Skip to Content
データエンジニアリングの設計パターン
book

データエンジニアリングの設計パターン

by Bartosz Konieczny
April 2025
Beginner to intermediate
374 pages
5h 49m
Japanese
O'Reilly Media, Inc.
Content preview from データエンジニアリングの設計パターン

付録 パターンのまとめ

一度にすべてのパターンを扱うことはまずないだろう。データエンジニアリングの旅を通じて、さまざまなパターンに直面することになるだろう。その代わり、それらを簡単に見つけ、現在直面している問題に適応させることができるはずだ。

この作業を簡単にするために、この本で紹介されているデザインパターンの要約と、その主な使用例と厄介な点を簡単に思い出してほしい。

データ・インジェスト・デザイン・パターン

パターン名 使用例 ゴッチャ
フルローダー 完全なデータセットをロードする
  • データセットの増加に伴うデータ量の増加
  • ロード・プロセスにおけるデータの一貫性
インクリメンタルローダー データセットのチャンクをロードする
  • 物理的に削除された行をロードする
  • バックフィル時のロードデータ量
変更データの取得 データセットのチャンクを随時読み込む
  • セットアップの複雑さ(データベース層)
  • スコープを全体的に、またはセットアップ後にのみ変更する
  • データは静止したまま
パススルー・レプリケーター 情報を変更せずにデータセットを複製する
  • シリアライゼーションの副作用(日付の書式が崩れるなど)。
  • 生産リソースの分離
  • PIIデータ
  • インフラ経由で自動化された場合の遅延の影響
  • 関連性があれば複製するメタデータ
トランスフォーメーション・レプリケーター カスタム変換でデータセットを複製する
  • スキーマベースの変換のため、属性が誤ってフォーマットされるリスクが高い。
  • PIIデータの定義は最新である。
コンパクター インジェストされたファイルの保存を最適化する。
  • 圧縮回数がリソースに与える影響
  • 圧縮ファイルのハウスキーピング作業
レディネス・マーカー いつデータの取り込みを開始すべきかを知る
  • 条約に基づく実装のためのエンフォースメントの欠如
  • レディネス定義の信頼性(例:データの遅れ)
外部トリガー 不定期に発生するデータを効率的に取り込む
  • リソースとコストへの継続的な影響
  • 実行コンテキストの欠如
  • 呼び出しエラー時の再生可能性のためのエラー管理

エラー管理のデザインパターン

パターン名 使用例 ゴッチャ
デッドレター メインのデータ処理フローを中断することなくエラーを処理する。
  • 雪だるま式埋め戻し効果
  • 順序と一貫性
  • エラーセーフ関数の実装
  • 隠れたエラー
窓付きデュプリケーター 処理したデータセットから重複を取り除く
  • スペース対時間
  • 一回きりの配達には不十分
後期データ検出器 遅れているデータを特定する
  • APIでのネイティブサポート
  • 遅刻戦略
静的および動的な後期データ・インテグレーター すでに生成されたデータセットに後期データを含める
  • 雪だるま式埋め戻し
  • ストレージ・フットプリント(小さなファイル)
  • スケジューリングの複雑さ
  • リソースの無駄遣い
  • スタティック・ルックバック・ウィンドウの埋め戻しが制限される
  • インクリメントデータセットと埋め戻し
フィルターインターセプター レコードをフィルタリングする条件付きレコードを特定する。
  • ランタイムへの影響
  • 宣言型言語(SQLなど)の複雑さ
  • インターセプター統計のストリーミング
チェックポインター 仕事の進捗状況を保存する
  • 配信保証と実行時間のバランス
  • 正確には一度ではない!

べき等デザインパターン

パターン名 使用例
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

FastAPIで生成型AIサービスを作る

FastAPIで生成型AIサービスを作る

Alireza Parandeh
データガバナンス定義ガイド

データガバナンス定義ガイド

Evren Eryurek, Uri Gilad, Valliappa Lakshmanan, Anita Kibunguchy-Grant, Jessi Ashdown

Publisher Resources

ISBN: 9798341640931Supplemental Content