Skip to Content
データ・パイプライン・ポケット・リファレンス
book

データ・パイプライン・ポケット・リファレンス

by James Densmore
March 2025
Beginner to intermediate
276 pages
3h 4m
Japanese
O'Reilly Media, Inc.
Content preview from データ・パイプライン・ポケット・リファレンス

第7章 パイプラインのオーケストレーション パイプラインのオーケストレーション

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com

これまでの章では、データ取り込み、データ変換、マシン学習パイプラインのステップなど、データパイプラインのビルドパイプライン( )要素について説明してきた。この章では、これらのブロックやステップを "オーケストレーション "する方法、つまり結びつける方法を説明する。

オーケストレーションは、パイプラインのステップが正しい順序で実行され、ステップ間の依存関係が適切に管理されることを保証する。

第2章でパイプラインのオーケストレーションの課題を紹介したとき、ワークフロー・オーケストレーション・プラットフォームワークフロー管理システム(WMS)、オーケストレーション・プラットフォームオーケストレーション・フレームワークとも呼ばれる)の概念も紹介した。この章では、最もポピュラーなフレームワークの1つであるApache Airflowを取り上げる。この章の大部分はAirflowの例に捧げられているが、概念は他のフレームワークにも転用可能である。実際、章の後半でAirflowに代わるものをいくつか紹介する。

最後に、この章の後半では、データインフラ上で複数のパイプラインを協調させるなど、パイプラインオーケストレーションのより高度な概念について説明する。

有向非周期グラフ

第2章でDAGを紹介したが、DAGが何であるかは繰り返し説明する価値がある。 この章では、Apache AirflowでDAGがどのように設計され実装され、データパイプラインのタスクをオーケストレーションするかについて説明する。

パイプラインのステップ(タスク)は常にディレクトリである。つまり、あるタスクまたは複数のタスクから始まり、特定のタスクで終わる。これは実行パスを保証するために必要である。言い換えれば、すべての依存タスクが正常に完了する前にタスクが実行されることがないようにするためである。

パイプライングラフはまた、非循環的でなければならない。つまり、あるタスクが以前に完了したタスクを指すことはできない。つまり、タスクを循環させることはできない。もしそうであれば、パイプラインは無限に走り続けることになる!

図7-1に示す、第2章のDAGの例を思い出してほしい。これはApache Airflowで定義されたDAGである。

dppr 0203
図7-1. つのタスクを持つDAG。タスクAが完了すると、タスクBとタスクCが実行される。両者が完了すると、タスクDが実行される。

Airflowにおけるタスクは、SQL文の実行からPythonスクリプトの実行まで、あらゆるものを表すことができる。以下のセクションで説明するように、Airflowではデータパイプラインのタスクを定義、スケジュール、実行し、それらが適切な順序で実行されるようにすることができる。

Apache Airflowのセットアップと概要

Airflowは、2014年にAirbnbのMaxime Beaucheminによって開始されたオープンソースプロジェクトである。 2016年3月にApache Software Foundationのインキュベーター・プログラムに参加した。Airflowは、データエンジニアリングチームが直面する共通の課題である、相互 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

実践的レイクハウス・アーキテクチャー

実践的レイクハウス・アーキテクチャー

Gaurav Ashok Thalpati
オブザーバビリティ・エンジニアリング

オブザーバビリティ・エンジニアリング

Charity Majors, Liz Fong-Jones, George Miranda, 大谷 和紀, 山口 能迪

Publisher Resources

ISBN: 9798341625822