まえがき

本書の成り立ちを説明しておこう。本書は我々著者のデータサイエンスからデータエンジニアリングへの旅に深く根ざしている。我々はよく冗談で「回復期のデータサイエンティスト」と名乗っている。我々はふたりとも、適切な基礎知識を持たないままデータサイエンスのプロジェクトを任され、プロジェクトの遂行に苦労した経験を持つ。我々のデータエンジニアリングへの旅は、データ基盤とインフラストラクチャを構築するデータエンジニアリングの仕事を引き受けたことに始まった。

データサイエンスの台頭に伴って、企業は大きな見返りを期待して、データサイエンス人材に多額の資金を投じた。しかし、データサイエンティストはしばしば、彼らが受けてきた教育やトレーニングでは対処できない基本的な問題に苦慮した。データ収集、データクレンジング、データアクセス、データ変換、データインフラストラクチャなどだ。データエンジニアリングが解決しなければならないのは、このような問題だ。

本書は何ではないか

本書の内容と、読者が本書から学ぶであろうことを説明する前に、本書では説明「しない」ことを簡単に述べておこう。本書は特定のツール、技術、プラットフォームを用いたデータエンジニアリングの本ではない。このような観点で書かれた素晴らしいデータエンジニアリングテクノロジの書籍がたくさんあるが、そのような書籍の寿命は短い。本書はデータエンジニアリングの背後にある基本的なコンセプトに焦点を当てる。

本書の内容

本書の目的は、既存のデータエンジニアリングに関する記事や資料にあるギャップを埋めることだ。個々のデータエンジニアリングツールや技術に関する資料は十分にある。しかし、それらのコンポーネントを組み合わせて、実世界で使用できる全体として首尾一貫したシステムを構成する方法については良い資料がなく、エンジニアは苦しんでいる。本書は、データライフサイクルの最初から終わりまで、点と点をつないでいく。さまざまな技術を組み合わせて、アナリストやデータサイエンティスト、機械学習エンジニアといった下流プロセスのデータ消費者のニーズに応える方法を示す。本書は、個々の技術、プラットフォーム、プログラミング言語の詳細を扱った他のオライリー書籍群を補完する役割を果たす。 ...

Get データエンジニアリングの基礎 ―データプロジェクトで失敗しないために now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.