1章データエンジニアリング概説
データやソフトウェアに関連する仕事をしているなら、データエンジニアリングがデータサイエンスの影から現れ、今やデータサイエンスと肩を並べるまでになっていることに気づいているだろう。データエンジニアリングは、データとテクノロジにおいて最も活発な分野の1つだが、そうなって当然の理由がある。データエンジニアリングは、データサイエンスやデータアナリティクス†1を実運用するための基盤を構築する。本章では、データエンジニアリングとは何か、この分野の誕生と発展、さらにデータエンジニアに要求されるスキル、データエンジニアリングに関連する他の分野について述べる。
[†1] 訳注:「分析・解析」に相当する英語には analyticとanalysisがある。両者の区別はそれほど厳密ではないが、analysisが情報を解釈する行為一般を広く指すのに対して、analyticsは統計などを用いてより詳細に情報を解析する行為を指す。本書ではanalyticsを「アナリティクス」、analysisを「分析」と訳出している。
1.1 データエンジニアリングとは何か
データエンジニアリングは現在高く評価されているが、データエンジニアリングとは何なのか、データエンジニアが何をするのかについては、統一された見解があるわけではない。データエンジニアリングは、企業がデータを使って、予測的分析、記述的分析、レポートなどを行うようになったときから何らかの形で存在したが、2010年代にデータサイエンスが台頭するにつれて脚光を浴びるようになった。本書ではまず、データエンジニアリングとデータエンジニアを定義しなければならない。
まず、データエンジニアリングが世間一般でどのように説明されているかを見て、本書で使用する用語を確立しよう。データエンジニアリングの定義は無限に存在する。2022年初頭の時点で、Googleで「what ...