Microsoft Fabric Analytics Engineer Associateスタディガイド (Japanese Edition)
by Brian Bønk, Valerie Junk
第3章 データ変換
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
生データは、そのままレポートや分析に使えることはほとんどない。重複や欠損値、非一貫性のある形式が含まれていることが多く、テーブル間の関係性が最適化されていない場合もある。だからこそ、最終的な分析で使用するデータが正確で性能が良いものになるよう、データを変換しなければならない。
本章では、Fabricにおけるデータのクリーニング、エンリッチメント、変換のための様々なテクニックを調査する。まず、ロジックの再利用とデータ準備の簡素化のために、ビュー、関数、ストアドプロシージャの作成方法を探る。次に、新しい列の追加や関連テーブルの接続によるデータのエンリッチメント手法を考察する。続いて、ビジネス上の問いに適合させるために必要な、結合、集計、フィルタ、データ型の扱いについて解説する。 重複データ、欠損値、NULL値の処理方法についても説明する。データクリーニング後、高速かつ直感的な分析のためのデータ整理手法であるスタースキーマについて学ぶ。最後に、関連テーブルを1つに統合する非正規化について議論する。
ビュー、関数、ストアドプロシージャの作成
Fabricのレイクハウスやウェアハウスで構造化データを扱う際、プロセスの早い段階で変換を適用するメソッドは複数存在する。生データをPower BIにインポートしてそこで変換する代わりに、データ準備プロセス(例えばFabricウェアハウス内)でより早期に変換を定義できる。このアプローチは、大量のデータを管理する場合や、特定のロジックを再利用・一元管理・一貫して適用する必要がある場合に特に有益だ。
ビュー、関数、ストアドプロシージャは、データを変換する SQL ロジックを定義する有用な選択肢だ。これらのオブジェクトは通常、完全な T-SQL サポートを提供する Fabric ウェアハウス内で作成する。レイクハウスでは SQL アナリティクス エンドポイントを使用してビューを作成できるが、関数とストアドプロシージャはまだサポートされていない。
例えば、ビューは整理されていないテーブルのクリーンアップ版を作成したり、特定のユーザに対して機密性の高い列へのアクセスを制限したりするのに使える。関数はビジネス固有のメトリックを計算でき、ストアドプロシージャは反復可能なプロセスの一部として複数の変換ステップを自動化できる。
以下のセクションでは、ビュー、関数、ストアドプロシージャの定義、使用タイミングと理由、Fabric ウェアハウスでの作成方法を解説する。特に断りがない限り、すべての例は SQL を使用し、レイクハウスとウェアハウスの両方に関連する。
ビュー
ビューとは、SQLクエリを基盤として構築された仮想テーブルである。ビュー自体はデータを保存せず、マテリアライズされていない限り、クエリ結果は高速アクセス用に物理的に保存されない。マテリアライズされている場合のみ、クエリ結果が物理的に保存される。そうでない場合、ビューはアクセスするたびに基盤となるクエリの結果を返す。ビューはテーブルのように振る舞う保存されたSELECT文と考えることができる。
ビューは特に、データが複数のテーブルに分散していて、同じ結合やフィルタ、計算列を繰り返し記述する状況で有用だ。クエリごとにそのロジックを複製する代わりに、ビュー内で一度定義できる。これによりクエリが整理され保守性が向上するだけでなく、レポートやユーザ間の一貫性も確保しやすくなる。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access