Microsoft Fabric Analytics Engineer Associateスタディガイド (Japanese Edition)
by Brian Bønk, Valerie Junk
第1部 データの準備
分析プラットフォーム、特にMicrosoft Fabricのように包括的なものは、信頼性が高く一貫したデータの流れがなければ根本的に役に立たない。データをシステムに取り込むことは、単なる必要な第一歩ではなく、様々なソース接続、取り込み方法、最適な保存先を理解する必要がある重要なプロセスだ。 エンドツーエンドの分析を想定したプラットフォームでは、データは無数のシステムから発生する。Power BIの単純な接続からデータフローのような洗練度の高い取り込み機能まで、バリエーション豊かなツールを駆使するスキルが求められる。さらに、レイクハウス、データウェアハウス、イベントハウスといった目的のために専用設計された強力なストレージサービスを活用し、パフォーマンスを最大化し分析ワークロードを管理するために、データを配置する適切な場所を選択する必要がある。
このパートでは、Fabricで堅牢なデータ基盤を構築するために、これらのタスクをすべて習得する方法を探る。
まず、Fabricポータルへの主要なアクセスポイントを案内する。ここで新規データ接続の管理と作成を行う。次に、おなじみのPower BI DesktopアプリケーションとFabricポータルWebエクスペリエンスの両方を使用した、新規接続作成の実践的なプロセスを解説する。その後、資産の発見と監視のための2つの主要な経路を紹介する。OneLakeカタログとReal-Timeハブである。これらはデータ資産群の全体像を提供する。 続いて、ほぼ全てのデータを統合的に管理する中核サービスであるOneLakeについて解説する。この一元化された場所からデータをどのように利用・共有・再利用するかを示す。最後に、主要な3つのストレージサービスであるLakehouse、Warehouse、Eventhouseの違いを深く掘り下げ、データに適した場所を選択する手助けをする。そして最後に、OneLakeとEventhouse間の統合設定方法を示す。
この基盤を土台に、データ取り込みからデータ準備へと移行する。生データには重複、欠損値、非一貫な形式が含まれることが多いため、Fabric内で直接データをクリーニング、エンリッチメント、変換する様々な手法を探る。まず、ビュー、関数、ストアドプロシージャを用いて再利用可能なロジックを作成する方法を示す。これにより、データがPower BIに到達するまで待つのではなく、プロセスの早い段階で変換を定義できる。 また、結合操作、集約、フィルタリングといった基本操作を網羅し、高速で直感的な分析・レポート作成を目的とした標準的なモデリングパターンであるスタースキーマへのデータ整理方法についても指導する。
この旅の最終段階では、準備作業を超え、構築したデータのクエリと分析に焦点を当てる。ビジュアルクエリエディターを紹介する。これはウェブベースのツールで、視覚的なインタフェースを用いてデータ構造を変更・分析できる。コードベースのアプローチを好む者には、FabricのTransact-SQL(T-SQL)の世界に深く入り込み、よく知られたSQL言語を活用した詳細な分析手法を解説する。 最後に、リアルタイムインテリジェンス内で使用されるKQL言語を紹介する。これにより、Fabric環境内でストリーミングデータをクエリし可視化するスキルを習得できる。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access