Kapitel 1. Der Einstieg in die KI im Unternehmen: Deine Daten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Power BI ist Microsofts Flaggschiff Business-Analytics-Dienst, der interaktive Visualisierungen und Business Intelligence-Funktionen bietet. Power BI ist eine geschäftsorientierte Technologie mit einer einfach zu bedienenden Oberfläche, die es leicht macht, ihre Leistungsfähigkeit zu unterschätzen. In diesem Kapitel geht es um die wichtigste Voraussetzung, um das Beste aus Power BI herauszuholen: die Vorbereitung deiner Daten.
Welche Probleme gibt es bei der Datenaufbereitung im Selbstbedienungsbereich? Wie jeder weiß, der schon einmal versucht hat, Daten in Excel zusammenzuführen, ist die Datenbereinigung ein frustrierender und langwieriger Prozess. Er kann durch Fehler in den Formeln und menschliches Versagen noch verschlimmert werden, wenn man nur Zugriff auf einen Beispieldatensatz hat. Außerdem kann es sein, dass die Unternehmensanalytiker/innen gar nicht ohne Weiteres Zugang zu den Daten haben. Es kann sein, dass die Geschäftsteams Daten aus verschiedenen Geschäftssilos beschaffen müssen, was den ohnehin schon frustrierenden Prozess noch weiter verzögert. Manchmal müssen sie sogar bestehende Geschäftsprozesse umgestalten oder Grenzen überschreiten, um an die benötigten Daten zu gelangen. Die Frustration, die sie dabei empfinden, hindert sie daran, bei der Datenanalyse kreativ zu werden. In vielen Unternehmen gibt es eine versteckte Industrie von Excel-Tabellen, die die "kleinen Daten" enthalten, die das Geschäft am Laufen halten. Oft hat die IT-Abteilung keinen Einblick in diese "Datenpfützen" und kann sie daher nicht verwalten oder ihre Rolle als Hüterin der Daten wahrnehmen.
Nach David Allens Methode "Get Things Done" ist es von großem strategischem Wert, über die nötige Bandbreite zu verfügen, um kreativ zu sein. Um kreativ zu sein, müssen Menschen frei von Ablenkungen und unvollständigen Aufgaben sein. Wenn Menschen mit Daten umgehen, können sie auf spielerische Art und Weise Erkenntnisse gewinnen, aber dafür müssen sie die Freiheit haben, ihre Zeit und Aufmerksamkeit auf die Analyse zu konzentrieren. Viel Zeit damit zu verbringen, ein Datenchaos aufzuräumen, beeinträchtigt oft den kreativen Prozess. Anstatt Erkenntnisse aus einem großen Datensee zu gewinnen, haben sie vielleicht nur eine Reihe von trüben Datenpfützen, mit denen sie arbeiten können. Diese Situation führt zu Enttäuschungen bei den Unternehmensleitern, die von den Unternehmensdaten scharfsinnige Beobachtungen und ein tiefes Verständnis erwarten.
Überblick über die Power BI Data Ingestion Methoden
Power BI bietet verschiedene Möglichkeiten, Daten in deine Berichte und Dashboards einzubringen. In diesem Kapitel werden wir uns auf Datenflüsse und Datensätze konzentrieren. Welche Methode du wählst, hängt weitgehend von den spezifischen Anforderungen und Einschränkungen deines Anwendungsfalls und insbesondere von der Art der Daten und den Geschäftsanforderungen ab. Beginnen wir mit einem wichtigen Unterscheidungsmerkmal: Echtzeitdaten gegenüber stapelverarbeiteten Daten.
Echtzeitdaten werden aufgenommen und angezeigt, sobald sie erfasst werden. Die Aktualität der Daten ist entscheidend. Die Latenzzeit zwischen der Datengenerierung und der Datenverfügbarkeit ist minimal, oft nur Millisekunden bis wenige Sekunden. Echtzeitdaten ermöglichen es Entscheidungsträgern oder Systemen, auf der Grundlage aktueller Informationen sofort zu handeln, und sind daher in Szenarien wichtig, in denen sofortige Entscheidungen oder Reaktionen erforderlich sind. Echtzeitdaten sind in vielen Bereichen zu finden, z. B. im Internet der Dinge (IoT), im Glücksspiel, im Gesundheitswesen und im Finanzwesen. Die Fähigkeit, Echtzeitdaten sofort zu verarbeiten und darauf zu reagieren, bietet viele Vorteile. Sie kann dem Unternehmen einen Wettbewerbsvorteil verschaffen, die Sicherheit erhöhen, das Nutzererlebnis verbessern und in Notfällen sogar Leben retten.
Beider Stapelverarbeitung werden große Datenmengen in Gruppen oder Stapeln gesammelt und verarbeitet, statt dass die Daten einzeln verarbeitet werden, wenn sie im System ankommen. Die Stapelverarbeitung wird in der Regel eingesetzt, wenn die Daten nicht in Echtzeit verfügbar sein müssen. Die Daten können zwischengespeichert und später verarbeitet werden, oft in einer Zeit, in der das System nicht so stark beansprucht wird. Die Stapelverarbeitung eignet sich zum Beispiel, wenn die Datenquelle nur sporadisch auf das Netzwerk zugreifen kann und der Zugriff auf die Daten nur möglich ist, wenn die Datenquelle verfügbar ist. Außerdem kann es teurer sein, Daten in Echtzeit zu verarbeiten. Wenn also ein sofortiger Zugriff auf die Daten nicht notwendig ist, entscheidet ein Unternehmen oft, dass die Stapelverarbeitung ausreicht.
Nachdem wir uns nun einen Überblick über die beiden grundlegenden Optionen für die Datengeschwindigkeit verschafft haben, wollen wir uns nun die verschiedenen Methoden der Dateneingabe in Power BI ansehen.
Bei der Datenimportmethode werden die Daten aus einer Quelle in Power BI importiert. Sobald die Daten importiert sind, werden sie in einem stark komprimierten, speicherinternen Format in Power BI gespeichert. Mit der Methode des Datenimports ist die Interaktion mit dem Bericht sehr schnell und reagiert auf die Klicks und Häkchen des Nutzers im Power BI Canvas.
Die Direktabfrage-Methode stellt eine direkte Verbindung zur Datenquelle her. Wenn ein Nutzer mit einem Bericht interagiert, werden Abfragen an das Quellsystem gesendet, um die Daten abzurufen und auf dem Power BI-Dashboard anzuzeigen. Es werden keine Daten nach Power BI kopiert oder dort gespeichert.
Die Live-Verbindungsmethode ähnelt der direkten Abfrage, ist aber explizit für die Herstellung von Verbindungen zu Analysis Services-Modellen gedacht.
Power BI-Datenflüsse sind eine Power BI-Dienstfunktion, die in der Microsoft Azure Cloud basiert. Mit Dataflows kannst du dich mit Power BI verbinden, Daten umwandeln und in Power BI laden. Die umgewandelten Daten können sowohl im Import- als auch im DirectQuery-Modus verwendet werden. Der Prozess läuft in der Cloud unabhängig von allen Power BI-Berichten und kann Daten in verschiedene Berichte einspeisen.
Der Composite Model-Ansatz ermöglicht es Power BI-Entwicklern, Berichte entweder mit der Methode der direkten Abfrage oder des Datenimports zu erstellen. So können z.B. Echtzeitdaten neben Referenzdaten gesetzt werden, die nicht in Echtzeit sein müssen, wie z.B. geografische Daten.
Mit der Dataset-Methode kannst du Berichte erstellen, die auf bestehenden Power BI-Datensätzen basieren. Ein Datensatz kann viele Male wiederverwendet werden, um die Konsistenz über mehrere Berichte hinweg zu gewährleisten.
In diesem Kapitel wird das Potenzial von Datenflüssen untersucht, um die oben genannten Probleme bei der Datenaufbereitung zu lösen.
Arbeitsabläufe in Power BI, die KI nutzen
Ein Datenfluss ist eine Sammlung von Tabellen, die in Arbeitsbereichen des Power BI-Dienstes erstellt und verwaltet werden. Eine Tabelle ist eine Gruppe von Spalten, in denen Daten gespeichert werden, ähnlich wie eine Tabelle in einer Datenbank. Es ist möglich, Tabellen im Datenfluss hinzuzufügen und zu bearbeiten. Der Workflow ermöglicht auch die Verwaltung und Planung von Datenaktualisierungen, die direkt vom Arbeitsbereich aus eingerichtet werden.
Wie werden Datenflüsse erstellt?
Um einen Datenfluss zu erstellen, gehst du auf zunächst auf https://www.powerbi.com, um den Power BI-Dienst in einem Browser zu starten.
Als Nächstes erstellst du einen Arbeitsbereich unter im Navigationsbereich auf der linken Seite, wie in Abbildung 1-1 dargestellt.
Der Arbeitsbereich speichert den Datenfluss. Die Erstellung eines Datenflusses ist ganz einfach, und hier sind ein paar Möglichkeiten, einen Datenfluss zu erstellen.
Erstellen eines Datenflusses durch Importieren eines Datensatzes
Im Arbeitsbereich gibt es eine Dropdown-Liste, mit der du neue Ressourcen erstellen kannst, z. B. paginierte Berichte oder Dashboards. Unter Neu gibt es eine Option zum Erstellen eines neuen Datenflusses, wie in Abbildung 1-2 gezeigt.
Dann werden dir die vier in Abbildung 1-3 gezeigten Optionen angezeigt.
Für dieses Beispiel wählst du die erste Option, "Neue Tabellen definieren". Wähle dann "Neue Tabellen hinzufügen"(Abbildung 1-4).
Als Nächstes siehst du eine Auswahl von vielen Optionen für die Dateneingabe. Abbildung 1-5 zeigt ein Beispiel für die Auswahl an Datenquellen für Power BI-Datenströme.
Für dieses Beispiel importiert eine CSV-Datei, die Daten zur Lebenserwartung der Weltbank enthält. Wähle dazu Text/CSV.
Gib dann in das Textfeld mit der Bezeichnung Dateipfad oder URL den folgenden Dateipfad ein:
Als Nächstes siehst du Optionen zum Auswählen und Zugreifen auf die Datei, wie in Abbildung 1-6 dargestellt.
Der Datenfluss zeigt nun die Daten an, wie in Abbildung 1-7 dargestellt. Um fortzufahren, klickst du auf "Daten transformieren", das sich unten rechts auf dem Bildschirm "Dateivorschau" befindet.
Nachdem du dich entschieden hast, die Daten umzuwandeln, musst du ein paar Dinge tun:
-
Entferne die ersten Zeilen der Daten. Wähle "Zeilen reduzieren", dann "Zeilen entfernen" und schließlich "Obere Zeilen entfernen"(Abbildung 1-8).
Gib
3
in das Textfeld ein und klicke auf OK(Abbildung 1-9). -
Lege die erste Zeile der Daten als Spaltenüberschrift fest. Wähle auf der Registerkarte "Home" die Option "Transformieren" und dann "Erste Zeilen als Überschriften verwenden". Abbildung 1-10 zeigt, wie diese Optionen auf der Registerkarte Power Query Online erscheinen.
-
Entferne nun unnötige Spalten. Klicke mit der rechten Maustaste auf die Spalte Indikatorname und wähle "Spalten entfernen". Klicke dann mit der rechten Maustaste auf die Spalte "Indikatorcode" und wähle "Spalten entfernen". Abbildung 1-11 zeigt den Befehl "Spalten entfernen" in seiner Dropdown-Liste.
-
Gestalte die Daten. Du willst sie in einem langen, schmalen Tabellenformat mit vielen Zeilen und wenigen Spalten. Im Gegensatz dazu hat eine breite Tabelle viele Spalten und weniger Zeilen. Power BI funktioniert besser mit Daten in einem schmalen Format, da die interessierende Kennzahl, die durchschnittliche Lebenserwartung, in einer Spalte enthalten ist und nicht über viele Spalten verteilt wird.
Um die Spalten zu entschwenken, wähle alle Spalten ab 1960 aus. Wähle auf der Registerkarte "Transformieren" die Option "Spalten aufheben" und dann in der Dropdown-Liste die Option "Spalten aufheben". Abbildung 1-12 zeigt diese Optionen auf der Registerkarte Power Query Online.
-
Mache die Spalten leichter verständlich, indem du sie umbenennst. Benenne die Spalte "Attribut" in "Jahr" und die Spalte "Wert" in "Durchschnittliche Lebenserwartung" um.
-
Ändere schließlich die Spalte Jahr so, dass sie einen ganzzahligen Datentyp hat. Wähle die Spalte aus und öffne dann die Registerkarte "Transformieren". Wähle "Datentyp: Text" und dann "Ganze Zahl" aus der Dropdown-Liste(Abbildung 1-13).
Sobald diese Schritte abgeschlossen sind, wird der Power BI-Datenfluss wie in Abbildung 1-14 dargestellt angezeigt. Klicke auf "Speichern & schließen". Wir werden diesen Datenfluss in einer späteren Übung verwenden.
Erstellen eines Datenflusses durch Importieren/Exportieren eines Datenflusses
Du kannst Datenflüsse erstellen , indem du die Option Import/Export verwendest. Diese Methode ist praktisch, da du damit einen Datenfluss aus einer Datei importieren kannst. Dieses Verfahren ist hilfreich, wenn du eine Datenflusskopie nicht online, sondern offline speichern möchtest. Es ist auch hilfreich, wenn du einen Datenfluss von einem Arbeitsbereich in einen anderen verschieben musst.
Um einen Datenfluss zu exportieren, wähle den Datenfluss aus und wähle dann Mehr (die Ellipse), um die Optionen zum Exportieren eines Datenflusses zu erweitern. Wähle dann export.json. Der Datenfluss wird nun im CDM-Format heruntergeladen.
Um einen Datenfluss zu importieren, wählst du das Importfeld aus und lädst die Datei hoch. Power BI erstellt dann den Datenfluss. Der Datenfluss kann als Grundlage für weitere Transformationen dienen oder unverändert bleiben.
Erstellen von Datenflüssen durch Definieren neuer Tabellen
Du kannst auch einen Datenfluss erstellen, indem du eine neue Tabelle definierst. Die Option Neue Tabellen definieren, die in Abbildung 1-15 dargestellt ist, ist sehr einfach zu bedienen. Sie fordert dich auf, dich mit einer neuen Datenquelle zu verbinden. Sobald die Datenquelle verbunden ist, wirst du aufgefordert, Details wie die Verbindungseinstellungen und die Kontodaten einzugeben.
Datenflüsse mit verknüpften Tabellen erstellen
Die Option Tabellen verknüpfen bietet die Möglichkeit, einen schreibgeschützten Verweis auf eine bestehende Tabelle zu haben, die in einem anderen Datenfluss definiert ist.
Der Ansatz der verknüpften Tabellen ist hilfreich, wenn eine Tabelle über mehrere Datenströme hinweg wiederverwendet werden soll. In der Analytik gibt es viele solcher Anwendungsfälle, z. B. wenn eine Datumstabelle oder eine statische Nachschlagetabelle wiederverwendet werden soll. In Data Warehouses gibt es oft benutzerdefinierte Datumstabellen, die den geschäftlichen Anforderungen entsprechen, wie z. B. unterschiedliche benutzerdefinierte Datumstabellen, und eine statische Nachschlagetabelle enthält vielleicht Ländernamen und die dazugehörigen ISO-Codes, die sich im Laufe der Zeit nicht viel ändern. Wenn das Netzwerk ein Problem darstellt, ist es auch hilfreich, verknüpfte Tabellen als Cache zu verwenden, um unnötige Aktualisierungen zu vermeiden. Das wiederum verringert den Druck auf die ursprüngliche Datenquelle.
In diesen Fällen erstellst du die Tabelle einmal und sie ist dann für andere Datenflüsse als Referenz zugänglich. Um die Wiederverwendung und das Testen zu fördern, kannst du die Option Tabellen aus anderen Datenflüssen verknüpfen verwenden(Abbildung 1-16).
Datenflüsse mit berechneten Tabellen erstellen
Du kannst die Idee der verknüpften Tabellen noch einen Schritt weiter gehen, indem du einen Datenfluss mit einer berechneten Tabelle einrichtest und dabei auf eine verknüpfte Tabelle verweist. Die Ausgabe ist eine neue Tabelle, die Teil des Datenflusses ist.
Es ist machbar, eine verknüpfte Tabelle in eine berechnete Tabelle umzuwandeln. Du kannst entweder eine neue Abfrage aus einer Zusammenführungsoperation erstellen, eine Referenztabelle erstellen oder sie reproduzieren. Die neue Transformationsabfrage wird nicht mit den neu importierten Daten ausgeführt. Stattdessen verwendet die Umwandlung die Daten, die sich bereits in der Dataflow Speicherung befinden.
Importieren eines Datenflussmodells
Mit Modell importieren kannst du ein Datenflussmodell auswählen, das du in deinen Arbeitsbereich importieren möchtest(Abbildung 1-17).
Wenn ein Datenfluss z. B. im JSON-Format exportiert wird, kannst du diese Datei in einen anderen Arbeitsbereich importieren. Um einen Datenfluss aus einer Datei zu importieren, klicke auf "Modell importieren" und navigiere zu der JSON-Datei. Dann nimmt der Power BI-Dienst die Datei auf, um den neuen Datenfluss zu erstellen.
Datenflüsse mithilfe eines CDM-Ordners erstellen
Geschäftsteams können mit das Common Data Model (CDM) Format mit Datenflüssen nutzen, die auf Tabellen zugreifen, die von einer anderen Anwendung im CDM Format erstellt wurden. Du kannst auf die Option zugreifen, wenn du einen neuen Datenfluss erstellst, wie in Abbildung 1-18 gezeigt.
Um auf diese Tabellen zuzugreifen, musst du den vollständigen Pfad zu der CDM-Formatdatei angeben, die im Azure Data Lake Store (ADLS) Gen2 gespeichert ist, und die richtigen Berechtigungen einrichten. Die URL muss ein direkter Pfad zur JSON-Datei sein und den ADLS Gen2 Endpunkt verwenden; beachte, dass die Azure Blob Speicherung (blob.core) nicht unterstützt wird.
Der Pfad ist ein Link im HTTP-Format und sieht ähnlich aus wie das Beispiel im Feld Common Data Model folder path in Abbildung 1-19. Der Pfad wird automatisch generiert, wenn der Entwickler die Datenflussspeicherung im Arbeitsbereich konfiguriert, und er endet mit model.json.
Außerdem muss das ADLS Gen2-Konto über die entsprechenden Berechtigungen verfügen, damit Power BI auf die Datei zugreifen kann. Wenn der Entwickler keinen Zugriff auf das ADLS Gen2-Konto hat, kann er den Datenfluss nicht erstellen.
Die meisten Entwickler nutzen jetzt den neuen Arbeitsbereich. Für diejenigen, die das noch nicht tun, ist die Möglichkeit, Datenflüsse aus CDM-Ordnern zu erstellen, die nur im neuen Arbeitsbereich verfügbar ist, ein Anreiz, darauf umzusteigen.
Zu beachtende Dinge vor der Erstellung von Workflows
Dataflows sind nicht verfügbar in my-workspace im Power BI Service.
Du kannst Datenflüsse erstellen nur in einem Premium-Arbeitsbereich mit einer Pro-Lizenz oder einer Premium Per User (PPU) Lizenz. Berechnete Tabellen sind ebenfalls nur in Premium verfügbar.
Sobald du verbunden bist, entscheidest du, welche Daten du für die Tabelle verwenden möchtest. Sobald du deine Daten und eine Quelle ausgewählt hast, verbindet sich Power BI erneut mit der Datenquelle, um die aktualisierten Daten im Datenfluss beizubehalten.
Während der Einrichtung wirst du auch gefragt, wie oft du die Daten aktualisieren möchtest. Diese Entscheidung hängt zum Teil von deiner Lizenz ab, denn sie bestimmt die Anzahl der Datenaktualisierungen, die deinem Unternehmen zur Verfügung stehen. Bevor du mit der Erstellung des Workflows beginnst, solltest du dich für den Zeitpunkt der Datenaktualisierungen entscheiden. Wenn du dir nicht sicher bist, wann die Datenaktualisierungen am besten geplant werden sollten, ist es eine gute Idee, eine Zeit zu wählen, die sicherstellt, dass die Daten zu Beginn des Arbeitstages für die Geschäftsteams zur Verfügung stehen.
Der Datenfluss-Editor wandelt die Daten in das für den Datenfluss erforderliche Format um, wie im Abschnitt "Wie werden Datenflüsse erstellt?" beschrieben .
Streaming-Datenströme und automatische Aggregationen
Power BI Premium bietet jetzt Streaming-Datenströme und automatische Aggregation. Diese Funktionen beschleunigen die Erstellung und Nutzung von Berichten und unterstützen Projekte mit großen Datensätzen. Mit den Streaming Dataflows können Berichtersteller/innen Echtzeitdaten einbeziehen, um ihre Berichte benutzerfreundlicher und schneller zu gestalten.
Da die Menge an Daten aus immer neuen Quellen täglich wächst, brauchen Unternehmen Hilfe, um sie nutzbar zu machen. Diese Funktionen werden eine entscheidende Rolle dabei spielen, dass Unternehmen Daten effizienter nutzen können, um fundierte Geschäftsentscheidungen zu treffen.
Bereite deine Daten zuerst vor
Künstliche Intelligenz braucht Daten; ohne Daten gibt es keine KI. Power BI Desktop nutzt Datenflüsse, um Datensätze, Berichte, Dashboards und Apps zu erstellen, die auf den aus Power BI-Datenflüssen gewonnenen Daten basieren.
Das ultimative Ziel ist es, Einblicke in die Geschäftsaktivitäten zu erhalten. Der nächste Schritt auf dem Weg zu diesem Ziel ist es, die Daten für die Power BI-Datenflüsse vorzubereiten.
Daten für Datenflüsse vorbereiten
Die Datenaufbereitung ist im Allgemeinen die komplizierteste, kostspieligste und zeitaufwändigste Aufgabe bei Analyseprojekten. Die Datensätze können zerschredderte, fehlende und unvollständige Daten enthalten. Außerdem können die Datenstrukturen verwirrend und schlecht dokumentiert sein. Power BI-Datenflüsse helfen Unternehmen, all diese Herausforderungen zu meistern. Sie unterstützen das Aufnehmen, Umwandeln, Bereinigen und Integrieren von großen Datenmengen. Außerdem können Power BI-Datenflüsse die Daten in einer standardisierten Form strukturieren, um die Berichterstattung zu erleichtern.
Dataflows vereinfachen die Einrichtung einer Self-Service-Pipeline zum Extrahieren, Transformieren und Laden (ETL) in Power BI und können unter eingesehen werden. Ein Datenfluss folgt demselben Muster wie eine einfache ETL-Pipeline, die eine Verbindung zu Quelldaten herstellen, die Daten durch Anwendung von Geschäftsregeln umwandeln und die Daten für die Visualisierung vorbereiten kann. Power BI stellt dann eine Verbindung zu einem Data Warehouse in Business Intelligence-Umgebungen her und visualisiert die Daten von diesem Punkt an.
Wo sollen die Daten bereinigt und aufbereitet werden?
In vielen technischen Architekturen gibt es mehrere Optionen für die Datenbereinigung und -aufbereitung, weil eine Reihe von Datenquellen zur Verfügung stehen - von Excel-Tabellen über Big-Data-Systeme bis hin zu proprietären Lösungen wie Google Analytics. Folglich kannst du aus einer Vielzahl von Datenverarbeitungspipelines wählen, um Daten aus verschiedenen Quellen zu verarbeiten. Es lohnt sich, einen Blick auf einige dieser Optionen zu werfen, bevor wir uns der Frage widmen, warum Datenflüsse für die Datenbereinigung in Power BI unerlässlich sind.
Option 1: Bereinige die Daten und aggregiere sie im Quellsystem
Welches Tool für diese Option verwendet wird, hängt von dem Quellsystem ab, in dem die Daten gespeichert sind. Wenn die technische Architektur zum Beispiel auf einem Microsoft SQL-Server basiert, könnte die Lösung die Daten mithilfe von Stored Procedures oder Views extrahieren.
Bei dieser Option werden in der Gesamtarchitektur weniger Daten aus dem Quellsystem in Power BI übertragen. Das ist hilfreich, wenn das Unternehmen keine Details auf niedriger Ebene benötigt und die Daten durch Aggregation anonymisiert werden sollen.
Ein Nachteil dieses Ansatzes ist, dass die rohen Quelldaten für Power BI nicht zur Verfügung stehen, sodass das Unternehmen jedes Mal zum Quellsystem zurückkehren muss, wenn es die Daten benötigt. Möglicherweise sind die Daten nicht einmal mehr im Quellsystem vorhanden, wenn sie archiviert oder bereinigt wurden, sodass Power BI die Daten am besten importiert. Ein weiteres Problem ist, dass die Datenbereinigung die Kapazität des Quellsystems belasten kann, was zu einer Verlangsamung des Systems und zu einer Beeinträchtigung der Geschäftsteams, die es nutzen, führen kann. Außerdem kann es sein, dass das Quellsystem aufgrund des Geschäftsbetriebs nicht schnell genug ist und daher keine schnellen Berichte für die Geschäftsanwender/innen liefern kann. Power BI ist eine hervorragende Option, um diese Probleme zu umgehen, denn es entlastet die zugrundeliegenden Quellsysteme, indem es die Arbeitslast in die Cloud verlagert und gleichzeitig die Fachanwender unterstützt, die ihre Power BI-Berichte benötigen.
Option 2: Bereinigen von Daten aus einer Quelle in einem sekundären Speicher
Geschäftskunden verstehen oft nicht warum Suchmaschinen wie Google oder Bing innerhalb von Sekunden Millionen von Ergebnissen liefern können, während IT-Abteilungen viel länger brauchen, um Daten zu produzieren. Manche Unternehmen umgehen die IT-Abteilung, indem sie ihre eigenen Datensätze für ihre eigenen Analysen kaufen. Das kann zu Frustration führen, wenn die Fachkräfte die technischen Aspekte verwirrend finden. Data-Warehousing-Experten erstellen ETL-Pakete, die Datenumwandlungsaufgaben nach einem Zeitplan erledigen, um einmalige Datenladungen zu vermeiden.
Der wiederholte Zugriff auf betriebliche Systeme kann deren Leistung beeinträchtigen. Das Verschieben von Daten in eine sekundäre Quelle löst dieses Problem, da das ursprüngliche System nicht mehr durch zusätzliche Anforderungen von Geschäftsnutzern beeinträchtigt wird.
Bei der ETL-Aktivität müssen jedoch viele verschiedene Teile der Logik koordiniert werden, die in der richtigen Reihenfolge zusammenspielen müssen. Viele interne betriebliche Systeme sind einfach nicht dafür ausgelegt, mit der Geschwindigkeit des Unternehmens zu arbeiten, und sie sind nicht dafür ausgelegt, zusammenzuarbeiten. Die Realität sieht so aus, dass die Leute oft Daten in CSV oder Excel exportieren und sie dann zusammenmischen. Das bedeutet, dass die Unternehmen mit betrieblichen Datenquellen arbeiten, die sich in Bezug auf Struktur, Inhalt und Aktualität von den ursprünglichen Datenquellen und voneinander unterscheiden können.
Microsoft verlagert seinen Schwerpunkt auf Dienste und Geräte und nicht auf lokale, desktopbasierte Anwendungen vor Ort. Im Laufe der Zeit bedeutet dies, dass die Verbreitung von Excel in Unternehmen angegangen werden muss. Unternehmen brauchen Hilfe bei der Bewältigung neuer Datenherausforderungen, wie z. B. der immer größer werdenden Vielfalt an Datenquellen, einschließlich Social Media-Daten und Big Data. Für einige Unternehmen bedeutet dies zum Beispiel, dass sie von einer Call Center- zu einer Contact Center-Methode übergehen müssen - eine enorme Prozessveränderung, die sich in den daraus resultierenden Daten widerspiegeln wird. Wenn die Prozesse nicht auf den neuesten Stand gebracht werden, werden die Geschäftsanwender/innen darauf zurückgreifen, Daten in Excel zusammenzufügen, weil es keine klare Möglichkeit zu geben scheint, die Daten auf robustere Weise zu kombinieren. Das funktioniert nicht immer gut: Excel-Tabellen können zum Beispiel übermäßig verziert sein, oder HTML-Tabellen werden als Strukturauszeichnung und nicht als tatsächliche Auszeichnung interpretiert. All das kann für nachgelagerte Frontend-Systeme verwirrend sein.
Die Mitarbeiter müssen so weit wie möglich von der Notwendigkeit, SQL zu schreiben, isoliert werden, da sie nicht immer über die nötigen Fähigkeiten verfügen, um Änderungen korrekt vorzunehmen. Zu den Microsoft-Produkten, die dieses Ziel erreichen, gehören SQL Server Integration Services (SSIS), Azure Data Factory und Azure Databricks. Diese Tools verwenden eine komplizierte Orchestrierungslogik, um zu gewährleisten, dass ETL-Pakete in der richtigen Reihenfolge und zum richtigen Zeitpunkt ausgeführt werden. Die ETL-Entwicklung erfordert eine technische Denkweise, um Routinen für den korrekten Datenimport zu erstellen.
Das Unternehmen muss erkennen, dass die Datenaufbereitung wahrscheinlich der wichtigste Aspekt der strategischen Analyse, der Business Intelligence und überhaupt von allem, was mit Daten zu tun hat, ist. Jeder hat schmutzige Daten, und die selbständige Datenumwandlung ist eine Notwendigkeit. Wenn dein Unternehmen denkt, dass es keine schmutzigen Daten hat, sucht es nicht gründlich genug. Unternehmen müssen erkennen, dass die Notwendigkeit einer Self-Service-Datenumwandlung zur Beantwortung von Geschäftsfragen eine betriebliche Tatsache ist, wenn die Kundenbedürfnisse erfüllt werden sollen. Zum Glück kann Power BI dabei helfen.
Echtzeit-Dateningestion versus Batch-Verarbeitung
Der Aufbau einer solchen unternehmenstauglichen Datenintegrationspipeline ist zeitaufwändig, und es gibt viele Designüberlegungen und Richtlinien, die berücksichtigt werden müssen. Oft entwickeln sich Unternehmen so schnell, dass es für das IT-Team schwierig wird, mit den sich ändernden Anforderungen Schritt zu halten. Microsoft hat Dataflows entwickelt, ein vollständig verwaltetes Datenaufbereitungstool für Power BI, um diese Herausforderung zu meistern. Es gibt zwei Möglichkeiten: die Verwendung von Dataflows zum Importieren von Daten mittels Echtzeit- oder Stapelverarbeitung oder die Verwendung von Streaming-Datensätzen für die Arbeit mit Echtzeitdaten.
Echtzeit-Datensätze in Power BI
Echtzeit bedeutet oft unterschiedliche Dinge für verschiedene Organisationen. In manchen Unternehmen werden Data Warehouse-Ladungen beispielsweise einmal am Tag aktualisiert, gelten aber als "Echtzeit".
Aus der Sicht von Power BI findet das Echtzeit-Streaming in Echtzeit statt, wobei die Aktualisierungen oft mehr als einmal pro Sekunde erfolgen. Mit Power BI kannst du Daten streamen und Dashboards in Echtzeit aktualisieren, und jedes in Power BI erstellte Visual oder Dashboard kann Daten und Visuals in Echtzeit darstellen und aktualisieren.
Woher kommen die Echtzeitdaten? Zu den Geräten und Quellen für Streaming-Daten können Sensoren in der Produktion, Social Media-Quellen oder viele andere zeitabhängige Datensammler oder -übermittler gehören. In vielen Szenarien geht es also um Echtzeitdaten, und Power BI bietet verschiedene Möglichkeiten zur Aufnahme von Echtzeitdaten.
In Power BI gibt es drei Arten von Echtzeit-Datensätzen, um die Anzeige von Echtzeitdaten auf Dashboards zu unterstützen:
-
Push-Datensätze
-
Streaming-Datensätze
-
PubNub Streaming-Datensätze
In diesem Abschnitt wird erläutert, wie sich diese Datensätze unterscheiden und wie die Echtzeitdaten in diese Datensätze gelangen.
Einrichten von Streaming-Datensätzen
Mit dem Power BI-Dienst kannst du Streaming-Datensätze einrichten. Dazu klickst du auf die Schaltfläche Neu (+) in der oberen linken Ecke des Power BI-Dienstes. Wähle nun Streaming-Dataset(Abbildung 1-20).
Wenn du auf die Schaltfläche Neu klickst, siehst du die drei Optionen, die in Abbildung 1-21 zu sehen sind. Ab hier gibt es drei Möglichkeiten, einen Streaming-Datensatz zu erstellen: Die erste ist, einen Datenstrom mithilfe einer API zu erstellen, die zweite ist, einen Azure Analytics-Stream zu erstellen, und die dritte ist, PubNub als Datensatz aus der Streaming-Datenquelle zu verwenden.
- API
-
Du kannst ein Streaming-Dataset mit der Power BI REST API erstellen. Nachdem du unter im Fenster Neues Streaming-Dataset die Option API ausgewählt hast, stehen dir mehrere Optionen zur Verfügung, mit denen du Power BI eine Verbindung zum Endpunkt herstellen und diesen nutzen kannst (siehe Abbildung 1-22).
- Azure Stream
-
Um einen Azure Stream zu erstellen, musst du die Hilfeseite zu Azure Stream Analytics aufrufen, um deinen Streaming-Datensatz einzurichten. Microsoft wird diese Funktion in Kürze in Power BI zur Verfügung stellen, aber derzeit ist sie noch nicht im Power BI-Portal verfügbar(Abbildung 1-23).
- PubNub
Azure Stream Analytics bietet eine Möglichkeit, den Rohdatenstrom von PubNub zu aggregieren, bevor er an Power BI übermittelt wird, damit Power BI die Daten optimal darstellen kann. Da PubNub ein Drittanbieter-Tool ist, werden wir es in diesem Buch nicht behandeln.
Ingesting von Daten in Power BI: Push-Methode versus Streaming-Methode
Die Push-Datensatz- und die Streaming-Datensatz-Methode empfangen Daten in einem Push-Modell, in dem die Daten in Power BI gepusht werden. Power BI erstellt eine zugrunde liegende Datenbank, die die Grundlage für die Visualisierungen in Power BI-Berichten und -Dashboards bildet. Im Gegensatz dazu werden bei der Streaming-Methode die Daten nicht länger als eine Stunde gespeichert.
Die Push-Methode ermöglicht es dem Berichtsentwickler, Berichte aus den in der Datenbank gespeicherten Daten zu erstellen, z. B. durch Filterung, Verwendung von Power BI-Visualisierungen und Power BI-Berichtsfunktionen. Die Streaming-Methode hingegen erlaubt nicht die Verwendung der standardmäßigen Power BI-Berichtsfunktionen; stattdessen wird eine benutzerdefinierte Streaming-Quelle verwendet, die Echtzeitdaten mit sehr geringer Latenz anzeigt.
Stapelverarbeitung von Daten mit Power BI
Power BI Datenflüsse sind perfekt wenn ein Bedarf an geschäftsorientierter, selbstbedienter Datenbewegung besteht. Geschäftsanwender/innen nutzen Datenflüsse, um schnell eine Verbindung zu Datenquellen herzustellen und die Daten für die Berichterstattung und Visualisierung vorzubereiten. Power BI-Datenflüsse ähneln Excel-Arbeitsblättern, so dass die Benutzer/innen bereits mit den erforderlichen Fähigkeiten zur Nutzung dieses Tools vertraut sind.
Auch wenn Power BI-Datenflüsse geschäftsfreundlich sind, arbeiten sie mit den riesigen Mengen an Transaktions- und Beobachtungsdaten, die im ADLS Gen2 gespeichert sind. Darüber hinaus arbeiten Power BI-Datenflüsse mit Big-Data-Datenspeichern und den kleinen Daten, die das Geschäft am Laufen halten. Daher können Power BI-Datenflüsse für Cloud-first oder Cloud-freundliche Organisationen auf Azure-Datendienste zugreifen.
Für Microsoft-Kunden lässt sich Power BI nahtlos in das übrige Power BI-System integrieren. Power BI-Datenflüsse unterstützen zum Beispiel das CDM - eine Reihe von rechtlichen Geschäftseinheiten wie Account, Product, Lead und Opportunity. Dataflows ermöglichen eine einfache Zuordnung zwischen beliebigen Daten in beliebiger Form und den CDM-Entitäten.
Power BI-Datenflüsse verfügen über eine Reihe von Funktionen, die für eine Vielzahl von Szenarien nützlich sind. Erstens können Dataflows eine Verbindung zu Datenquellen herstellen und Datentabellen einlesen. Sie können Tabellen zusammenführen und verbinden sowie Tabellen vereinen. Außerdem können Dataflows die übliche Praxis des Pivotings von Daten durchführen. Dataflows reichern Daten an, indem sie neue berechnete Spalten in Tabellen erstellen, und sie können Daten vereinfachen, indem sie Tabellen filtern, so dass die Nutzer/innen das, was sie brauchen, reibungslos erhalten.
Ein weiterer großer Vorteil der Datenflüsse ist, dass sie automatisch nach einem Zeitplan ablaufen können, so dass die Entwickler sie einstellen und vergessen können! Das "Last-Mile-Problem" der Analytik besteht darin, dass die Unternehmen nicht immer wissen, wie sie den Wert eines Analyseprojekts realisieren können. Die Automatisierung ist ein entscheidender Weg, um den Wert dieser Projekte zu steigern und den Unternehmen bei der letzten Meile zu helfen, wenn es darum geht, ihre Lösungen in Produktionsumgebungen einzusetzen.
Power BI-Datenflüsse können auch mit KI interagieren, indem sie KI-Modelle trainieren und auf die Tabellen anwenden. Es ist also möglich, KI in Datenflüssen zu nutzen.
Lass uns nun einige tiefere Konzepte rund um Datenflüsse verstehen.
Batch-Daten mit Power Query in Dataflows importieren
Power Query hilft bei der Erstellung von Power BI-Datenflüssen und ist über Power BI, Excel und die Power Query Online-Erfahrung zugänglich. Mit diesem benutzerfreundlichen Tool zur Datenumwandlung können Business-Analysten und Datenanalysten Daten aus einer Vielzahl von Quellen lesen.
Die Power Query-Benutzeroberfläche (UI) bietet Dutzende von Möglichkeiten, Daten direkt über das Power Query-Ribbon und die Dialoge zu berechnen und umzuwandeln. Power Query ist nicht nur einfach zu bedienen, sondern kann Daten auf überzeugende und erweiterbare Weise umwandeln. Es unterstützt mehr als 80 integrierte Datenquellen und ein Software Development Kit (SDK) mit einem umfangreichen Ökosystem. Ein SDK ist eine Sammlung von Softwaretools, Bibliotheken, Dokumentationen, Codebeispielen, Prozessen und Anleitungen, mit denen Entwickler/innen Softwareanwendungen für eine bestimmte Plattform erstellen können. Wenn es um die Verbindung zu Daten geht, wird ein SDK für das Verbindungsmanagement, die Sicherheit und die Anpassung verwendet. Das SDK für benutzerdefinierte Konnektoren rationalisiert den Entwicklungsprozess, indem es komplexe Details abstrahiert, so dass es einfacher ist, Daten aus weniger verbreiteten Quellen zu verbinden und abzurufen, die nicht zu den standardmäßig verfügbaren Datenquellen gehören.
Alles, was in der Power Query-Benutzeroberfläche steht, wird automatisch in Code in der Sprache M übersetzt. Obwohl die Benutzer keinen Code schreiben müssen, ist die Verwendung von M in Power Query eine gute Möglichkeit, etwas über die Codierung und die Transformationsaktivitäten hinter den Kulissen zu lernen. Die Sprache M ist ein eigenständiges Thema und liegt daher außerhalb des Rahmens dieses Buches.
Die Datenflussberechnungsmaschine
Datenflüsse haben eine Berechnungs-Engine ( ), die dabei hilft, alle Spalten zusammenzufügen, was die Sache vereinfacht. Irgendwann stoßen Excel-Benutzer auf ein Problem, bei dem es eine zirkuläre Abhängigkeit in einer Formel gibt. Das Dataflow-Berechnungsmodul hilft dabei, solche Probleme zu lösen, indem es Verknüpfungen erstellt, um Abhängigkeiten vor der Implementierung zu überprüfen.
Für viele Unternehmen ist es notwendig, mehrere Datenflüsse zu erstellen, da es eine Vielzahl von Datenquellen gibt, von denen keine die Quelle der Wahrheit ist. Diese mehreren Datenflüsse werden in einem einzigen Power BI-Arbeitsbereich erstellt und verwaltet, sodass sie leicht zu verwalten sind. Um eine hohe Datenintegrität zu gewährleisten, müssen auch die Abhängigkeiten zwischen den Workflows auf Konsistenz geprüft werden.
Datenfluss-Optionen
Unternehmen können Power BI-Datenflüsse auf verschiedene Weise nutzen. Sehen wir uns einige der Möglichkeiten an.
Option 1: Vollständig von Power BI verwaltet
Power BI erledigt alles in der Cloud, von der Datenaufnahme über die Datenstrukturierung und -aktualisierung bis hin zur endgültigen Datenvisualisierung. Die Datenreise beginnt mit der Nutzung des webbasierten Online-Tools Power Query zur Strukturierung der Daten. Ein Azure Data Lake speichert die Daten über die Azure-Infrastruktur, die für das Unternehmen transparent ist. Bei dieser Option kann die Organisation die Daten nicht selbst verwalten, da Power BI einen umfassenden Cloud-Service bereitstellt.
Option 2: Bring deinen eigenen Datensee mit
Option 2 ist fast identisch mit Option 1, mit einem wesentlichen Unterschied: Die Organisation verknüpft ihr eigenes Azure Data Lake-Konto mit Power BI und verwaltet es mit Tools wie Power Query und Power BI. Diese Option ist hilfreich für Organisationen, die auf ihre Daten auch außerhalb von Power BI zugreifen möchten.
Power BI-Datenflüsse in Power BI Desktop
Unabhängig davon, welche Option für die Verwaltung der Power BI-Datenströme verwendet wird, extrahieren die Geschäftsanwender die Daten mit der Option "Daten abrufen" in Power BI Desktop oder der Online-Version von Power BI. Die Option "Daten abrufen" ist sehr einfach zu bedienen. Der Power BI-Entwickler muss nicht wissen, wo die Daten gespeichert sind, denn er kann die entsprechenden Datentabellen auswählen. Eine weitere praktische Funktion ist, dass es möglich ist, Tabellen zu verbinden, die nach unterschiedlichen Zeitplänen aktualisiert werden.
DirectQuery in Power BI
Es ist möglich, mit verschiedenen Datenquellen zu verbinden, wenn du Power BI Desktop oder den Power BI Service nutzt, und diese Datenverbindungen auf unterschiedliche Weise herzustellen. Der Power BI-Entwickler verbindet sich direkt mit den Daten im ursprünglichen Quell-Repository mit einer Methode, die als DirectQuery bekannt ist.
Die Erfahrung hat gezeigt, dass Nutzer oft sagen, dass sie die aktuellsten Informationen sofort haben wollen. Das bedeutet aber nicht, dass sie Echtzeitdaten wollen. In Wahrheit sind Echtzeit und Aktualität nicht dasselbe. Nehmen wir ein Beispiel. Nehmen wir an, die Daten werden jede Nacht per Stapelverarbeitung geladen, so dass sie um 8:00 Uhr morgens für das Unternehmen einsehbar sind. Da die Daten erst um 8:00 Uhr morgens aktualisiert werden, ist die Importmethode perfekt: Die Nutzer sehen die neuesten Daten ab 8:00 Uhr morgens.
Import versus Direktabfrage: Praktische Empfehlungen
Du erinnerst dich sicher noch an , dass die Methode Daten importieren die Daten in Power BI speichert. Die Daten werden im Arbeitsspeicher gespeichert, wodurch die Visualisierungen und Berichte schneller reagieren. Die Daten werden mithilfe von Power BI-Datenflüssen oder dem Power Query Editor umgewandelt, sodass der Entwickler die Daten nach Bedarf umwandeln und gestalten kann. Die Daten werden über bestimmte Zeitpläne aktualisiert; die Anzahl der verfügbaren Zeitpläne hängt von der Power BI-Lizenz ab, die du besitzt. Du kannst Daten aus offline oder sporadisch verfügbaren Quellen verwenden.
Wie zu erwarten, gibt es je nach Szenario ein paar Einschränkungen. Es gibt Grenzen in Bezug auf das Datenvolumen, wobei die Grenze von deiner Lizenz abhängt: Das Größenlimit pro Datensatz liegt bei 2 GB für Power BI Pro und höher für Premium. Da das Importmodell die Daten nach einem Zeitplan abruft, sind die Daten nur so aktuell wie die letzte Aktualisierung.
Direct Query ist perfekt, wenn dein Szenario Datenaktualisierungen in einer höheren Frequenz erfordert. Direct Query bedeutet, dass die Daten in der Quelle immer auf dem neuesten Stand sind. Da die Daten nicht in Power BI gespeichert werden, gibt es keine Beschränkungen hinsichtlich der Datengröße. Außerdem bleibt die Geschäftslogik in der Quelle zentralisiert.
Da die Daten jedoch in der Quelle verbleiben, kann die Berichtsleistung von Power BI langsamer sein als bei der Importmethode. Bei der Direktabfrage werden Abfragen an die Quelldatenbank gesendet, die Daten werden von der Quelle abgerufen und dann an das Power BI-Dashboard zurückgesendet. Wenn das Dashboard die Verbindung verliert, kann Power BI keine Daten mehr anzeigen. Daher erfordert Direct Query eine ständige Verbindung zur Datenquelle.
Die Methode "Daten importieren" ist geeignet, wenn du kleinere Datensätze hast oder Datensätze, die in deine Kapazitätsgrenzen passen. Sie eignet sich auch für Offline- oder Datenquellen, die nur sporadisch verfügbar sind. Die Direktabfrage ist auch nützlich, wenn dein Szenario mehr Datenaktualisierungen erfordert, als mit der Methode Datenimport möglich sind.
Zusammenfassung
Die verschiedenen Optionen der Power BI-Datenflüsse ermöglichen es dem Unternehmen, Power BI mit dem von ihm bevorzugten Grad an "Cloudiness" zu verwalten. Letztlich versuchen Unternehmen, ein Gleichgewicht zwischen "Silbertablett"-Berichten und Selbstbedienung zu finden, und Power BI-Datenflüsse bieten beide Methoden der Berichterstattung und vermeiden gleichzeitig die Excel-Hölle der Datenpfützen, die unüberwachte, unüberschaubare und widerspenstige Datenschulden sind.
Get Künstliche Intelligenz mit Microsoft Power BI now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.