Kapitel 4. Automatisieren der Datenexploration und -bearbeitung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Der größte Teil dieses Buches zeigt dir, wie KI etwas Neues tun kann, was vorher nicht möglich war, sei es die Identifizierung von Schlüsselmerkmalen und Anomalien, der Aufbau eines Machine-Learning-Modells oder die Anwendung von Azure AI Services auf deine Daten. In diesem Kapitel geht es jedoch darum, wie KI Aspekte der Datenexploration und -bearbeitung automatisieren kann. In der ersten Hälfte des Kapitels werden die in Power Query Editor integrierten KI-Komponenten vorgestellt, die die Vorverarbeitung der Daten automatisieren. Die zweite Hälfte befasst sich mit den KI-Tools und -Funktionen, die den Prozess der Datenauswertung und Berichterstellung beschleunigen. Zusammengenommen ermöglichen diese Automatisierungsfunktionen von Power BI dem Analysten, weniger Zeit mit mühsamen Aufgaben zu verbringen und mehr Zeit für durchdachte Arbeit zu haben.
Die transformative Kraft der Automatisierung
Als Leser dieses Buches bist du wahrscheinlich die Art von Person, die sich über die Fortschritte in der technologischen Landschaft freut. Das Gegenteil von dir, jemand, der neue Technologien ablehnt, wird oft als Luddit bezeichnet. Aber wusstest du, dass dies der Name einer Arbeiterbewegung in Nordengland in den frühen 1800er Jahren war? Die ursprünglichen Ludditen waren Textilfacharbeiter, die in Fabriken einbrachen und die neuen Webstühle zerstörten, die mit ihrer Arbeit konkurrierten. Ihre Sabotage war so schwerwiegend, dass das Parlament 1812 den Frame-Breaking Act verabschiedete, mit dem solche Verbrechen mit der Todesstrafe geahndet wurden.1 Dabei ging es den Ludditen nie darum, gegen die Technologie an sich zu sein - sie wollten nur ihre Lebensgrundlage schützen.
Aber nicht jeder Fortschritt ist schlecht für alle Menschen. Manchmal ersetzt die Automatisierung Fähigkeiten, Arbeit oder Menschen, und manchmal kann sie als Ergänzung dienen. Vielleicht hast du zum Beispiel eine Berufsbezeichnung, die es vor 20 Jahren noch nicht gab und die erst durch die jüngsten Fortschritte bei der Datenerfassung und -analyse möglich wurde. Zwei MIT-Forscher, Erik Brynjolfsson und Andrew McAfee, beschreiben, wie moderne Innovationen einigen Menschen zugutekommen, aber nicht allen:
Der technologische Fortschritt wird einige Menschen, vielleicht sogar viele Menschen, zurücklassen, während er voranschreitet. Wie wir zeigen werden, gab es noch nie eine bessere Zeit für Arbeitnehmer/innen mit besonderen Fähigkeiten oder der richtigen Ausbildung, denn diese Menschen können die Technologie nutzen, um Werte zu schaffen und zu erhalten. Es gab aber auch noch nie eine schlechtere Zeit für Arbeitnehmer/innen, die nur "normale" Fähigkeiten und Fertigkeiten zu bieten haben, denn Computer, Roboter und andere digitale Technologien eignen sich diese Fähigkeiten und Fertigkeiten in einem außerordentlichen Tempo an.2
Das gleiche Konzept der disruptiven Technologie gilt auch für Organisationen. Nimm das Beispiel, wie die Einführung von Geldautomaten die Arbeitsweise von Bankfilialen verändert hat.3 Diese neue Technologie ermöglichte es einer Bankfiliale, mit einem Drittel weniger Personal zu arbeiten, was es für die Banken jedoch billiger machte, mehr Filialen zu eröffnen. Der Nettoeffekt war, dass mehr Kassierer/innen eingestellt wurden. Die Geldautomaten veränderten auch die Art der Arbeit in den Filialen: Sie verringerten die Anzahl der Aufgaben im Umgang mit Bargeld, so dass die Kassierer mehr Zeit damit verbringen konnten, Kundenbeziehungen aufzubauen und andere Finanzprodukte zu verkaufen.
Viele Unternehmen haben die Wahl, ob sie sich die disruptive Technologie zu eigen machen oder ihr zum Opfer fallen. KI hat bereits die Gesellschaft, die Wirtschaft und unser eigenes Leben verändert und es gibt keine Anzeichen dafür, dass sie auf dem Weg an die technologischen Grenzen stehen bleibt. Was kommt also als Nächstes? 2018 gab Sundar Pichai, der CEO von Google, eine Antwort: "Ich betrachte [KI] als etwas, das tiefgreifender ist als Elektrizität oder Feuer". Diese kühne Aussage ist zum Teil darauf zurückzuführen, dass es sich bei KI um eine Allzwecktechnologiehandelt , d. h.um eine Technologie, die in vielen verschiedenen Produkten und Branchen eingesetzt werden kann. Elektrizität ist, wie Pichai erwähnt, ebenfalls eine Allzwecktechnologie. Elektrizität allein kann nicht viel bewirken, aber sie war die Grundlage für eine ganze Reihe von Erfindungen: Fabriken mit elektrischen Maschinen ermöglichten eine präzisere Steuerung der Produktion, Glühbirnen verlängerten die Tage auf erschwingliche Weise, und der Kühlschrank, der Fernseher und (schließlich) der PC revolutionierten das Leben zu Hause. Auch die KI wird unsere Lebens- und Arbeitsweise verändern, indem sie eine neue Ära der technologischen Entwicklung einleitet.
Mit Automatisierung überleben (und gedeihen)
Die einzige Konstante in der Wirtschaft ist der Wandel, deshalb ist es für Einzelpersonen und Organisationen wichtig, sich in der sich verändernden technologischen Landschaft zurechtzufinden. Die Automatisierung kann die Art und Weise, wie Arbeit erledigt wird, dramatisch verändern, aber diejenigen, die sie annehmen, werden viel besser abschneiden als diejenigen, die die Automatisierung ignorieren. Lass uns darüber sprechen, wie du und dein Unternehmen sich am besten auf die Entwicklung der Automatisierung vorbereiten können.
Wie sich ein Datenanalyst vorbereiten kann
- Mach dir ein breites Lernspektrum zu eigen.
Wenn du ein breites Spektrum an Themen studierst, bist du besser in der Lage, ein bestimmtes Feld zu verfolgen, das aufgrund der Automatisierung auf dem Vormarsch ist (oder von einem Feld wegzugehen, das rückläufig ist). Generalisten sind in der Regel auch innovativer und können in einem bestimmten Bereich erfolgreich sein, wenn sie eine multidisziplinäre Denkweise anwenden.
- Nimm das Lernen in engen Grenzen an.
Eine andere Möglichkeit ist es, einen Abschluss oder eine Zertifizierung in einer Disziplin zu erwerben, die eine verlässliche Nachfrage in der Zukunft hat. Quantitative und technische Disziplinen sind auch im Zeitalter der KI eine gute Wahl. Beachte, dass sich dieser Ansatz und das Lernen im Allgemeinen nicht gegenseitig ausschließen; man kann beides tun.
- Werde ein Experte auf dem Gebiet.
Es ist auch wichtig, das Unternehmen und die Branche, in der es tätig ist, in- und auswendig zu kennen. Wenn ein Fachexperte eine Funktion innehat, die automatisiert werden kann, ist es wahrscheinlicher, dass er eine andere Funktion innerhalb des Unternehmens übernehmen kann als andere Mitarbeiter.
- Spezialisiere dich auf Automatisierung.
Wenn du sie nicht besiegen kannst, mach mit! Die Automatisierung kann einige Aufträge überflüssig machen, aber sie wird auch neue Arbeitsplätze schaffen. Die jüngsten Fortschritte bei großen Sprachmodellen werden die Nachfrage nach Ingenieuren für maschinelles Lernen erhöhen, die solche Modelle trainieren, sowie nach Prompt-Engineers, die darin geschult sind, die besten Fragen zu stellen, um hochwertige Ergebnisse zu erzielen.
- Gib eine nicht-automatisierbare Rolle ein.
Entscheide dich für ein Fachgebiet im Bereich Daten und Analytik, das nicht automatisiert werden kann (oder zumindest schwerer zu automatisieren ist). Ziehe Bereiche wie Data Governance, Datenschutz oder Ethik in Betracht.
- Stärken Sie Ihr Data Storytelling.
Die Automatisierung in Power BI macht es einfacher und schneller, Daten umzuwandeln, zu analysieren und zu visualisieren, wodurch die Anzahl der erstellten Berichte steigt. Das wiederum macht Data Storytellers wertvoller, denn sie können aus Daten Erzählungen erstellen und neue Fragen aufdecken.
- Übe diese Soft Skills.
Menschen werden immer noch mit anderen Menschen zusammenarbeiten wollen, und es ist schwierig, von einem Algorithmus Empathie zu bekommen. Wenn KI allgegenwärtig wird, werden erfolgreiche Manager/innen diejenigen sein, die über eine hohe emotionale Intelligenz verfügen.
Wie sich eine datengesteuerte Organisation vorbereiten kann
- Investiere in die berufliche Entwicklung.
Widme der Weiterbildung deiner Mitarbeiter/innen viel Zeit und Ressourcen, insbesondere in Bereichen, die die Fortschritte der KI ergänzen.
- Mach dir eine wachstumsorientierte Denkweise zu eigen.
Fördern Sie eine vorausschauende Kultur, die nach Wachstum strebt. Dazu gehört auch, dass du dein Unternehmen so organisierst, dass es flexibel genug ist, um auf sich verändernde Technologien zu reagieren, und dass es die Umsetzung dieses Wachstums unterstützen kann.
- Umstrukturierung der Aufgabenbereiche.
Sei bereit, Mitarbeiter/innen innerhalb eines Unternehmens zu versetzen, wenn neue Formen der Automatisierung es einem Team ermöglichen, mit einer geringeren Anzahl von Mitarbeiter/innen zu arbeiten. Überlege auch, welche neuen Funktionen die neueste Technologie besser nutzen könnten.
- Priorisiere es, deinen Kunden zu begeistern.
Wenn die weit verbreitete Automatisierung dein zuvor differenziertes Produkt oder deine Dienstleistung in eine Massenware verwandelt, musst du einen Weg finden, um dich von der steigenden Konkurrenz abzuheben. Eine Möglichkeit, dies zu tun, ist ein kundenorientierter Ansatz mit Personalisierung und hervorragendem Service.
- Erkunde neue Marktchancen.
So wie das Internet zur Entwicklung des E-Commerce geführt hat, werden Fortschritte in der KI und Automatisierung die Schaffung neuer Produkte, Märkte und Branchen ermöglichen.
- Lege Wert auf Kreativität und Innovation.
Setze auf Aspekte deines Geschäfts, die nicht automatisiert werden können, wie menschliche Kreativität und Innovation.
- Baue die Automatisierung auf.
Warte nicht passiv darauf, dass die Zukunft passiert, sondern lass sie geschehen, indem du die Entwicklung der Automatisierung innerhalb deines Produkts oder deiner Dienstleistung anführst.
KI-Automatisierung in Power BI
Business-Intelligence-Plattformen lassen sich nicht so leicht automatisieren, weil sie nicht nur eine Aufgabe erfüllen, sondern aus einer Reihe von Tools bestehen, die viele Funktionen erfüllen. Außerdem werden BI-Dashboards oft zur Datenexploration genutzt, wobei es nicht immer ein klares Ziel oder Ergebnis zu optimieren gibt. Wir können stattdessen die verschiedenen Komponenten einer BI-Plattform betrachten und sehen, welche Teile sich am besten für die Automatisierung eignen.
Betrachte den Business Intelligence Zyklus in Abbildung 4-1. Beginne den Zyklus oben rechts, wo ein Analyst ein Geschäftsproblem identifiziert. Als Nächstes definiert er ein Datenmodell, mit dem er das Geschäftsproblem lösen oder eine bestimmte Frage beantworten kann. Als Nächstes muss er Daten aus dem Unternehmen sammeln, die es ihm ermöglichen, das festgelegte Datenmodell zu erstellen. Diese ersten drei Schritte, die rechts in Blau dargestellt sind (in der Druckausgabe dunkler grau), eignen sich nicht für eine Automatisierung. Es gibt kein Computerprogramm, das dir sagt, welches Problem in einem Unternehmen am dringlichsten ist, welche Daten zur Lösung dieses Problems benötigt werden oder wo die Daten abgerufen werden können. Diese Schritte müssen von einem Menschen ausgeführt werden.
Nachdem der Analyst die Daten gesammelt hat, er die Daten um, um ein Datenmodell zu erstellen. Anschließend verwendet er die verarbeiteten Daten, um einen Bericht mit zusammenfassenden Daten und/oder Datenvisualisierungen zu erstellen. Der Analyst analysiert dann den Bericht, um das Geschäftsproblem zu lösen oder die Frage zu beantworten. Diese drei Schritte, die links grün dargestellt sind (in der Druckausgabe heller grau), haben Elemente, die bis zu einem gewissen Grad automatisiert werden können. Das bedeutet, dass es für Datenanalysten echte Möglichkeiten gibt, mit KI-basierten Automatisierungstools zusammenzuarbeiten, um bestimmte Aufgaben zu beschleunigen oder bei der Entscheidungsfindung zu helfen.
In Power BI gibt es zum Beispiel viele automatisierte Datenumwandlungstools in Power Query, die KI nutzen, wie z. B. Daten aus dem Web holen, Spalten aus Beispielen hinzufügen, Datenprofile erstellen, Tabellen erzeugen und Fuzzy Matching. Außerdem gibt es automatisierte Tools zur Berichterstellung, wie z. B. Fragen und Antworten und die Erstellung von Berichten. Auch in Power BI gibt es Funktionen zur Berichtsanalyse mit eingebauter Automatisierung, wie z. B. Smart Narrative und Quick Insights Visualisierungen.
Der letzte Schritt des Business Intelligence-Zyklus besteht darin, dass der Datenanalyst die Ergebnisse an sein Unternehmen weitergibt. Wie in Abbildung 4-1 zu sehen ist, ist auch dieser Schritt blau dargestellt (in der Druckausgabe dunkler grau), da er sich nicht für eine Automatisierung eignet. Der Zyklus kehrt zum ersten Schritt zurück, denn Business Intelligence ist ein iterativer Prozess der Entdeckung.
KI in Power Query
Hinweis
In diesem Buch wird davon ausgegangen, dass der Leser bereits mit den Grundlagen von Power BI vertraut ist und daher weiß, dass ein Entwickler mit Power Query eine Verbindung zu einer oder mehreren Datenquellen herstellen und die Daten dann in ein gewünschtes Format umwandeln kann. Wenn du jedoch etwas nachholen oder auffrischen möchtest, schau dir unter diesen Überblick über Power Query an.
Die nächste Runde der KI-basierten Automatisierungsfunktionen in Power BI ist Teil von Power Query. Diese Tools nutzen KI, um eine Vielzahl von Datenmanipulationen schneller durchzuführen. Das ist für Datenanalysten von Vorteil, denn niemand geht mit dem Gedanken in den Beruf: "Ich möchte meine Karriere damit verbringen, Daten zu bereinigen." Tatsächlich sind einige der am meisten unterschätzten Anwendungen von KI langweilige oder langwierige Aufgaben.
Dies ist auch auf organisatorischer Ebene wichtig, wo Unternehmen, die KI einsetzen, einen klaren Vorteil gegenüber denen haben, die dies nicht tun. Jüngste Entwicklungen bei großen Sprachmodellen wie ChatGPT, die in Kapitel 7 besprochen werden, zeigen, wie eine neue Technologie die Kapazität eines Mitarbeiters erhöhen kann, indem sie im Grunde jedem seinen eigenen persönlichen Assistenten gibt. Auch in Power BI gibt es KI-Tools, die es dem Einzelnen ermöglichen, alltägliche Aufgaben schnell zu erledigen.
In diesem Abschnitt stellen wir sechs zeitsparende Funktionen vor, die dir die Arbeit erleichtern oder einen neuen Datensatz für die Analyse erschließen können. Dazu gehören das Abrufen von Daten aus dem Web (Web Scraping), das Hinzufügen von Spalten aus Beispielen, das Erstellen von Datenprofilen, das Erzeugen von Tabellen (aus Text, CSV, JSON, Web API oder Excel) und das Fuzzy Matching.
Daten aus dem Web abrufen am Beispiel
Manchmal wissen wir über die Existenz einiger interessanter Daten Bescheid, aber sie liegen in einem Format vor, das nicht ohne Weiteres zugänglich ist. Ein relativ geläufiger Spruch beschreibt PDFs als "Ort, an dem Daten sterben", weil sie unveränderlich sind. Ein weiteres Beispiel sind Webseiten: Auf ihnen befinden sich unglaubliche Mengen an Informationen, aber ihr Format ist für das Browsen und nicht für den Austausch großer Datenmengen optimiert.
Hier kommt das Web Scraping ins Spiel. Web Scraping ist ein automatisiertes Verfahren zum Extrahieren von Informationen aus Webseiten. Es analysiert die zugrunde liegende Hypertext Markup Language (HTML) einer Website und speichert sie zur späteren Verwendung. Wenn du den Firefox- oder Chrome-Browser verwendest, kannst du den HTML-Code einer Seite anzeigen, indem du mit der rechten Maustaste auf die Seite klickst und "Inspect" auswählst . Abbildung 4-2 zeigt den zugrunde liegenden HTML-Code auf einer Seite mit O'Reilly-Ressourcen. Nachdem du auf Inspizieren geklickt hast, kannst du auf der rechten Seite durch einige Dropdown-Abschnitte navigieren, um den gespeicherten Text zu sehen, der die Seite füllt.
Power BI bietet die Möglichkeit, eine Webseite zu laden und den HTML-Code in eine Datentabelle zu extrahieren. Der Nutzer gibt ein paar Beispiele für die gewünschte Ausgabe an, und Power BI nutzt KI, um automatisch alle gewünschten Einträge von der Website vorherzusagen.
Unserer Erfahrung nach ist die KI ziemlich gut darin, das Muster der HTML-Extraktion nach zwei oder drei Beispielen zu erkennen, aber danach wird sie nicht mehr viel besser. Wenn du keine guten Ergebnisse erzielst, probiere diese Tipps aus:
-
Überprüfe deine früheren Einträge auf Tippfehler.
-
Achte darauf, dass du einen Eintrag aus dem Dropdown-Menü auswählst, nachdem du die ersten Buchstaben eingegeben hast.
-
Überprüfe, ob sich am Ende eines Eintrags zusätzlicher Text befindet, indem du doppelklickst und die rechte Pfeiltaste benutzt.
-
Fang noch einmal von vorne an.
-
Versuche, einen größeren Abschnitt zu scrapen, als du ursprünglich wolltest (in Demo 1 haben wir z. B. "Von [Name des Autors]" extrahiert, weil das Extrahieren des Autorennamens allein nicht durchgängig funktioniert hat).
Demo 4-1: Daten aus dem Web abrufen am Beispiel
Gehen wir durch ein Beispiel von Web Scraping mit get data from web by example. Öffne einen neuen Power BI-Bericht und wähle den "Dropdown-Pfeil" von "Daten abrufen". Klicke dann auf "Web", wie in Abbildung 4-3 gezeigt.
Füge unter URL Folgendes ein:
- https://web.archive.org/web/20231120092630/https://www.oreilly.com/products/books-videos.html
Klicke dann auf OK(Abbildung 4-4). Daraufhin öffnet sich eine Webseite mit einer Liste von O'Reilly-Produkten.
Wenn du gefragt wirst, für welche Ebene diese Einstellungen gelten sollen, wähle die vollständige URL aus dem Dropdown-Menü und wähle Verbinden (nicht abgebildet). Es kann eine ganze Minute dauern, bis die Verbindung hergestellt ist.
Dadurch wird das Navigator-Fenster geöffnet, das mehrere Optionen zur Anzeige der zugrunde liegenden Daten der Webseite bietet. Wenn du die Webansicht auswählst, kannst du die ursprüngliche Webseite so sehen, als ob du sie in einem Browser geöffnet hättest(Abbildung 4-5). Oder du wählst Tabellenansicht und HTML-Code, um den Code zu sehen, der die Seite generiert(Abb. 4-6). Alternativ kannst du auf Tabellenansicht und das Feld Tabelle 1 klicken, um eine vorgeschlagene Tabelle zu sehen, die aus dem HTML-Code der Seite erstellt wurde(Abbildung 4-7).
Anstatt eine der vorgeschlagenen Tabellen zu verwenden, kannst du auf versuchen, deine eigene Tabelle zu erstellen. Klicke in der linken unteren Ecke auf Tabelle mit Beispielen hinzufügen. Daraufhin öffnet sich ein neues Fenster, wie in Abbildung 4-8 dargestellt.
Im oberen Feld des Fensters wird die gerenderte Webseite angezeigt, und im unteren Feld geben wir die Beispieldaten ein, die wir extrahieren möchten. Als Nächstes scrollst du im oberen Feld nach unten, um das erste Buch zu sehen. Benenne dann im unteren Feld die Überschriften Titel, Autoren, Verlag und Beschreibung. Gib nun die Informationen aus dem ersten Buch ein, indem du den Titel, den Autor, den Verlag und die Buchbeschreibung hinzufügst(Abbildung 4-9). Füge ein "Von" vor dem Autorennamen ein (z. B. "Von Martin Kleppmann"), damit die KI das Gesuchte leichter findet. Wir werden dies später kürzen.
Hinweis
Wir haben festgestellt, dass es am besten ist, mit dem Tippen eines Eintrags zu beginnen und dann die Option zu wählen, die automatisch die richtige Eingabe ausfüllt. So ist die Wahrscheinlichkeit geringer, dass ein unbemerkter Tippfehler die KI dazu verleitet, Vorhersagen zu treffen, die auf dem basieren, was du geschrieben hast, und nicht auf dem, was du gemeint hast.
Scrolle nun im ersten Feld nach unten, um das zweite Buch auf der Liste anzuzeigen. Gib den Titel, den Autor (einschließlich "von"), den Verlag und die Beschreibung ein und erinnere dich daran, dass du mit dem Tippen beginnen und dann die Option aus der Liste auswählen musst. Dein Fenster sollte jetzt wie in Abbildung 4-10 aussehen.
In Abbildung 4-10 siehst du, dass die KI in get data from web by example nach zwei Reihen von Beispielen den Rest der Tabelle ausgefüllt hat. Der graue Text zeigt an, dass sie eine Vorhersage macht. Wenn du nicht die gleichen Ergebnisse erhältst, solltest du dir die Tipps zur Verwendung von Web Scraping unmittelbar vor diesem Abschnitt ansehen.
Wenn du bereit bist, klicke auf OK, um fortzufahren. Daraufhin wird das Navigator-Fenster angezeigt, wie in Abbildung 4-11 dargestellt. Die Ergebnisse der HTML-Extraktion werden auf der linken Seite als Tabelle 6 angezeigt. Jetzt wollen wir die Liste der Autoren ändern, indem wir die Spalte aus den Beispielen hinzufügen, also klicken wir auf Daten transformieren. Wir werden in Demo 4-2 an dieser Stelle weitermachen.
Spalte aus Beispielen hinzufügen
Hier ist ein weiteres Tool aus dem Automatisierungs-Toolkit, mit dem Analysten Daten schnell umwandeln können. Spalte aus Beispielen hinzufügen fordert den Benutzer auf, Beispieleingaben zu machen, um der KI zu zeigen, wie eine neue Spalte aussehen soll. Dann versucht ein Algorithmus, die Power Query M-Formel zu finden, die die gleichen Ergebnisse liefert.
Hinweis
Wir gehen davon aus, dass der Leser bereits über grundlegende Kenntnisse der Power Query Formula Language (kurz M genannt und in Kapitel 1 kurz besprochen) verfügt, die allen Abfragen von Power BI zugrunde liegt. Wir werden in diesem Buch nicht direkt mit M-Code arbeiten, aber für diejenigen, die einen Überblick oder eine Auffrischung wünschen, gibt es die Power Query M Introduction.
Interessant ist hier, dass das KI-Modell einen Zwischenschritt (die M-Formel) vorhersagt und wir die Vorhersage danach bewerten, wie der letzte Schritt (das Erzeugen einer neuen Spalte) aussieht. Es gibt zwar keine Dokumentation darüber, wie die Funktion "Spalte aus Beispielen hinzufügen" funktioniert, aber es handelt sich um eine ähnliche Funktion in großen Sprachmodellen wie ChatGPT, bei der ein Benutzer eine oder mehrere Eingabeaufforderungen geben kann und der Algorithmus eine Ausgabe erzeugt, als würde er in Echtzeit "lernen". In Kapitel 7 findest du weitere Informationen zu diesem Thema.
Mit der Funktion Spalte hinzufügen aus Beispielen kannst du Daten in einer neuen Spalte deiner Wahl kombinieren, extrahieren, umwandeln oder erweitern. Am besten verwendest du diese Funktion, wenn du bereits weißt, dass die gewünschte Umwandlung in Power BI vorhanden ist (entweder als M-Ausdruck oder in der Benutzeroberfläche); sie ist aber auch nützlich, um verschiedene Manipulationen auszuprobieren, um zu sehen, was möglich ist.
Unserer Erfahrung nach ist die KI gut darin, anhand von zwei oder drei Beispielen eine neue Spalte zu erstellen, aber danach wird sie nicht mehr viel besser. Wenn du keine guten Ergebnisse erzielst, probiere diese Tipps aus:
-
Überprüfe deine früheren Einträge auf Tippfehler.
-
Korrigiere Vorhersagen, die falsch sind.
-
Gib Beispiele, die eine große Bandbreite an Beispielen abdecken.
-
Wenn alles andere fehlschlägt, fang von vorne an.
Demo 4-2: Spalte aus Beispielen hinzufügen
Gehen wir ein Beispiel durch, um eine neue Spalte aus einem Datensatz anhand von Beispielen zu erzeugen. Dieses Beispiel knüpft an Demo 4-1 an, in der wir Daten von der O'Reilly-Website abgerufen haben. Es ist eine natürliche Fortsetzung, weil die HTML-Extraktion manchmal Daten sammelt, die nicht genau das sind, was wir wollen.
Öffne den Power Query Editor, falls er nicht bereits geöffnet ist. Wähle die Spalte Authors aus und klicke dann auf die Registerkarte Add Column(Abbildung 4-12). Wähle nun Spalte aus Beispielen und aus dem Dropdown-Menü die Option Aus Auswahl. Das bedeutet, dass du eine neue Spalte auf der Grundlage der Informationen in der Spalte "Autoren" erstellst.
Das Fenster ändert sich und fügt eine neue Spalte1 hinzu, wie in Abbildung 4-13 dargestellt. Hier kannst du Beispiele für die formatierten Daten hinzufügen, die du von Authors haben möchtest.
Benenne die Spalte Authors2 um und füge das erste Beispiel von Martin Kleppmann ohne das vorangestellte "By" hinzu. Wie du in Abbildung 4-14 sehen kannst, hat die KI aus nur einem Beispiel alle Einträge in der Liste der Autoren ohne "By" vorhergesagt. Beachte auch die M-Formel oben, die vorhersagt, wie die neue Spalte erzeugt wird. Sie lautet: " Nimm aus der Spalte "Autoren" den gesamten Text nach dem ersten Leerzeichen.
Wir wollen auch alle Kommas in den Autorenlisten durch Semikolons ersetzen. Springen wir ein paar Zeilen weiter und ersetzen die beiden Autoren durch Joe Reis und Matt Housley. In Abbildung 4-15 sehen wir nun, dass alle Autoren in einer Liste durch ein Semikolon getrennt sind. Die entsprechende M-Formel für die Erstellung der Spalte erscheint ebenfalls oben.
Klicke auf OK, um die Spaltenerstellung abzuschließen. In Demo 4-3 werden wir sehen, wie wir unseren neuen Datensatz profilieren können.
Datenprofilierung
Während du deine Daten mit Power Query Editor umwandelst, kannst du jederzeit eine Pause einlegen und ein Profil der Daten in ihrem aktuellen Zustand einsehen. Data Profiling ermöglicht es dir, Fehler zu erkennen und schlägt sogar automatisch bestimmte Transformationen vor, die dir bei deiner Abfrage helfen. Zu diesen Umwandlungen gehören das Beibehalten, Entfernen, Ersetzen, Filtern nach, Gruppieren nach und Kopieren von Werten.
Im Einzelnen gibt es drei Funktionen im Power Query Editor, die ein Datenprofil ausmachen:
- Qualität der Säule
Diese Funktion schlüsselt den Anteil der Einträge in jeder Spalte auf, die entweder gültig, ein Fehler oder leer sind.
- Säulenverteilung
Diese Funktion zeigt eine Häufigkeitsverteilung der Werte in jeder Spalte an.
- Säulenprofil
Diese Funktion zeigt eine deskriptive Statistik für jede Spalte sowie eine detailliertere Häufigkeitsverteilung.
Der wahrscheinlich größte Vorteil des Data Profiling sind die eingebauten Vorschläge, welche Umwandlung der Analyst auf der Grundlage des Datenzustands in Betracht ziehen sollte. Wenn eine Spalte zum Beispiel leere Werte enthält, wird beim Überfahren des Abschnitts Spaltenqualität eine KI-gestützte Empfehlung (mit einem Glühbirnensymbol) angezeigt, diese leeren Werte zu entfernen.
Es gibt keinen komplizierten Deep-Learning-Algorithmus, der diese Funktion antreibt. Stattdessen erinnert uns dieses Beispiel daran, dass jeder Algorithmus, der menschliche Intelligenz nachahmt, immer noch unter den Begriff der künstlichen Intelligenz fällt. Wir haben uns entschieden, diese Funktion in das Buch aufzunehmen, weil sie mit dem Kapitel über Automatisierung übereinstimmt und die Entscheidungsfindung durch Vorschläge für Umwandlungen unterstützt.
Hinweis
Power Query verwendet standardmäßig nur die obersten 1.000 Zeilen, um ein Profil zu erstellen. Dies kann in der linken unteren Ecke des Power Query-Fensters geändert werden, indem du auf "Spaltenprofilierung basierend auf den ersten 1000 Zeilen" klickst und "Spaltenprofilierung basierend auf dem gesamten Datensatz" auswählst.
Demo 4-3: Datenprofilierung
Wir greifen die Datenumwandlung auf, die eine Fortsetzung von Demo 4-1 und Demo 4-2 ist. Öffne den Power Query Editor, falls er noch nicht geöffnet ist. Navigiere zur Registerkarte "Ansicht" und aktiviere das Kontrollkästchen "Spaltenqualität" im Bereich "Datenvorschau"(Abbildung 4-16). Dadurch werden neue Informationen unter den Spaltenüberschriften angezeigt, die den Anteil der Daten in jeder Spalte darstellen, die entweder gültig, fehlerhaft oder leer sind. In diesem Beispiel sehen wir, dass unser Datensatz vollständig ist, weil in jeder Spalte 100% der Daten als "gültig" gekennzeichnet sind.
Du kannst auch mit dem Mauszeiger über diesen neuen Bereich fahren, um ein Pop-up zu öffnen. Wenn du auf das Auslassungszeichen unten rechts in diesem Pop-up klickst, werden in einem Dropdown-Menü einige Schnellmaßnahmen angezeigt, die du je nach Qualität der Daten ergreifen kannst. Dies ist ein gutes Beispiel dafür, wie Power BI es dir ermöglicht, mit Hilfe von KI schnell Daten zu verändern.
Deaktiviere "Spaltenqualität" und wähle stattdessen "Spaltenverteilung". Dadurch wird ein neuer Abschnitt über die Häufigkeitsverteilung der Werte innerhalb jeder Spalte angezeigt, wie in Abbildung 4-17 dargestellt. Hier siehst du, dass es drei Autoren mit zwei Büchern unter ihrem Namen gibt. Wenn du mit dem Mauszeiger über den Abschnitt "Autoren" fährst, erscheint ein Pop-up-Fenster mit einem klickbaren Aktionsvorschlag zum Entfernen von Duplikaten.
Zum Schluss lernen wir die letzte automatisierte Möglichkeit, unsere Daten zu profilieren. Hebe die Auswahl Spaltenverteilung auf und wähle "Spaltenprofil". Es wird nichts angezeigt, bis eine Spalte ausgewählt ist. Klicke also auf die Spalte "Herausgeber", um unten einen neuen Bereich zu öffnen. Auf der linken Seite befinden sich zusammenfassende Statistiken für die Spalte und auf der rechten Seite die Werteverteilung. Abbildung 4-18 zeigt, dass O'Reilly der häufigste Verlag in diesem Datensatz ist, was Sinn macht, wenn man bedenkt, dass wir die Liste der Ressourcen von der O'Reilly-Website abgerufen haben.
Bewege den Mauszeiger über den horizontalen Balken von O'Reilly Media, Inc., um den genauen Anteil der von diesem Unternehmen veröffentlichten Artikel anzuzeigen (in diesem Beispiel 54 %). Das Pop-up enthält außerdem klickbare Aktionsvorschläge, mit denen du die Zeilen danach filtern kannst, ob sie O'Reilly Media, Inc. als Herausgeber haben oder nicht. Außerdem zeigen die Ellipsen im Pop-up weitere praktische Filteroptionen an(Abbildung 4-19).
Tabelle Erzeugung
Eine weitere Funktion in Power Query , die die integrierte KI nutzt, ist die Tabellengenerierung. Dabei ist Power BI in der Lage, eine Tabelle entweder aus (1) einem Dateityp, der von Haus aus keine Tabellenstruktur ist, oder (2) einem tabellenbasierten Dateityp mit schlecht organisierten Daten zu erkennen.
In der ersten Situation kann Power BI automatisch eine Tabelle aus verschachtelten Datentypen wie JSON und Antworten von webbasierten APIs erstellen. Abbildung 4-20 zeigt ein Beispiel für verschachtelte Daten aus einer JSON-Datei. Die Generierung von Tabellen aus Daten in diesem Format ist eine echte Zeitersparnis für Datenanalysten, insbesondere bei der Integration von Power BI mit APIs.
Die zweite Kategorie von Dateitypen, die Power BI zum Erstellen von Tabellen verwenden kann, sind Microsoft Excel-, CSV- und Textdateien. Excel-Dateien werden ebenso wie JSON-Dateien automatisch in eine Tabelle umgewandelt, auch wenn die Daten unübersichtlich und nicht perfekt als Tabelle formatiert sind. CSVs und Textdateien bieten dem Datenanalysten sogar noch mehr Flexibilität. Power BI erzeugt eine Tabelle auf der Grundlage mehrerer Beispiele auf eine Art und Weise, die fast identisch ist mit der von Get Data from Web by Example und Add Column from Examples.
Wir haben die Erfahrung gemacht, dass die KI ziemlich empfindlich auf die Qualität der Daten reagiert, aus denen ein Nutzer Beispiele liefert. Wie bei den anderen Beispielfunktionen von Power Query ist es unwahrscheinlich, dass die KI-Vorhersage nach mehr als drei Beispielen besser wird. Wenn du keine guten Ergebnisse erzielst, probiere diese Tipps aus:
-
Überprüfe deine früheren Einträge auf Tippfehler.
-
Korrigiere Vorhersagen, die falsch sind.
-
Biete eine Vielzahl von Beispielen an.
-
Extrahiere längere Einträge (diese können immer umgewandelt werden, nachdem die Tabelle geladen wurde).
-
Wenn alles andere fehlschlägt, fang von vorne an.
Demo 4-4: Tabellenerstellung
Der beste Weg, um zu verstehen, wie die Funktionen zur Tabellenerstellung funktionieren, ist, sie in Aktion zu sehen. Hier beginnen wir mit einer neuen Demo, verwenden aber die Daten aus den vorherigen Demos in diesem Kapitel über Ressourcen von der Website von O'Reilly Media. Obwohl die Tabellengenerierungsfunktion mit JSON, Web API, Excel, CSV und Textdateien funktioniert, werden wir sie hier nur mit CSV und JSON demonstrieren.
Unser erster Schritt ist der Import der CSV-Datei, mit der wir arbeiten werden. Klicke zunächst auf den Dropdown-Pfeil "Daten abrufen" und wähle "Web" aus, wie in Abbildung 4-3 zu sehen ist.
Kopiere dann unter URL den Beispieldatensatz, der auf der GitHub-Seite dieses Buches bereitgestellt wird. Klicke auf OK(Abbildung 4-4).
Daraufhin wird eine Vorschau der Daten angezeigt. Wie du in Abbildung 4-21 sehen kannst, gibt es einige leere Zeilen, einen Hinweis darauf, dass die Preisdaten zufällig generiert wurden, und die Preise selbst sind in einer Spalte mit dem Ressourcenformat zusammengefasst. Wir wollen eine Tabelle mit Beispielen extrahieren, also klicke auf die treffend benannte Schaltfläche Tabelle mit Beispielen extrahieren.
Als Nächstes möchtest du das Fenster bildschirmfüllend machen und die erste Spalte verbreitern, damit du mehr Platz zum Arbeiten hast. Setze anstelle von Spalte1 die Überschrift Titel in die erste Spalte. Beginne dann, den Namen des ersten Beispiels einzugeben, bis der vollständige Name (ISC)2 CISSP Certified Information Systems Security Professional Official Study Guide, 9th Edition, erscheint (siehe Abbildung 4-22). Wähle es aus.
Erinnere dich daran, dass es bei der Angabe von Beispielen am besten ist, ein Element aus einer Auswahlliste auszuwählen, anstatt es abzutippen oder den Eintrag per Copy-Paste einzufügen. So wird sichergestellt, dass der tatsächliche Wert aus den Daten ermittelt wird.
Wie du in Abbildung 4-23 sehen kannst, hat der Algorithmus bereits (korrekte!) Vorhersagen über die verbleibenden Titel in der CSV gemacht. Die Einträge sind grau, um anzuzeigen, dass es sich nur um Vorhersagen handelt. Gehe zur nächsten Spalte über und ersetze Spalte1 durch Autor. Beginne dann, die Namen der Autoren einzugeben, bis M. Chapple, J. M. Stewart, D. Gibson erscheint. Wähle sie aus.
Wiederhole dies, indem du zur nächsten Spalte gehst, Spalte1 durch Preis ersetzst, nach 32,72 suchst und ihn aus der Liste auswählst(Abbildung 4-24). Drücke abschließend die Eingabetaste.
In Abbildung 4-25 sehen wir, dass die obersten angezeigten Zeilen der CSV-Rohdateien den formatierten Zeilen mit grauem Text entsprechen. Schon anhand dieses einen Beispiels hat der Algorithmus korrekt vorhergesagt, wie der Rest der Tabelle aussehen sollte. Klicke auf Laden.
Wir kommen nun zu einem zweiten Beispiel, diesmal mit dem Dateityp JSON, der aus verschachtelten Daten besteht. Wie diese Daten in ihrem Rohformat aussehen, haben wir bereits in Abbildung 4-20 am Anfang dieses Abschnitts gezeigt. Du kannst zwei Ressourcen sehen, die als Wörterbuch mit Paaren von Einträgen definiert sind, die einen Schlüssel (z. B. "Titel") und einen zugehörigen Wert (z. B. "Designing Data-Intensive Applications") darstellen.
Wie in Abbildung 4-3 klickst du auf das Dropdown-Symbol "Daten abrufen" und wählst Web. Dann fügst du, wie in Abbildung 4-4, unsere JSON-Datei unter URL ein. Klicke auf OK.
Power BI erkennt, dass wir eine JSON-Datei hinzugefügt haben und wandelt sie im Power Query Editor automatisch in ein Tabellenformat um. In Abbildung 4-26 siehst du, dass die neue Tabelle, die aus der JSON-Datei(oreilly2) erstellt wurde, auf der linken Seite unter der vorherigen Tabelle aus der CSV-Datei(oreilly) aufgeführt ist.
Wir werden dieses Beispiel später in Demo 4-5 fortsetzen, wo wir einen Zusammenschluss mit Fuzzy-Matching zeigen werden. Nimm dir aber erst einmal einen Moment Zeit, um die Datei zu speichern und wähle Übernehmen, wenn du dazu aufgefordert wirst.
Fuzzy Matching
Wie ist dein Name? Höre jetzt auf, zu lesen und beantworte die Frage, am besten laut.
Hast du einen Spitznamen oder deinen offiziellen Namen verwendet? Hast du einen zweiten Vornamen oder Initialen erwähnt? Wie sieht es mit deinem/ihren Nachnamen aus? Was ist mit Titeln, Ehrentiteln oder Suffixen? Für einen Computer ist jeder dieser Namen anders. "Thomas J. Weinandy" = "Tom Weinandy"
gibt zum Beispiel False
zurück, weil diese beiden Zeichenfolgen (d. h. Textdaten) nicht übereinstimmen.
Stell dir vor, ein Unternehmen hat zwei Datensätze, die beide eine Spalte mit Lieferadressen haben, aber nicht über die richtigen Verknüpfungsschlüssel verfügen. Wenn sich die Adressen in den beiden Spalten geringfügig unterscheiden, können sie nicht auf herkömmliche Weise verbunden werden. An dieser Stelle kommt der Fuzzy-Abgleich ins Spiel. Fuzzy Matching oder Fuzzy Logic ist eine statistische Methode zur Berechnung eines Ähnlichkeitswerts zwischen zwei Zeichenketten, und wenn der Wert einen bestimmten Schwellenwert überschreitet, werden sie verbunden. Die Ähnlichkeiten basieren auf Faktoren wie Ersetzungen, Löschungen und Einfügungen von Zeichen.
Fuzzy Matching ist in Power BI als Teil des Power Query Editors integriert und ermöglicht es, Datensätze mit ähnlichen Zeichenkettenspalten zu kombinieren. Es gibt verschiedene Konfigurationsoptionen, darunter:
- Ähnlichkeitsschwelle
-
Ein optionaler Parameter, der angibt, wie ähnlich zwei Zeichenfolgen sein müssen, damit sie übereinstimmen. Bei einem Wert von 0,0 stimmen alle Werte überein, bei einem Wert von 1,0 werden nur perfekte Übereinstimmungen verbunden. Der Standardwert ist 0,8.
- Fall ignorieren
-
Dieser Parameter gibt an, ob die Groß- und Kleinschreibung nicht beachtet werden soll (z. B. wird Internet mit Internet abgeglichen). Standardmäßig wird die Groß-/Kleinschreibung ignoriert.
- Zuordnen durch Kombinieren von Textteilen
-
Wenn diese Option aktiviert ist (Standardeinstellung), werden Leerzeichen beim Abgleich ignoriert; wenn sie nicht aktiviert ist, werden Leerzeichen berücksichtigt.
- Maximale Anzahl von Übereinstimmungen
-
Diese Option liefert entweder alle Treffer (Standard) oder eine bestimmte Anzahl von Treffern. Ein Wert von 1 bedeutet zum Beispiel, dass jede Zeile genau einen Treffer liefert.
- Transformationstabelle
-
Diese Option gibt an, ob es eine dritte Brückentabelle gibt, die Übereinstimmungen über eine breitere Zuordnung ermöglicht. Eine Transformationstabelle könnte zum Beispiel Ländernamen mit zweistelligen ISO-Ländercodes enthalten.
Demo 4-5: Fuzzy Matching
Diese Demo macht da weiter, wo wir am Ende von Demo 4-4 waren. Öffne den Power Query Editor, falls er noch nicht geöffnet ist. Klicke im Menüband Home auf den Dropdown-Pfeil "Abfragen zusammenführen". Wähle dann "Abfragen als neu zusammenführen"(Abbildung 4-27).
Jetzt öffnet sich ein neues Fenster zum Zusammenführen. Die erste Tabelle sollte bereits mit der oreilly-Abfrage gefüllt sein, aber in der zweiten Tabelle wählst du die Abfrage "oreilly2" aus dem Dropdown-Menü aus. Jetzt musst du auswählen, welche Spalte(n) diese beiden Tabellen zusammengeführt werden sollen. In diesem Fall möchtest du nach dem Titel und dem Autor der Ressourcen zusammenführen. Wähle in der ersten Abfrage "Titel" und "Autor" (benutze die Strg-Taste für die Mehrfachauswahl) und in der zweiten Abfrage "Titel" und "Autor". Vergewissere dich, dass die Spaltennummern 1 und 2 übereinstimmen, wie in Abbildung 4-28 gezeigt, wobei Titel und Titel jeweils 1 und Autor und Autor jeweils 2 sind.
Nachdem du die Spalten aus beiden Tabellen ausgewählt hast, erscheint ein Pop-up-Fenster, das dich vor Datenschutzbedenken im Zusammenhang mit den beiden zusammenzuführenden Datensätzen warnt. Da es bei diesen Daten keine Datenschutzbedenken gibt, markiere Datenschutzstufen ignorieren und klicke auf Speichern, um fortzufahren(Abbildung 4-29).
Unten im Fenster "Zusammenführen" gibt es weitere Optionen für die Art des Zusammenführens, die wir durchführen möchten. Wähle "Full Outer" aus dem Dropdown-Menü, um alle Daten einzubeziehen. Außerdem solltest du die Option "Unscharfen Abgleich für die Zusammenführung verwenden" aktivieren. Hier siehst du, wie viele Übereinstimmungen nach dem standardmäßigen Ähnlichkeitsschwellenwert für Fuzzy Matching von 0,8 auftreten. Wie der Pfeil in Abbildung 4-30 zeigt, stimmen nur 12 von 50 Zeilen überein.
Wir wollen die Trefferquote unserer Daten verbessern, auch auf die Gefahr hin, dass mehr falsch-positive Ergebnisse entstehen. Klicke auf "Unscharfe Abgleichsoptionen", um weitere Möglichkeiten zur Anpassung der Verknüpfung zu erhalten. Füge dann, wie in Abbildung 4-31 gezeigt, 0,5 zu "Ähnlichkeitsschwelle" hinzu, um mehr Übereinstimmungen zu ermöglichen. Die Meldung am unteren Rand des Fensters zeigt, dass alle 50 von 50 Zeilen mit diesen Einstellungen übereinstimmen. Klicke auf OK.
Wir haben jetzt eine kombinierte Abfrage, die Tabelle1 heißt und im Power Query Editor sichtbar ist. Die zweite Abfrage wird derzeit als Tabellenspalte angezeigt. Um sie zu erweitern, wähle das Trennsymbol rechts neben "oreilly2", wie in Abbildung 4-32 gezeigt. Vergewissere dich, dass Erweitern ausgewählt ist und klicke auf OK.
Wenn du dir die untere linke Ecke des Fensters ansiehst, siehst du, dass die Tabelle 10 Spalten und 54 Zeilen hat. Die 10 Spalten sind gut, denn das bedeutet, dass die Zusammenführung erfolgreich war. Die Zeilenzahl zeigt jedoch, dass wir jetzt 4 Zeilen mehr haben als die 50 in jeder ursprünglichen Tabelle. Um herauszufinden, bei welchen Zeilen es sich um falsch positive Übereinstimmungen handelt, ziehst du die Spalte Titel direkt links neben die Spalte "oreilly2.title". Erweitere beide Spalten, bis die Ausgabe sichtbar wird, wie in Abbildung 4-33 dargestellt.
Hinweis
Bei der Verwendung von Fuzzy Matching in Power BI ist es oft besser, zu viele Zeilen abzugleichen als zu wenige, weil du die falsch positiven Übereinstimmungen immer entfernen kannst. Dies ist jedoch bei größeren Datenmengen nicht praktikabel. Der Kompromiss aus Kosten und Nutzen zwischen zu wenigen oder zu vielen Übereinstimmungen hängt von den Besonderheiten des jeweiligen Anwendungsfalls ab.
Da die Überschneidung mit vier Datensätzen gering genug ist, können wir manuell nach den Zeilen suchen, die wir entfernen möchten, und sie mithilfe einer Indexspalte herausfiltern. Um eine solche zu erstellen, wähle das Ribbon Spalte hinzufügen, klicke auf das Dropdown-Menü "Indexspalte" und wähle Von 0(Abbildung 4-34).
Ziehe nun die neue Spalte Index direkt links neben die Spalte Titel, wie in Abbildung 4-35 dargestellt. Wenn wir die beiden Titelspalten vergleichen, erkennen wir die vier Ressourcen mit nicht übereinstimmenden Ausgaben. Da alle diese Titel doppelt aufgeführt sind, können wir sie getrost aus unserem Datenmodell streichen.
Um die Zeilen zu entfernen, klicke auf das Dropdown-Menü Index. Hebe dann die Auswahl von 1, 3, 11 und 15 auf. Klicke auf OK(Abbildung 4-36).
Wie in Abbildung 4-37 zu sehen ist, haben wir jetzt die gleichen 50 Zeilen wie in unseren ursprünglichen Datensätzen. Damit schließen wir unsere Demo zum Fuzzy-Matching ab. Du kannst den Bericht gerne speichern und Schließen & Anwenden wählen, wenn du dazu aufgefordert wirst.
Damit endet der Abschnitt darüber, wie du die KI-basierten Automatisierungstools in Power Query nutzen kannst, um deine Daten besser und schneller zu verarbeiten. Jetzt werden wir uns ansehen, wie KI bei der Berichterstellung und Datenanalyse helfen kann.
Intelligente Datenexploration
Eines der einflussreichsten Elemente von Power BI ist, wie schnell es einem Nutzer ermöglicht, von Rohdaten zu neuen Erkenntnissen zu gelangen. Die KI-basierte Automatisierung in Power BI geht noch einen Schritt weiter, indem sie eine schnelle Datenexploration und Berichtserstellung durch eine Vielzahl von Tools ermöglicht. Diese Werkzeuge nutzen die Leistung der KI, um schnelle Prototypen und Einblicke zu erstellen, überlassen es aber dem Entwickler, zu entscheiden, was er behalten möchte.
Die Rolle des Menschen ist hier weniger die eines Programmierers, sondern eher die eines Museumskurators, der anhand von Daten eine Geschichte um eine Geschäftssituation herum aufbaut. KI kann dir die Arbeit erleichtern, aber sie sagt dir nicht, welche Fragen du stellen sollst oder welche Antworten am sinnvollsten sind. Die Algorithmen können jedoch die Fähigkeiten einer Person ergänzen, die weiß, wie sie ihre Arbeit mit der KI verbinden kann.
Das bringt uns zurück zum Business-Intelligence-Zyklus in Abbildung 4-1, wo wir bereits die Rolle der Automatisierung bei der Datentransformation besprochen haben. Der Rest des Kapitels befasst sich nun damit, wie KI-basierte Automatisierung die Erstellung und Analyse von Berichten unterstützen kann. Wir werden hier drei Funktionen hervorheben: schnelle Einblicke, Berichtserstellung und intelligente Erzählungen. Das Q&A-Visual könnte in diesen Abschnitt aufgenommen werden, da es einem Endnutzer ermöglicht, Fragen zu den Daten zu stellen, um schnell Visualisierungen zu erstellen. Wir haben Q&A jedoch in Kapitel 3 besprochen und überlassen es daher dem Leser, bei Interesse dorthin zurückzukehren.
Warnung
Im November 2023 kündigte Microsoft die öffentliche Vorschau von Copilot an, einem generativen KI-Tool, das in den Power BI-Dienst eingebettet ist und über eine chatbasierte Schnittstelle Daten analysieren und Berichte erstellen kann. Diese Funktion ändert sich schnell, daher empfehlen wir, online nach den neuesten Funktionen von Copilot im Power BI-Dienst und Power BI Desktop zu suchen. In der Zwischenzeit konzentriert sich der Rest dieses Kapitels auf die Tools zur intelligenten Datenexploration, die zum Zeitpunkt der Erstellung dieses Artikels allgemein verfügbar sind.
Schnelle Einblicke
Schnelle Einblicke automatisch scannt einen Datensatz und führt eine Vielzahl von Analysen an Variablenpaaren innerhalb dieses Datensatzes durch, um interessante Muster und Beziehungen aufzudecken. Dies hilft Nutzern, die einen Datensatz besser verstehen wollen, eine Erkenntnis zu gewinnen, die sie vielleicht noch nicht bedacht haben, schnell ein Dashboard zu erstellen, Ideen für einen Bericht zu entwickeln oder sich einfach von einem neuen Datensatz nicht mehr überwältigen zu lassen.
Hinweis
Die Nutzung der Quick Insights-Funktion für einen gesamten Datensatz ist im browserbasierten Power BI Service möglich, nicht aber auf Power BI Desktop, d.h. du benötigst eine Pro- oder Premium-Lizenz. Wie in Kapitel 3 beschrieben, kannst du Einblicke in ein bestimmtes Visual auf Power BI Desktop nutzen. Quick Insights ist nur für Daten verfügbar, die in Power BI hochgeladen wurden, nicht aber für DirectQuery- oder Streaming-Daten.
Quick Insights führt viele verschiedene automatische Analysen deines Datensatzes durch. In den folgenden Listen sind sie nach Datentypen gegliedert.
Für numerische und kategoriale Daten:
- Numerische Ausreißer
-
Ein oder mehrere numerische Datenpunkte unterscheiden sich deutlich von anderen, wenn sie durch eine einzige Kategorie unterteilt werden.
- Kategorie Ausreißer
-
Eine oder zwei Kategorien haben einen unverhältnismäßig höheren Anteil an Werten als andere Kategorien.
- Korrelation
-
Mehrere numerische Datenpunkte innerhalb einer Kategorie stehen in einem positiven oder negativen Verhältnis zueinander.
- Geringe Varianz
-
Numerische Datenpunkte liegen nahe am Mittelwert einer Kategorie.
- Mehrheitsfaktoren
-
Die Mehrheit einer Summe stammt aus einer einzigen Kategorie.
Für Zeitreihendaten:
- Ausreißer in Zeitreihen
-
Es gibt Werte, die sich zu einem bestimmten Zeitpunkt unerwartet ändern.
- Trends in Zeitreihen
-
Es gibt einen positiven oder negativen Trend im Laufe der Zeit.
- Änderungspunkte in Zeitreihen
-
Es gibt mehrere sinnvolle Veränderungen in einem Trend.
- Saisonalität in Zeitreihen
-
Es gibt ein zyklisches Muster, das über die Zeit anhält.
- Stetiger Anteil
-
Es gibt eine geringe Varianz (siehe oben), die im Laufe der Zeit konstant bleibt.
Du bist bereit, schnelle Erkenntnisse zu gewinnen und dabei Zeit zu sparen. Wenn du dennoch auf Probleme stößt, kannst du mit diesen Tipps deine Daten organisieren, um bessere Ergebnisse zu erzielen:
-
Blende unwichtige oder doppelte Spalten in deinem Datensatz aus, um sie von schnellen Einblicken auszuschließen.
-
Verwende eine Mischung aus numerischen, kategorialen und Zeitreihendaten.
-
Wenn du eine Fehlermeldung erhältst, die besagt, dass deine Daten statistisch nicht signifikant sind, kann das daran liegen, dass dein Datensatz zu einfach ist, nicht genügend Daten enthält oder keine numerischen Daten oder Datumsangaben enthält.
Demo 4-6: Schnelle Einblicke
Jetzt können wir schnelle Einblicke in Aktion sehen. Diese Demo verwendet Daten über Taxis in New York City. Wir werden Quick Insights für einen ganzen Datensatz verwenden, was bedeutet, dass diese Demo mit dem browserbasierten Power BI-Dienst durchgeführt werden muss und ein Pro- oder Premium-Abonnement erfordert. Unter "Premium, Pro und Free Power BI" findest du Details und Informationen, wie du dich für eine kostenlose Testversion anmelden kannst.
Lade zuerst diesen fertigen Bericht über New York City Taxis herunter und speichere ihn lokal. Gehe dann zum Power BI-Dienst und melde dich an.
Wir brauchen einen Bereich, in dem wir alle unsere Assets für diese Demonstration und die anderen in diesem Kapitel aufbewahren können. Wähle auf der linken Seite "Arbeitsbereiche" und gehe entweder zu "Mein Arbeitsbereich" oder erstelle einen neuen, indem du "Neuer Arbeitsbereich" auswählst und den Eingabeaufforderungen zur Einrichtung folgst. Für diese Demo wird der Arbeitsbereich AI Demos(Abbildung 4-38) verwendet.
Klicke hier auf Hochladen und wähle Durchsuchen(Abbildung 4-39).
Suche den Taxi-Bericht, den du von GitHub heruntergeladen hast, mit dem Namen TimeSeriesComplete und klicke auf Öffnen(Abbildung 4-40).
Jetzt siehst du den Power BI-Bericht, der in deinem Arbeitsbereich gespeichert ist, zusammen mit dem zugrunde liegenden Datensatz. Klicke auf das Ellipsen-Symbol, das dem Datensatz entspricht (wo der Pfeil in Abbildung 4-41 unter dem Dropdown-Menü hinzeigt), und wähle dann "Schnelle Einblicke". Zum Schluss klickst du auf "Einblicke anzeigen" (nicht abgebildet).
Du kannst dir nun die gesamte Liste der Erkenntniskarten ansehen, wie in Abbildung 4-42 dargestellt. Jede Karte enthält ein Bild und eine Erklärung, warum die potenzielle Erkenntnis als solche erkannt wurde. Die hier abgebildete Karte zeigt, dass der Tag 359 (also Weihnachten) ein Ausreißer bei der Anzahl der Taxifahrten an einem bestimmten Tag ist.
Mit dem Erweiterungssymbol in der rechten oberen Ecke kannst du den Fokusmodus mit einer größeren Version des Bildmaterials aktivieren. Du kannst auch das Pinsymbol wählen, um die Karte an ein Dashboard mit relevanten Einblicken anzuheften.
Schauen wir uns einige weitere Beispiele für interessante Ergebnisse an, die in Abbildung 4-43 dargestellt sind. Die linke Übersichtskarte zeigt, dass die tägliche Anzahl der Taxifahrten sowohl saisonal als auch insgesamt rückläufig ist. Die rechte Karte zeigt eine positive Korrelation zwischen den täglichen Trinkgeldbeträgen und den täglichen Gesamtausgaben für Taxifahrten.
Wir setzen die Erkundung der vielfältigen Erkenntnisse mit den beiden Beispielen in Abbildung 4-44 fort. Die linke Karte zeigt, dass der Schneefall in New York City in den Monaten Januar und Februar am höchsten ist. Die rechte Karte zeigt zwei Tage im Jahr, die Ausreißer bei der Niederschlagsmenge waren.
Nicht alle Ergebnisse der Quick Insights sind aussagekräftig oder sogar interessant, und das ist auch in Ordnung. Dieses Tool sollte nur in Zusammenarbeit mit jemandem genutzt werden, der den Anwendungsfall kennt oder das richtige Urteilsvermögen hat, um zu entscheiden, welche Karten relevant sind.
Bericht erstellen
Wir haben es zu unserem vorletzten Profil einer Automatisierungsfunktion in Power BI geschafft: der Berichtserstellung. Die Berichtserstellung generiert automatisch einen vollständig entwickelten Power BI-Bericht aus einem bestimmten Datensatz. Das passt zum Thema der KI-Tools, die Menschen dabei unterstützen, den Business Intelligence-Zyklus effektiver und effizienter zu gestalten.
Die Erstellung von Berichten ähnelt der Erstellung von Quick Insights, da sie ebenfalls über den Power BI-Dienst erfolgen muss und daher eine Pro- oder Premium-Lizenz erfordert. Die beiden Funktionen ähneln sich auch darin, dass sie mit wenigen Klicks erstellt werden können, nachdem ein Datensatz in einen Arbeitsbereich geladen wurde. Es gibt jedoch Unterschiede, die wir in einer direkten Demonstration der Berichtserstellung erläutern.
Demo 4-7: Berichtserstellung
Wir knüpfen an die vorherige Demo an, in der aus Daten über tägliche Taxifahrten in New York City Insight Cards erstellt wurden. Du musst Demo 4-6 nicht abgeschlossen haben, um dieser Demo folgen zu können. Allerdings überspringen wir die Schritte zum Laden dieses Power BI-Berichts in einen Arbeitsbereich. Schau dir Demo 4-6 an, wenn du eine Anleitung brauchst.
Sobald der Bericht in einen Arbeitsbereich des Power BI-Dienstes geladen ist, suchst du den Datensatz TimeSeriesComplete (siehe Abbildung 4-45 in einem Arbeitsbereich mit dem Titel "AI Demos"). Klicke auf das Ellipsen-Symbol und wähle "Bericht automatisch erstellen" aus der Liste.
Hinweis
Es gibt noch eine andere Möglichkeit, einen Bericht automatisch zu erstellen, wenn du das gewünschte Dataset bereits im Data Hub gespeichert hast. Wie in Abbildung 4-45 zu sehen ist, kannst du auf der linken Seite des Power BI Service auf das Symbol "Erstellen" klicken und dann "Ein veröffentlichtes Dataset auswählen" wählen, ein Dataset im Data Hub auswählen und auf "Bericht automatisch erstellen" klicken.
Und violá, dein Bericht ist fertig! Das heißt aber leider nicht, dass du damit fertig bist. Der Algorithmus, der den Bericht erstellt, versucht herauszufinden, welche Variablen und Grafiken am aussagekräftigsten sind. Trotzdem muss jemand sicherstellen, dass der Bericht den Anforderungen des Unternehmens entspricht und ihn entsprechend anpassen.
Sieh dir zum Beispiel Abbildung 4-46 an und sei dir bewusst, dass deine Ergebnisse etwas anders ausfallen können. Vielleicht sind wir nicht am täglichen Anteil der Fahrten zum Flughafen oder an der Gesamtzahl der Passagiere interessiert. Einige der angezeigten Werte sind auch bedeutungslos, z. B. "Summe der Tagesanzahl_des_Jahres nach Tagesname" und "Summe der durchschnittlichen Windgeschwindigkeit nach Tagesname". Lass uns ein paar Änderungen vornehmen.
Als erstes wollen wir die im Bericht verwendeten Variablen austauschen. Hebe die Auswahl aller aktuellen Variablen auf und wähle credit_share, date und tip_amount. Dies sollte dem entsprechen, was du in Abbildung 4-47 siehst.
Als Nächstes änderst du die numerischen Variablen so, dass sie Durchschnittswerte und keine Summen sind. Klicke bei tip_amount auf das Ellipsen-Symbol und wähle Durchschnitt. Wiederhole dies für credit_share. Der Bericht sollte jetzt die gleichen Datenbeschriftungen wie in Abbildung 4-48 zeigen; allerdings kann die Darstellung in deiner Version etwas anders aussehen.
Jetzt sieht der Bericht schon besser aus! Die Balkendiagramme auf der rechten Seite zeigen einige der Unterschiede zwischen den einzelnen Wochentagen und Monaten bei den durchschnittlichen täglichen Trinkgeldern für Taxifahrer und wie oft Fahrgäste mit einer Kreditkarte bezahlen.
Das Liniendiagramm auf der linken Seite erzählt ebenfalls eine faszinierende Geschichte. Die dunklere Linie zeigt, wie der tägliche Anteil der Zahlungen per Kreditkarte im Laufe der Zeit gestiegen ist und sich 100% nähert. Die hellere Linie zeigt, dass der durchschnittliche tägliche Trinkgeldbetrag ebenfalls im Laufe der Zeit gestiegen ist. Die Korrelation zwischen den beiden ist eigentlich nur ein Artefakt der Daten, da Trinkgelder aus Barzahlungen nicht erfasst werden (was sich auf den Durchschnitt auswirkt). Das bedeutet, dass die Leute im Laufe der Zeit nicht unbedingt mehr Trinkgeld geben. Allerdings scheint es, dass um das Jahr 2022 herum das Trinkgeld schneller zunimmt als die Nutzung von Kreditkarten.
Hinweis
Hast du den Text in der unteren linken Ecke des Berichts in Abbildung 4-48 bemerkt? Das ist das intelligente erzählerische Bild und das Thema des nächsten Abschnitts.
Wenn du weitere Änderungen an den Bildern vornehmen möchtest, fahre einfach mit dem Mauszeiger über ein Bild und wähle das Symbol "Dieses Bild personalisieren"(Abbildung 4-49).
Speichere deine Arbeit, wenn du fertig bist. Wenn du den Bericht in Power BI Desktop weiter bearbeiten möchtest, klicke oben links auf Datei und dann auf "Diese Datei herunterladen" (nicht abgebildet).
Smart Narrative
Wir erinnern uns an Kapitel 3: Die Q&A-Funktionen von ermöglichen es einem Nutzer, eine Frage an die Daten zu stellen, indem er Text als Eingabe erhält und ein Bild als Ausgabe produziert. In dieser Hinsicht ist Smart Narrative einfach eine umgekehrte Version von Q&A. Smart Narrative durchsucht das Bildmaterial in einem Bericht und erstellt aus den Daten eine Textzusammenfassung.
Smart Narrative können in Power BI Desktop oder dem Power BI Service verwendet werden und können auf drei Arten angewendet werden:
-
Als Textfeld, das alle visuellen Elemente eines Berichts zusammenfasst
-
Als Textbox, die ein einzelnes Bild zusammenfasst
-
Als Symbol auf einem Bildmaterial, das beim Anklicken eine Textzusammenfassung des Bildmaterials zeigt
Abbildung 4-50 zeigt, wie du unter über das Symbol im Bereich Visualisierungen auf die Smart-Narrative-Funktion zugreifen kannst. Wenn du das Symbol auswählst, erhältst du eine Zusammenfassung aller Visualisierungen im Bericht. In diesem Fall wird der intelligente Text unten im Canvas als drei Erkenntnisse angezeigt.
Hinweis
Abbildung 4-50 zeigt den Power BI-Bericht über Taxifahrten in New York City, der in Demo 4-6 verwendet wurde (siehe Abbildung 4-41). Kehr zu dieser Demo zurück, um Anweisungen zum Herunterladen zu erhalten, wenn du dem Beispiel folgen möchtest.
Um eine intelligente Erzählung eines einzelnen Bildes zu erstellen, musst du nur mit der rechten Maustaste auf das Bild klicken und "Zusammenfassen" wählen.
Warnung
Wenn du die Option "Zusammenfassen" für ein Bildmaterial nicht siehst, stelle sicher, dass du Bearbeitungsrechte hast und dich im Bearbeitungsmodus befindest.
Schließlich kannst du einem Bildmaterial ein intelligentes Erzählsymbol hinzufügen, indem du das Bildmaterial auswählst, zu "Bildmaterial formatieren" > Allgemein > Kopfzeilensymbole > Symbole gehst und dann "Intelligente Erzählung" einschaltest, wie in Abbildung 4-51 gezeigt.
Die Smart-Narrative-Funktion beschreibt nicht nur das Bildmaterial, wenn es erstellt wird, sondern aktualisiert es auch automatisch, wenn Slicer und Filter angewendet werden. Nimm das Smart Narrative in Abbildung 4-50 als Beispiel. Wenn ein Nutzer den Datumsbereich mit dem Filter oben rechts ändert, ändert sich der Text in Echtzeit in neue Erkenntnisse, die sich auf Daten innerhalb des angegebenen Datumsbereichs beziehen.
Außerdem kann der Benutzer den Text unter nach Belieben formatieren und sogar eigenen Text oder Werte hinzufügen. Abbildung 4-52 zeigt den Text "Kumulierte Fahrten" und zeigt, wie man einen dynamischen Wert hinzufügt. Ein dynamischer Wert ist ein Feld oder eine Kennzahl, die mit deinen Daten verknüpft ist und als normaler Text angezeigt wird, aber bei Änderungen im Bericht aktualisiert wird.
Als Nächstes wird eine Eingabeaufforderung eingeblendet, die es dem Benutzer ermöglicht, nach einem benutzerdefinierten Wert zu suchen. Abbildung 4-53 zeigt, wie die Eingabe "Summe der Taxifahrten" erfolgreich "Taxifahrten" als dynamischen Wert identifiziert, wie die blaue Linie darunter anzeigt. Dieser Wert kann auch weiter formatiert werden, z. B. durch Hinzufügen eines Kommas. Klicke auf Speichern.
Du kannst den resultierenden dynamischen Wert in Abbildung 4-54 sehen, wo smart narrative angibt, dass es im ausgewählten Zeitraum fast 1,7 Milliarden Taxifahrten gab.
Zusammenfassung
Wir haben uns angeschaut, wie du die KI-basierten Funktionen in Power BI nutzen kannst, die dabei helfen, den Prozess der Datenumwandlung sowie das Erstellen und Analysieren von Berichten zu automatisieren. Diese Tools beschleunigen den Weg von der Frage zur Antwort und machen dich zu einem produktiveren Analysten. Wir haben auch die Aspekte des Business Intelligence-Zyklus besprochen, die zumindest in naher Zukunft nicht einfach automatisiert werden können.
Hoffentlich kannst du dir wichtige Fähigkeiten aneignen, die deinen Job oder dein Unternehmen zukunftssicher machen. KI verändert bereits jetzt die Art und Weise, wie wir arbeiten, und das Tempo der Umwälzung scheint sich nicht zu verlangsamen. Wir sind der Meinung, dass du dir weniger Sorgen darüber machen solltest, dass KI deinen Job ersetzt, sondern eher darüber, dass du durch einen Analysten ersetzt wirst, der die Möglichkeiten der KI besser nutzt.
Die Lektüre dieses Buches ist ein Schritt in die richtige Richtung, um ein KI-kompetenter Entwickler zu werden und die Qualität deiner Arbeit sowie deine Arbeitsplatzsicherheit zu verbessern. Wie Elbert Hubbard sagte: "Eine Maschine kann die Arbeit von fünfzig gewöhnlichen Menschen erledigen. Keine Maschine kann die Arbeit eines außergewöhnlichen Menschen erledigen." Nutze also die Macht der KI, um außergewöhnlich zu werden, und hilf deinem Unternehmen, das Gleiche zu erreichen, denn die Algorithmen werden nicht verschwinden. Ich für meinen Teil begrüße unsere neuen KI-Kollegen.
1 Richard Conniff, "Wogegen die Ludditen wirklich kämpften", Smithsonian Magazine, März 2021.
2 Erik Brynjolfsson und Andrew McAfee, The Second Machine Age: Work, Progress, and Prosperity in a Time of Brilliant Technologies (New York: W. W. Norton & Company, 2014), 11.
3 James Bessen, "Mühsal und Technologie: Innovative Technology Is Displacing Workers to New Aufträge Rather Than Replacing Them Entirely", Finance & Development 52, Nr. 1 (2015): 16.
Get Künstliche Intelligenz mit Microsoft Power BI now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.