Kapitel 1. Einführung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Schätzungsweise 70-80 % der Stellenausschreibungen für Datenanalytiker/innen nennen Statistik als gewünschte Fähigkeit oder Anforderung. Ich habe selbst keine Möglichkeit gefunden, diese Zahlen zu belegen, aber wenn ich mir die Stellenausschreibungen ansehe, würde ich diese Schätzung bestätigen. Angesichts der ständig wachsenden Datenmengen suchen die Unternehmen nach Möglichkeiten, diese Daten zu interpretieren und zu verstehen. Die Statistik ist oft die wissenschaftlichste Methode, dies zu tun. Ich glaube jedoch, dass viele Analysten und Tableau-Entwickler Schwierigkeiten haben, Statistiken in ihre Analysen oder Datenvisualisierungen zu integrieren. Dafür gibt es viele Gründe, und ich werde der Erste sein, der dir sagt, dass es nicht daran liegt, dass du es nicht versucht hast. Statistiken können sowohl für Entwickler als auch für die Stakeholder, die sich auf ihre Berichte verlassen, einschüchternd sein. Der Versuch, komplexe statistische Gleichungen zu erklären und zu interpretieren, ist ohne ein fundiertes Verständnis der Disziplin schwierig.

Genau das ist das Ziel dieses Buches. Ich möchte dich mit einem soliden Verständnis von Statistik ausstatten und dir das Selbstvertrauen geben, mit den Gleichungen zu sprechen und sie in deiner Arbeit umzusetzen. In diesem Buch werde ich mich darauf konzentrieren, die Datenvisualisierung in Tableau mit der statistischen Analyse zu verbinden, damit du deine Erkenntnisse mit wissenschaftlichen Beweisen untermauern kannst.

In diesem Kapitel führe ich dich in die gängige Tableau-Terminologie ein, die ich in diesem Buch verwenden werde. Außerdem werde ich dir einige grundlegende statistische Begriffe und Ideen vorstellen. Gegen Ende des Kapitels stelle ich dir eine Fallstudie vor, die beide Disziplinen miteinander verbindet, und erkläre, wie wichtig es ist, statistische Ergebnisse zu visualisieren.

Einführung in Tableau

Es ist wichtig zu verstehen, dass Tableau nicht einfach nur ein Datenvisualisierungstool ist, sondern ein Unternehmen mit einer Reihe von Tools zur Unterstützung von Datenvisualisierung und -analyse auf Unternehmensebene. Das Ökosystem von Tableau umfasst viele Produkte, darunter Tableau Desktop, Tableau Cloud, Tableau Server, Tableau Prep Builder, Tableau Public und mehr.

Für einige dieser Produkte benötigst du eine Lizenz, um sie nutzen zu können. Für andere, wie Tableau Public, musst du keine Lizenz erwerben, allerdings gibt es bestimmte Einschränkungen. Mit einer Lizenz kannst du deine Arbeitsmappen von Tableau Desktop aus auf Tableau Server oder Tableau Cloud veröffentlichen. So können deine Nutzer deine Datenvisualisierungen über einen Browser anzeigen und mit ihnen interagieren. Auf der Tableau-Website findest du eine vollständige Liste aller Tableau-Produkte.

Allgemeine Begriffe der Autorenoberfläche von Tableau Desktop

Es gibt einige allgemeine Begriffe innerhalb von Tableau Desktop, die du kennen solltest. Wenn du Tableau Desktop öffnest, landest du zunächst auf der Startseite, wie in Abbildung 1-1 dargestellt.

Abbildung 1-1. Startseite von Tableau Desktop

Von der Startseite aus kannst du mit den Daten verbinden, die du visualisieren möchtest. Tableau hat Hunderte von Konnektoren, die du für den Zugriff auf deine Daten nutzen kannst. Ein Konnektor ist im Grunde wie eine integrierte API, mit der du eine Verbindung zu einer Datenbank oder einem Dateityp herstellen kannst, um diese Daten in Tableau Desktop einzulesen. Auf der linken Seite der Startseite kannst du dir alle verfügbaren Konnektoren ansehen.

Für alle Demonstrationen in diesem Buch werde ich den Datensatz Sample - Superstore verwenden. Um dich mit diesem Datensatz zu verbinden, klicke einfach auf Sample - Superstore, wie in Abbildung 1-2 gezeigt.

Abbildung 1-2. Verbinden mit dem Sample - Superstore

Wenn du eine andere Version von Tableau Desktop verwendest als ich, kann es sein, dass du andere Ergebnisse erhältst. Tableau aktualisiert gelegentlich das Sample - Superstore Dataset. Ich werde in diesem Buch die Version 2023.2 verwenden. Wenn du es ganz genau wissen willst, kannst du diese Version von der Tableau-Produktsupportseite herunterladen.

Nachdem du auf das Beispieldatenset geklickt hast, wirst du von der Startseite zur Autorenoberfläche von Tableau Desktop weitergeleitet, wie in Abbildung 1-3 dargestellt.

Abbildung 1-3. Die Autorenoberfläche von Tableau Desktop

Um dich mit den Begriffen vertraut zu machen, die ich in diesem Buch verwenden werde , findest du auf der linken Seite das Datenfenster, wie in Abbildung 1-4 dargestellt.

Oben im Datenbereich siehst du eine Liste mit den Datenquellen, mit denen du verbunden bist. Weiter unten findest du eine Liste der Felder, einschließlich der berechneten Felder, getrennt nach Datenquelle und der Angabe, ob Tableau das Feld für eine Kennzahl oder eine Dimension hält .

Abbildung 1-4. Der Bereich "Daten" der Autorenoberfläche

Rechts neben dem Datenbereich findest du die verschiedenen Komponenten, die zum Erstellen von Visualisierungen verwendet werden, die sogenannten Regale. Es gibt die Ablage "Marken", die Ablage "Filter", die Ablage "Seiten", die Ablage "Spalten", die Ablage "Zeilen" und die Leinwand, wie in Abbildung 1-5 dargestellt.

Abbildung 1-5. Hauptmerkmale der Autorenoberfläche

Hier ist eine kurze Erklärung, um die einzelnen Begriffe näher zu definieren:

Markiert Regal

Die Ablage "Markierungen" ist ein zentrales Element von auf der Autorenoberfläche und ermöglicht es dir, Felder in verschiedene Eigenschaften zu ziehen, die die Ansicht beeinflussen. Die Eigenschaften sind Farbe, Größe, Text, Detail und Tooltip. Es gibt verschiedene Eigenschaftsoptionen, die angezeigt werden, wenn bestimmte Bedingungen erfüllt sind. Wenn du z. B. die Art der Markierung in Polygon änderst, wird in der Ablage "Markierungen" die neue Eigenschaft "Winkel" angezeigt.

Filter Regal

Im Regal Filter kannst du verschiedene Felder hinzufügen, nach denen die Ansicht gefiltert wird. Es gibt acht verschiedene Arten von Filtern in Tableau, die zu unterschiedlichen Zeitpunkten in der Tableau-Operationsreihenfolge verarbeitet werden.

Seiten Regal

Mit der Seitenablage kannst du die Ansicht in Seiten unterteilen, um zu analysieren, wie sich ein bestimmtes Feld auf den Rest der Felder in der Ansicht auswirkt. Am häufigsten wird dies genutzt, um eine Datumsdimension hinzuzufügen und zu zeigen, wie sich die Dinge im Laufe der Zeit verändern.

Säulen Regal

In die Spaltenablage kannst du Felder ziehen, um die Spalten der Visualisierung zu erstellen, die du erstellst. Die Spaltenablage wird mit der x-Achse in der Ansicht koordiniert.

Reihen Regal

Auf der Ablage "Zeilen" kannst du Felder ziehen, um die Zeilen der Visualisierung zu erstellen, die du erstellst. Die Zeilenablage wird mit der y-Achse in der Ansicht koordiniert.

Segeltuch

Die Leinwand ist der Ort, an dem die Datenvisualisierung erscheint, wenn du die Felder auf die verschiedenen anderen Regale ziehst. Du kannst auch verschiedene Felder direkt auf die Leinwand ziehen, wenn du eine Datenvisualisierung erstellst. Auf diese Weise wird das Feld der entsprechenden Ablage hinzugefügt.

Die letzte wichtige Funktion, auf die ich in diesem Kapitel hinweisen möchte befindet sich in der unteren linken Ecke der Autorenoberfläche. Dort findest du eine Schaltfläche, um zur Datenquellenseite zu navigieren, und drei weitere Schaltflächen. Mit diesen Schaltflächen kannst du neue Arbeitsblätter, neue Dashboards oder neue Storys erstellen, wie in Abbildung 1-6 dargestellt.

Abbildung 1-6. Navigationsschaltflächen auf der Autorenoberfläche

Um dir einen besseren Überblick zu verschaffen, findest du hier eine kurze Beschreibung der einzelnen Kategorien:

Schaltfläche Datenquelle

So gelangst du zur Seite Datenquelle. Dort kannst du neue Verbindungen hinzufügen, neue Datenquellen erstellen und die physische und logische Ebene für Joins und Blending anzeigen.

Schaltfläche "Neues Arbeitsblatt

Wenn du auf diese Schaltfläche klickst, wird ein neues Arbeitsblatt erstellt und du gelangst zur Registerkarte dieses Blattes. Von hier aus kannst du eine neue Datenvisualisierung erstellen.

Neue Schaltfläche für das Dashboard

Wenn du diese Schaltfläche auswählst, wird ein neues Dashboard erstellt und du wirst zur Registerkarte dieses Dashboards weitergeleitet. Von hier aus kannst du Blätter anstelle von Feldern auf die Leinwand ziehen, um ein neues Dashboard zu erstellen.

Schaltfläche "Neue Geschichte

Wenn du auf die Schaltfläche "Neue Story" klickst, wird eine neue Story erstellt und du wirst zur Registerkarte dieser Story weitergeleitet. Von hier aus kannst du eine Story mit Hilfe von Tabellen oder Dashboards zusammenstellen, um verschiedene Seiten innerhalb deiner Story zu erstellen.

Beispiel für die Schritt-für-Schritt-Anleitungen in diesem Buch

Um dich mit den Anweisungen und dem Schreibstil in diesem Buch vertraut zu machen, findest du in diesem Abschnitt ein einfaches Beispiel, das die gängigen Begriffe zusammenfasst. Die Verwendung von Tableau Desktop ist sehr intuitiv und es gibt viele verschiedene Möglichkeiten, Dinge zu tun. Ich zeige dir, wie du zwei einfache Diagramme erstellst und sie einem Dashboard hinzufügst, indem du das Sample - Superstore Dataset verwendest. Nehmen wir an, du möchtest die Verkäufe nach Bestelldatum anzeigen. Doppelklicke zunächst auf Umsatz im Datenbereich und dann auf Bestelldatum, wie in Abbildung 1-7 dargestellt.

Abbildung 1-7. Klicken von Umsatz und Bestelldatum in die Ansicht

Tableau ist intuitiv genug, um zu erkennen, dass du wahrscheinlich einen Trend für diese Daten im Zeitverlauf haben möchtest, und erstellt automatisch ein Liniendiagramm, wie in Abbildung 1-8 gezeigt.

Abbildung 1-8. Erstellen eines einfachen Liniendiagramms in Tableau Desktop

Nehmen wir an, du möchtest deine Verkaufsdaten auch nach Segmenten anzeigen. Klicke auf die Schaltfläche "Neues Arbeitsblatt" unten links in der Autorenoberfläche, wie in Abbildung 1-9 dargestellt.

Abbildung 1-9. Erstellen eines neuen Blattes über die Autorenoberfläche

Dadurch wird Blatt 2 geöffnet; dein erstes Diagramm kannst du immer noch sehen, indem du zu Blatt 1 zurücknavigierst. Doppelklicke auf Umsatz und dann auf Segment im Datenbereich, wie in Abbildung 1-10 dargestellt.

Abbildung 1-10. Klicken auf Segment und Umsatz im Datenbereich

Dadurch wird ein einfaches Balkendiagramm erstellt, das die SUMME(Umsatz) (Summe der Umsätze) nach Segmenten auf der Leinwand anzeigt, ähnlich wie in Abbildung 1-11.

Abbildung 1-11. Erstellen eines einfachen Balkendiagramms in Tableau Desktop

Bis jetzt konntest du diese beiden Diagramme in einer Arbeitsumgebung in Tableau anzeigen. Angenommen, du möchtest diese Diagramme mit anderen in deinem Unternehmen teilen. Um damit zu beginnen, klicke auf die Schaltfläche "Neues Dashboard" unten links in der Autorenoberfläche, wie in Abbildung 1-12 dargestellt.

Abbildung 1-12. Erstellen eines neuen Dashboards über die Autorenoberfläche

Dadurch wird eine neue Arbeitsfläche geöffnet, in der du Dashboards erstellen kannst (siehe Abbildung 1-13). Dashboards sind das A und O von Tableau und das, was du den Nutzern zur Verfügung stellst, damit sie damit interagieren können.

Abbildung 1-13. Dashboard Canvas in Tableau Desktop

Füge nun deine beiden Blätter auf der Dashboard-Leinwand hinzu. Klicke auf der linken Seite auf Blatt 1 und ziehe es auf die Arbeitsfläche. Klicke dann auf Blatt 2 und ziehe es auf die Arbeitsfläche. Dein Dashboard sollte jetzt ähnlich aussehen wie in Abbildung 1-14.

Abbildung 1-14. Erstellen eines einfachen Dashboard-Layouts in Tableau Desktop

Dieses Beispiel soll dir dabei helfen, zu erkennen, wie die gängigen Begriffe von Tableau in den Tutorials in diesem Buch verwendet werden. Die Kenntnis des Layouts des Tools und der Begriffe ist die Grundlage für das Verständnis von Tableau Desktop als Ganzes. Der bisherige Inhalt war für dich wahrscheinlich nur ein Überblick. Von nun an zeige ich dir, wie du Statistiken in deine Dashboards einbindest und gebe dir konkrete Beispiele, wie du sie in deine Arbeit einbauen kannst! Im nächsten Abschnitt führe ich dich in gängige Statistikbegriffe ein und zeige dir ein Beispiel, das alles miteinander verbindet.

Einführung in die Statistik

Laut dem Online-Wörterbuch Merriam-Webster's wird Statistik als ein Zweig der Mathematik definiert, der sich mit der Sammlung, Analyse, Interpretation und Präsentation von Massen numerischer Daten beschäftigt. Ich persönlich finde, dass diese Definition den Nagel auf den Kopf trifft, besonders in der heutigen Geschäftswelt. Um tiefe Einblicke in deine Daten zu gewinnen, musst du die Statistik in fast jeden Aspekt des Analyseprozesses einbeziehen. Dazu gehört, dass du Daten auf effiziente und ethisch vertretbare Weise sammelst, die Daten verstehst, tiefere Einblicke in die Analyse gewinnst und deine Ergebnisse präsentierst, damit deine Stakeholder fundierte Entscheidungen treffen können.

Im nächsten Abschnitt werde ich dir einige gängige statistische Begriffe und Ideen vorstellen. Außerdem zeige ich dir anhand eines konkreten Fallbeispiels, wie wirkungsvoll der Einsatz von Statistiken für deine Analyse sein kann.

Allgemeine statistische Begriffe

Um das Niveau zu halten, werde ich auf einige dieser Begriffe und Ideen kurz erklären. Dies ist jedoch keine umfassende Liste mit allem, was es über Statistik zu wissen gibt. Das Ziel dieses Buches ist es, dich mit den Grundlagen der Statistik vertraut zu machen, damit du sie bei deiner eigenen Arbeit anwenden kannst. Außerdem werde ich einige dieser Begriffe im Laufe der einzelnen Kapitel näher erläutern, wenn es sich anbietet:

Eine Statistik

Im Laufe dieses Buches wirst du sehen, dass ich verschiedene Dinge als Statistik bezeichne. Die Definition einer Statistik ist eine Tatsache oder ein Teil von Daten aus einer Studie über eine große Menge numerischer Daten. Das bedeutet, dass alles, was du aus einer großen Menge von Daten berechnen kannst, als Statistik bezeichnet werden kann. Wenn wir zum Beispiel den Mittelwert, den Median oder den Modus eines Datensatzes berechnen, würde ich jeden dieser Werte als Statistik bezeichnen.

Hypothesenprüfung

Das Aufstellen eines Hypothesentests ist einer der grundlegendsten Schritte bei den meisten statistischen Analysen. Wenn du das nicht tust, wirst du dich dabei ertappen, wie du einer statistischen Signifikanz nachjagst, obwohl der Nachweis, dass es keinen signifikanten Unterschied gibt, genauso aussagekräftig ist. Bei einem Hypothesentest stellst du eine Nullhypothese und eine Alternativhypothese auf. Dann legst du die Bedingungen fest, die du für einen signifikanten Unterschied zugunsten der einen oder anderen Hypothese hältst, indem du ein Signifikanzniveau festlegst.

Signifikanzniveau

Ein Signifikanzniveau ist die vorgegebene Schwelle, die zur Bestimmung der statistischen Signifikanz verwendet wird. Das gebräuchlichste Signifikanzniveau ist 0,05 (5%), aber das ist nur eine willkürliche Zahl. Es gibt Fälle, in denen du mehr oder weniger signifikant sein kannst. Wenn du zum Beispiel im Gesundheitswesen tätig bist, möchtest du vielleicht Ergebnisse mit einem höheren Signifikanzniveau anzeigen, um eine möglichst genaue Interpretation der Ergebnisse zu gewährleisten.

Statistische Bedeutung

Statistische Signifikanz ist ein Begriff, der in der Statistik verwendet wird, um festzustellen, ob ein beobachteter Effekt oder eine Beziehung in den Daten wahrscheinlich echt ist oder ob er/sie zufällig entstanden sein könnte. Mit anderen Worten: Sie hilft Analysten zu beurteilen, ob die Ergebnisse einer Analyse aussagekräftig sind oder ob sie auf zufällige Schwankungen zurückzuführen sind.

Um das wieder mit den Hypothesentests zu verbinden:

Nullhypothese (H0)

Dies ist eine Aussage, dass es keinen signifikanten Unterschied oder Effekt gibt. Sie dient als Standardannahme, die getestet wird.

Alternativhypothese (H1 oderHa)

Dies ist das Gegenteil der Nullhypothese und deutet darauf hin, dass es einen signifikanten Unterschied oder Effekt gibt.

P-Wert

Der p-Wert (Wahrscheinlichkeitswert) ist ein Maß für die Evidenz gegen eine Nullhypothese. Er gibt die Wahrscheinlichkeit an, mit der die beobachteten Ergebnisse (oder noch extremere Ergebnisse) erzielt werden, wenn die Nullhypothese wahr ist. Ein niedriger p-Wert (in der Regel weniger als 0,05) gilt als Indikator für statistische Signifikanz.

Wenn der p-Wert kleiner ist als das gewählte Signifikanzniveau (in der Regel 0,05), wird die Nullhypothese zugunsten der Alternativhypothese verworfen. Wenn der p-Wert größer als das Signifikanzniveau ist, gibt es nicht genug Beweise, um die Nullhypothese zu verwerfen.

Zusammengefasst: Du legst fest, welche du testen willst, indem du eine Nullhypothese und eine Alternativhypothese aufstellst. Dann entscheidest du, wie hoch das Signifikanzniveau für dein Experiment sein soll. Dann testest du auf einen statistisch signifikanten Unterschied und verwendest den p-Wert als Maßeinheit im Vergleich zu deinem vorgegebenen Signifikanzniveau.

Um diese Ideen zu verdeutlichen, möchte ich dir ein praktisches Beispiel zeigen, das wir mit der Hand berechnen können. Auf diese Weise kannst du sehen, wie diese Begriffe zusammenkommen.

Praktische Anwendung anhand einer Fallstudie

Angenommen, dein Unternehmen möchte ein neues Marketing in einer E-Mail testen. Es ist jedoch besorgt, dass das neue Marketing fehlschlägt und die Umsätze in diesem Quartal erheblich beeinträchtigen könnte. Daher möchte das Unternehmen die neue Marketing-E-Mail testen, indem es sie an eine Teilmenge der gesamten E-Mail-Liste sendet, und dann die Leistung analysieren, bevor es entscheidet, ob es mit dem neuen Marketing fortfährt. Tabelle 1-1 zeigt die Ergebnisse des Tests in einer Kontingenztabelle.

Tabelle 1-1. Kontingenztabelle für die Umrechnungstabelle der Vermarktung
Original E-Mail Neue Marketing-E-Mail
Nichtumwandlungen 727 117
Umrechnungen 23 8

Eine Kontingenztabelle ist eine Methode, um Daten in einem Tabellenformat zu organisieren und darzustellen, insbesondere wenn die Beziehung zwischen zwei kategorialen Variablen untersucht wird. Kategoriale Variablen sind Variablen, die Kategorien oder Gruppen repräsentieren, wie z. B. Farben, Obstsorten oder Antworten auf eine Ja-Nein-Frage. In diesem Beispiel zeigen wir an, wie viele Konversionen die ursprüngliche E-Mail im Vergleich zur neuen Marketing-E-Mail hatte. Eine Konversion ist definiert als "der Punkt, an dem ein Empfänger einer Marketingnachricht eine gewünschte Aktion ausführt".1

Das Marketingteam hat eine einfache Analyse der Konversionsraten der E-Mails durchgeführt, indem es die Gesamtzahl der versendeten E-Mails und die Konversionsraten der einzelnen Kampagnen berücksichtigte. Anhand dieser Berechnung fanden sie heraus, dass die ursprüngliche E-Mail eine Konversionsrate von etwa 3% (23 ÷ 750 = 0,030) und die neue Marketing-E-Mail eine Konversionsrate von etwa 6% (8 ÷ 125 = 0,064) hatte. Sie behaupten, dass die neue E-Mail ein absoluter Erfolg ist und zu doppelt so vielen Konversionen führen wird, wenn sie sie das nächste Mal an ihre gesamte Liste verschicken.

Die Führungskräfte des Unternehmens sind begeistert von der Idee, die Verkaufszahlen zu verdoppeln, und wollen in mehrere neue Vertriebsmitarbeiter investieren, um das Wachstum zu unterstützen. Sie kommen jedoch zu dir, um eine zweite Meinung einzuholen und fragen, ob das Analyseteam die Daten überprüfen und die Annahmen des Marketingteams bestätigen könnte.

Wo sollst du anfangen? An dieser Stelle wird die statistische Analyse zu deinem besten Freund. Mit ein paar statistischen Grundkenntnissen kannst du ein paar einfache Tests durchführen, um herauszufinden, ob die neue Marketing-E-Mail statistisch signifikant war oder nicht. Bevor ich mich zu sehr ins Unkraut stürze, lass uns die Hypothese aufstellen und das Signifikanzniveau bestimmen, auf das getestet werden soll.

Den Hypothesentest aufstellen

Als erstes musst du in dieser Situation einen Hypothesentest aufstellen. Bei einem Standard-Hypothesentest legst du zwei Hypothesen fest: die Null- und die Alternativhypothese. In diesem Beispiel lautet die Hypothese wie folgt:

Nullhypothese

Die neue Marketing-E-Mail ist statistisch nicht signifikant; daher werden die E-Mail-Konversionen im Durchschnitt gleich bleiben wie beim Original.

Alternative Hypothese

Die neue Marketing-E-Mail ist statistisch signifikant; daher werden die E-Mail-Konversionen im Durchschnitt höher sein als bei der ursprünglichen.

Um die statistische Signifikanz zu beweisen, suche ich auf nach einem p-Wert von weniger als 0,05, dem Signifikanzniveau.

In der Statistik ist es wichtig zu verstehen, dass du immer versuchst, deine Annahmen mit Hilfe der Mathematik zu überprüfen. Was will ich damit sagen? Du willst immer davon ausgehen, dass sich die Ergebnisse nicht ändern, wenn neue Dinge eingeführt werden. Du willst also davon ausgehen, dass die Nullhypothese richtig ist, und dein Test wird zeigen, ob sie falsch ist. In der Statistik würdest du sagen, dass du die Nullhypothese fehlgeschlagen hast, wenn der p-Wert größer ist als das von dir festgelegte Signifikanzniveau. Wenn der p-Wert kleiner als das Signifikanzniveau ist, ist der Test statistisch signifikant und du würdest die Nullhypothese zugunsten der Alternative verwerfen.

Chi-Quadrat-Test

Jetzt, da du deine Hypothese aufgestellt hast, ist es an der Zeit, eine statistische Analyse durchzuführen. Um dir ein grundlegendes Verständnis zu vermitteln, habe ich mich für einen einfachen statistischen Test entschieden, den Chi-Quadrat-Test. Ein Chi-Quadrat-Test ist ein statistischer Test, mit dem festgestellt werden kann, ob ein signifikanter Zusammenhang (oder Unabhängigkeit) zwischen zwei kategorialen Variablen besteht. Er ist besonders nützlich, wenn du mit Daten arbeitest, die in einer Kontingenztabelle organisiert werden können.

Dies ist eine großartige Option für diese Situation und sehr einfach zu handhaben, auch wenn du dich nicht mit Statistik auskennst. Du brauchst keine spezielle Software oder Programmierkenntnisse, um diesen Test zu berechnen. Du kannst ihn von Hand machen, ihn in Excel ausführen oder online nach einem Rechner suchen.

Zu Beginn wollen wir die Kontingenztabelle noch einmal betrachten und ergänzen. Wie du in Tabelle 1-2 sehen kannst, habe ich die Summen für jede Spalte und jede Zeile sowie eine Gesamtspalte hinzugefügt.

Tabelle 1-2. Hinzufügen von Summen zur Kontingenztabelle
Original E-Mail Neue Marketing-E-Mail Summen
Nichtumwandlungen 727 117 844
Umrechnungen 23 8 31
Summen 750 125 875

Jetzt musst du erwarteten Werte(E) für jede Zelle in der Tabelle berechnen. Die Formel ist ganz einfach. Nimm die Zeilensumme, multipliziere sie mit der Spaltensumme für jede Zelle und teile sie dann durch die Gesamtsumme. Für die Zelle oben links (ursprüngliche E-Mail durch Nichtumwandlungen) würdest du also 750 × 844 ÷ 875 = 723,43 nehmen. Ich berechne jeden der erwarteten Werte in den entsprechenden Zellen in Tabelle 1-3.

Tabelle 1-3. Berechnung der erwarteten Werte
Original E-Mail Neue Marketing-E-Mail Summen
Nichtumwandlungen E11 (750 × 844) ÷ 875 = 723.43 E12 (125 × 844) ÷ 875 = 120.57 844
Umrechnungen E21 (750 × 31) ÷ 875 = 26.57 E22 (125 × 31) ÷ 875 = 4.43 31
Summen 750 125 875

Du siehst, dass ich für jede Zelle(E11, E12, E21 und E22) eine mathematische Syntax hinzugefügt habe. Dies bezieht sich auf den erwarteten Wert für die Zelle in Zeile x und Spalte y. E11 ist also der erwartete Wert in Zeile 1/Spalte 1. E12 ist der erwartete Wert für Zeile 1/Spalte 2, und so weiter. Ich werde im Laufe des Buches weiterhin mathematische Ausdrücke und eine ähnliche Syntax verwenden und dich dabei in die mathematische Syntax einführen.

Nachdem du deine erwarteten Werte berechnet hast,, musst du diese Werte mit den beobachteten Werten vergleichen. Dieser Schritt wird mathematisch durch die folgende Formel ausgedrückt:

X 2 = Σ (beobachtetWert-erwartetWert) 2 ÷ erwartet Wert

Einfach ausgedrückt: Du musst den ursprünglichen Wert minus den gerade berechneten erwarteten Wert nehmen, das Ganze quadrieren und dann durch den erwarteten Wert teilen. Das machst du für jede Zelle und addierst dann die Werte, die wir erhalten. Bei E11 haben wir den ursprünglichen Wert von 727 minus den erwarteten Wert von 723,43, also 3,57. Nimm 3,57 und quadriere es, das ergibt 12,7449. Teile diesen Wert dann durch den erwarteten Wert. Also 12,7449 ÷ 723,43 = 0,017617. Ich runde diese Zahl auf 0,018 auf. Du kannst das in Tabelle 1-4 für jede Zelle nachvollziehen.

Tabelle 1-4. Vergleich der erwarteten Werte mit den beobachteten Werten
Original E-Mail Neue Marketing-E-Mail Summen
Nichtumwandlungen (727 - 723.43)2 ÷ 723.43 = 0.018 (117 - 120.57)2 ÷ 120.57 = 0.106 844
Umrechnungen (23 - 26.57)2 ÷ 26.57 = 0.48 (8 - 4.43)2 ÷ 4.43 = 2.877 31
Summen 750 125 875

Jetzt nimmst du die Werte, die du in jeder Zelle in Tabelle 1-4 erhalten hast, und addierst sie. Hier sind die Werte, die wir für jede Zelle erhalten haben:

E11 = 0.018

E12 = 0.106

E21 = 0.48

E22 = 2.877

X2= (0.018 + 0.106 + 0.48 + 2.877) = 3.481

Das ergibt einen beobachteten X2-Wertvon 3,481. Die Entscheidungsregel für einen Chi-Quadrat-Test lautet: Wenn der beobachtete Wert von X2größer ist als der kritische Wert von X2, wird die Nullhypothese verworfen. Bis jetzt habe ich den beobachteten X2-Wertberechnet, aber ich muss noch den kritischen X2-Wertermitteln. Erinnere dich daran, dass wir für unseren Hypothesentest ein Signifikanzniveau von 0,05 festgelegt haben. Anhand dieses Signifikanzniveaus kannst du den kritischen Wert von X2bestimmen.

Der beste Weg, den kritischen Wert zu finden, ist, ihn in einer Verteilungstabelle nachzuschlagen. Eine Verteilungstabelle ist eine große Tabelle mit kritischen Werten, die du im Internet finden kannst und die für dich vorberechnet wurde. Mit dem Signifikanzniveau von 0,05 habe ich den kritischen Wert von X2auf 3,84 festgelegt.

Da der beobachtete Wert im Vergleich zum kritischen Wert 3,481 nicht größer als 3,84 ist, kannst du die Nullhypothese nicht ablehnen. Einfach ausgedrückt bedeutet das, dass der Test bewiesen hat, dass die neue Marketing-E-Mail keine statistisch signifikante Steigerung der Konversionen bewirkt hat. Daraus kannst du schließen, dass die Fortsetzung dieser neuen E-Mail-Marketingkampagne im Durchschnitt ähnliche Ergebnisse wie die ursprüngliche Kampagne bringen wird.

Schlussfolgerungen aus der statistischen Analyse

Ich habe dieses Beispiel aus zwei Gründen ausgewählt: (1) Es handelt sich um ein alltägliches Beispiel aus der Praxis, das dir ein grundlegendes Verständnis der Statistik und ihrer Anwendung vermittelt, und (2) dieses Beispiel kommt einer statistischen Aussagekraft sehr nahe. Eine der wichtigsten Lektionen in der Statistik ist es, die Daten zu verstehen und einige Annahmen zu treffen.

In dieser Situation kann ich zurückgehen und sagen, dass die Ergebnisse keinen signifikanten Anstieg der Konversionen ergeben haben. Die Daten deuten jedoch darauf hin, dass es eine leichte Verbesserung gibt. Meine Empfehlung wäre, mit der Einstellung zu warten, den Test im nächsten Quartal zu wiederholen und die insgesamt versendeten E-Mails 50/50 statt 75/25 aufzuteilen. So hätte das Team eine größere Stichprobe, um die Analyse zu wiederholen. Schließlich kannst du davon ausgehen, dass die neue Kampagne zwar keine statistisch signifikanten Ergebnisse erbracht hat, um zu beweisen, dass sie die Konversionsrate erhöht hat, aber die Ergebnisse deuten darauf hin, dass die neuen Marketing-E-Mails die Konversionsrate in keiner Weise beeinträchtigt haben.

Es ist also nicht immer so schwarz-weiß, wie es scheint. Anders als in der traditionellen Mathematik musst du bei der Anwendung von Statistiken in der Lage sein, über den Tellerrand zu schauen und nach einer Analyse weitere Empfehlungen auszusprechen.

Datenvisualisierung und Statistik

Abschließend lässt sich sagen, dass es einen offensichtlichen Vorteil der Datenvisualisierung gibt, wenn du versuchst, einen schnellen Einblick in deine Daten zu bekommen; aus dem vorangegangenen Beispiel kannst du ersehen, welche Macht die statistische Analyse bei der Entscheidungsfindung haben kann. Aber erst wenn du die beiden zusammenbringst, kannst du das Beste aus jedem Analysetool oder jeder Analyse herausholen.

Ich möchte dir anhand eines Beispiels verdeutlichen, wie wichtig es ist, Datenvisualisierung und statistische Analyse zusammenzubringen. In Tabelle 1-5 habe ich vier statistische Zusammenfassungen von vier verschiedenen Datensätzen.

Tabelle 1-5. Statistische Zusammenfassung des Anscombe-Quartetts
Datensatz 1 Datensatz 2 Datensatz 3 Datensatz 4
X Y X Y X Y X Y
Obs 11 11 11 11 11 11 11 11
Mittlere 9.00 7.50 9.00 7.50090 9.00 7.50 9.00 7.50
SD 3.16 1.94 3.16 1.94 3.16 1.94 3.16 1.94
r 0.82 0.82 0.82 0.82

Hier siehst du einige Statistiken, wie die Standardabweichung, r, den Mittelwert und die Anzahl der Beobachtungen in jedem Datensatz. Ich werde jede dieser Statistiken in den nächsten Kapiteln im Detail erklären, aber beachte, dass sie für alle vier Datensätze gleich sind. Wenn du die Datensätze aufzeichnest und visualisierst, wie in Abbildung 1-15 gezeigt, kannst du deutlich sehen, dass jeder Datensatz sehr unterschiedlich ist.

Abbildung 1-15. Visuelle Darstellung des Anscombe-Quartetts

Abbildung 1-15 ist ein Beispiel für das Anscombe-Quartett. Es wurde 1973 von dem Statistiker Francis Anscombe erstellt, um zu zeigen, wie wichtig es ist, deine Daten vor und nach der Modellierung zu visualisieren. Wenn du statistische Modelle erstellst, musst du die Daten visualisieren, um wirklich zu verstehen, worum es geht - ob es Ausreißer gibt, Korrelationen, Normalisierung und so weiter. Andererseits lässt die Datenvisualisierung allein eine Menge Annahmen und Raum für Fehlinterpretationen. Der Rest dieses Buches wird sich genau damit beschäftigen.

Zusammenfassung

In diesem Kapitel habe ich erklärt, was Tableau ist und einige seiner wichtigsten Produkte aufgelistet. Dann bin ich auf einige Schlüsselbegriffe eingegangen, die ich im Laufe des Buches verwenden werde, wenn ich dich durch die einzelnen Tutorials führe. Dieses Grundwissen wird in späteren Kapiteln wichtig sein, vor allem, wenn du Tableau noch nicht kennst.

Dann habe ich einige grundlegende statistische Begriffe und Ideen erläutert. Danach habe ich diese Begriffe mit einer praktischen Fallstudie verknüpft. Um dir zu zeigen, wie Statistik und Datenvisualisierung zusammenpassen, habe ich dir das Beispiel des Anscombe-Quartetts gezeigt.

In den folgenden Kapiteln zeige ich dir, wie du statistische Analysen in deine Datenvisualisierungen in Tableau integrieren kannst. Du lernst, wie du die Verteilung deiner Daten visualisierst, Ausreißer erkennst, zukünftige Werte prognostizierst, eine Clusteranalyse erstellst, Regressionen für Vorhersagen nutzt und dich mit externen Ressourcen für fortgeschrittenere statistische Modelle verbindest.

Wenn du es bis hierher geschafft hast und noch ein paar zusätzliche Grundlagen brauchst, empfehle ich dir die folgenden Bücher, um dich mit Tableau Desktop und seinen Möglichkeiten besser vertraut zu machen:

  • Practical Tableau von Ryan Sleeper (O'Reilly, 2018)

  • Tableau Desktop Cookbook von Lorna Brown (O'Reilly, 2021)

  • Tableau Strategies von Ann Jackson und Luke Stanke (O'Reilly, 2021)

1 Siehe David Kirkpatricks Blogartikel über Konversion, "Marketing 101: Was ist Konversion?", MarketingSherpa, 15. März 2021.

Get Statistisches Tableau now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.