Kapitel 4. Verständnis der Normalverteilung mithilfe von Histogrammen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn es um Statistik geht, gibt es ein paar grundlegende Konzepte, die du kennen und verstehen musst. In Kapitel 1 habe ich dir einige dieser Konzepte vorgestellt, darunter statistische Signifikanz, p-Werte und Hypothesentests. Eines der wichtigsten Konzepte, das du kennen und verstehen musst, sind die verschiedenen Arten, wie Daten verteilt werden können. Wenn du nicht weißt, wie deine Daten verteilt sind, könntest du bei deiner Analyse falsche Annahmen treffen, die zu falschen Schlussfolgerungen und falschen Annahmen führen können.

In diesem Kapitel zeige ich dir einige Möglichkeiten, wie deine Daten verteilt sein können, gebe Beispiele für verschiedene Verteilungsarten und zeige dir, wie du die Verteilung in Tableau mit Hilfe von Histogrammen visualisieren kannst.

Arten der Verteilung

In der Wirtschaft oder bei den meisten alltäglichen Analysen wirst du auf verschiedene Arten der Datenverteilung stoßen. Wenn ich zum Beispiel 1.000 Mal eine Münze werfe, die Daten aufzeichne und sie visualisiere, habe ich wahrscheinlich zwei Spalten (Kopf und Zahl), die fast genau gleich verteilt sind, weil die Chance, eine der beiden Seiten zu erhalten, 50/50 beträgt. Ein anderes Beispiel: Wenn ich die Flughöhe eines startenden Flugzeugs aufzeichne, das 36.000 Fuß erreicht, würden die Daten im Laufe der Zeit exponentiell ansteigen und irgendwann ein Plateau erreichen. Und noch ein Beispiel: Wenn ich die Körpergröße aller Erwachsenen in einem großen Hörsaal aufzeichnen würde, hätte ich wahrscheinlich einen normalverteilten Datensatz.

Überall um uns herum können wir Daten aufzeichnen und sie visualisieren, um einzigartige Verteilungen zu erkennen. In der Wirtschaft ist es genau dasselbe. Wenn du die Verteilung des Gewinns nach Produkt, des Umsatzes über die Zeit, der Bestellungen nach Kunden usw. visualisierst, wirst du für jeden Datensatz unterschiedliche Verteilungen finden und beobachten. Hier sind einige gängige Beispiele.

Gleichmäßige Verteilung

Eine gleichmäßige Verteilung liegt vor, wenn deine Daten gleichmäßig über deinen Datensatz verteilt sind, wie in Abbildung 4-1 dargestellt.

Abbildung 4-1. Gleichmäßige Verteilung

Wenn Daten gesammelt werden, sind sie meistens mit einer gewissen Varianz behaftet. Deshalb ist es unwahrscheinlich, dass diese Form der Verteilung in den meisten Situationen auftritt. Ein Beispiel: Stell dir vor, du würdest aufzeichnen, wie viele Minuten pro Stunde vergehen, oder du würdest die Wahrscheinlichkeit aufzeichnen, eine Zahl von 1 bis 6 auf einem sechsseitigen Würfel zu würfeln. In diesen Fällen würdest du einen gleichmäßig verteilten Datensatz erhalten.

Bernoulli-Verteilung

Eine Bernoulli-Verteilung liegt vor, wenn du Daten mit nur zwei möglichen Ergebnissen sammelst, wie in Abbildung 4-2 dargestellt. Die Bernoulli-Verteilung spielt eine zentrale Rolle in der Wahrscheinlichkeitstheorie und der Statistik. Sie wurde nach dem Schweizer Mathematiker Jacob Bernoulli benannt und bildet die Grundlage für viele statistische Modelle und ist ein grundlegendes Konzept in verschiedenen Bereichen.

Abbildung 4-2. Bernoulli-Verteilung

Daten werden oft in sehr einfachen Formaten wie diesem erfasst. Klinische Studien, Umfragen oder der Serverstatus können in diesem booleschen Format erfasst werden. Boolesch bedeutet, dass etwas zwei Ergebnisse hat: 0 oder 1 im Binärformat, ja oder nein, wahr oder falsch, Server läuft oder Server läuft nicht, usw.

Exponentialverteilung

Die Exponentialverteilung tritt auf, wenn deine Daten exponentiell wachsen, während sie gesammelt werden, und dann abnehmen, wie in Abbildung 4-3 gezeigt.

Abbildung 4-3. Exponentialverteilung

Eine Exponentialverteilung kann in einem Datensatz auftreten, wenn die gesammelten Daten schnell ansteigen oder abfallen und sich dann stabilisieren. Stell dir die Höhe eines Flugzeugs vor, wenn es auf seine Reiseflughöhe steigt. Das Flugzeug steigt beim Start schnell an und nimmt dann ab, während es sich einpendelt.

Normalverteilung

Die Normalverteilung folgt einer glockenförmigen Kurve, wie in Abbildung 4-4 dargestellt. Sie wird oft auch als Normalverteilung, Glockenkurve oder Gaußverteilung bezeichnet.

Abbildung 4-4. Normalverteilung

Diese Art der Verteilung tritt auf, wenn die Daten symmetrisch und nicht schief sind. Ein Beispiel: Wenn du die Körpergröße der Studenten auf einem Campus messen würdest, würdest du dieses Muster sehen. Es gibt ein paar Studenten, die kleiner sind als der Durchschnitt, aber die Mehrheit liegt im nationalen Durchschnitt und einige Studenten sind größer als der Durchschnitt.

Um dir eine mathematische Erklärung für eine Normalverteilung zu geben, schauen wir uns die empirische Regel an: 68-95-99,7. Bei einer Normalverteilung liegen etwa 68 % der Daten innerhalb einer Standardabweichung vom Mittelwert, 95 % innerhalb von zwei Standardabweichungen und 99,7 % innerhalb von drei Standardabweichungen, wie in Abbildung 4-5 dargestellt.

Abbildung 4-5. Die Normalverteilung 68-95-99,7 (empirische Regel)

Diese Regel ist sehr wichtig zu verstehen und wird bei der Ausreißererkennung in den Kapiteln 6 und 7 eine große Rolle spielen. Viele der Modelle, die in Tableau nativ erstellt werden, basieren auf der Annahme, dass die Daten normal verteilt sind.

Normalverteilung und Schiefe

Um die Normalverteilung zu vertiefen, wollen wir analysieren, was es bedeutet, eine Normalverteilung zu haben. Wenn ein Datensatz vollkommen normal ist, bedeutet das, dass der Mittelwert, der Modus und der Median gleich groß sind. Hier sind die Definitionen für diese Begriffe:

Mittlere

Der Durchschnitt der Zahlen in unserem Datensatz

Modus

Die Zahl, die in unserem Datensatz am häufigsten vorkommt

Median

Die mittlere Zahl in einem Datensatz in der Reihenfolge vom niedrigsten zum höchsten Wert

Betrachte diesen Datensatz: 3,4,5,5,6,6,7,7,7,8,8,9,9,10,11. Nach den Definitionen von Mittelwert, Modus und Median hättest du eine perfekt verteilte Normalverteilung, bei der der Mittelwert gleich 7, der Modus gleich 7 und der Median gleich 7 wäre.

Wenn du diesen Datensatz visualisierst, würdest du eine Normalverteilung ähnlich wie in Abbildung 4-6 sehen.

Abbildung 4-6. Visualisierung einer Normalverteilung

Wie du in Abbildung 4-6 sehen kannst, ist Modus = Mittelwert = Median, d.h. alle diese Werte fallen direkt in die Mitte der symmetrischen Kurve. Um dieses Konzept zu verdeutlichen, denke an das Beispiel, das ich vorhin über die Stichprobe der Größe der Studenten auf einem Campus gegeben habe. Es gibt einige Studenten, die extrem groß sind (wie die Mitglieder des Basketballteams) und andere, die von Natur aus kleiner sind. Die Mehrheit der Schüler/innen wäre jedoch ungefähr so groß wie der nationale Durchschnitt.

Denke auch an dein persönliches Umfeld in der Schule oder am Arbeitsplatz. Wenn du eine anständige Anzahl von Körpergrößen von Erwachsenen erfasst hast, würdest du wahrscheinlich einen Datensatz mit einer Normalverteilung erhalten. Obwohl die Normalverteilung häufig vorkommt, ist es selten, dass deine Daten so perfekt verteilt sind, einfach aufgrund der natürlichen Varianzen. Stattdessen wirst du höchstwahrscheinlich eine gewisse Schiefe feststellen.

Die Schiefe verstehen

Von Schiefe spricht man, wenn die Mehrheit der Daten auf einer Seite der Kurve konsolidiert ist. Um dir ein visuelles Beispiel zu geben, analysieren wir zunächst eine linksschiefe Verteilung, wie in Abbildung 4-7 dargestellt.

Abbildung 4-7. Linksschiefe Verteilung

Mathematisch gesehen bedeutet Linksschiefe, dass der Mittelwert kleiner ist als der Median, der wiederum kleiner ist als der Modus. Natürlich werden deine Augen auf die Daten auf der rechten Seite von Abbildung 4-7 gerichtet sein. Du fragst dich vielleicht: Ist das nicht rechtsschief? Wenn es um die Schiefe geht, solltest du dich eher dafür interessieren, was die Ursache für die Schieflage der Daten ist. In diesem Fall gibt es auf der linken Seite einen Extremwert (oder mehrere), der die Daten schief erscheinen lässt. Deshalb gibt es auf der linken Seite einen langen "Schwanz" und deshalb nennt man diese Art von Schiefe auch "linksschief".

Analysieren wir nun das Gegenteil davon, nämlich, das rechtsschief ist, wie in Abbildung 4-8 dargestellt.

Abbildung 4-8. Rechtsschiefe Verteilung

Um rechtsschief zu sein, ist der Modus kleiner als der Median, der wiederum kleiner als der Mittelwert ist. Wie du siehst, ist der Großteil der Daten auf der linken Seite gebündelt und hat einen langen Schweif auf der rechten Seite. Ein Beispiel: Stell dir vor, die von dir gesammelten Daten wären die Preise der in den Vereinigten Staaten verkauften Autos. Wahrscheinlich würdest du einige sehr billige Autos finden, aber die Mehrheit der verkauften Autos würde um den nationalen Durchschnittspreis liegen (30.000-50.000 $). Allerdings gäbe es auch einige Autos, die zu extrem hohen Preisen verkauft würden, was zu diesem Long-Tail-Effekt führen würde. Höchstwahrscheinlich würden nicht viele Fahrzeuge zu diesen hohen Preisen verkauft werden, aber die Preise würden unseren Mittelwert vom Median wegziehen.

Erinnere dich daran, dass du, wenn du über die Schiefe nachdenkst, dir eher Gedanken darüber machen solltest, was die Ursache für die Schiefe ist. Das wird dir auch helfen, dich an die richtige Bezeichnung für Links- und Rechtsschiefe zu erinnern.

Berücksichtigung der Schiefe

Viele Modelle arbeiten mit der Annahme, dass die Daten normal verteilt sind. Daher können schiefe Daten die Ergebnisse dieser Modelle verfälschen, indem sie statistisch signifikante Ergebnisse liefern, obwohl sie nicht signifikant sind, oder indem sie suggerieren, dass es kein statistisch signifikantes Ergebnis gibt, obwohl es eines gibt. Aus diesem Grund musst du wissen, wie du die Schiefe berücksichtigen kannst, indem du die Daten auf irgendeine Weise transformierst.

Du verstehst hoffentlich, wie es zu einer Schiefe kommen kann, und vielleicht überlegst du schon, wie du deine Daten bereinigen kannst, um sie normaler zu verteilen. In dem Beispiel mit den Autos könntest du zum Beispiel einfach die teureren Autos aus deiner Analyse ausschließen oder sie in einer separaten Analyse ausweisen.

Es gibt viele Möglichkeiten, wie du die Schiefe berücksichtigen kannst, und jede hat ihre Vor- und Nachteile. Hier sind ein paar Techniken, die du auf schiefe Daten anwenden kannst, um sie für deine Analyse normalverteilt zu machen:

Log-Transformation

Eine gängige Umwandlung ist die Logarithmierung der Daten auf. Dadurch erhältst du die logarithmierten Werte der Daten und schiebst die Extremwerte näher zueinander. So erhältst du in der Regel eine Normalverteilung, mit der du bei der Modellierung arbeiten kannst. In Tableau kannst du die Funktion LOG verwenden und sie auf die zu analysierende Kennzahl anwenden.

Vorteile: Es kann sein, dass du keine deiner Daten entfernen musst, da diese Technik die Werte nahe genug aneinander bringt, um in den meisten Fällen alles zu belassen.

Nachteile: Es ist schwierig, deine Daten nach der Umwandlung zu erklären und zu interpretieren.

Extremwerte entfernen

Das würde bedeuten, dass du alle Extremwerte oder Ausreißer aus deiner Analyse herausfiltern musst. In Tableau kannst du dazu einfach einen bedingten Filter verwenden. Oder du kannst die Funktion "Daten erklären" in Tableau verwenden, um genau die Beobachtungen zu finden, die die extremen Werte verursachen, und sie zu entfernen.

Vorteile: Es ist sehr einfach, dies deinen Stakeholdern zu erklären und für deine Kollegen zu dokumentieren.

Nachteile: Du könntest sehr wertvolle Informationen von deiner Analyse ausschließen oder eine Verzerrung verursachen.

Andere statistische Transformationen

Es gibt viele weitere Transformationsverfahren, die methodischer und wissenschaftlicher sind. Einige Beispiele sind die Winsorisierung und die Box-Cox-Transformation.

Pro: Die Annahmen, die du triffst, sind klar definiert und werden in der Branche erwartet.

Nachteil: Die Einzelheiten dieser Umwandlungstechniken können für einige Interessengruppen schwer zu verstehen sein.

Visualisierung von Verteilungen in Tableau mithilfe von Histogrammen

Nachdem du nun verschiedene Arten von Verteilungen verstanden hast, zeige ich dir, wie du die Verteilung deiner Daten in Tableau visualisieren kannst.

Um loszulegen, verbinde dich mit dem Sample - Superstore Dataset. Dies sind die Standard-Beispieldaten, die mit jeder Version von Tableau geliefert werden. Sie werden in der linken unteren Ecke des Bildschirms für die Datenquellenverbindung als Datenquelle angezeigt. Sobald die Verbindung hergestellt ist, musst du in Tableau eine Bin erstellen. Bins werden in erster Linie verwendet, um Kennzahlen in diskrete Dimensionsmitglieder zu verwandeln. Das ist wichtig, wenn du die Verteilung von Daten bestimmen willst, denn du möchtest, dass jeder Balken im Histogramm eine Gruppe von Werten darstellt.

Tabelle 4-1 ist eine Tabelle mit Daten, die in 20er-Schritten eingeteilt wurden, um dir ein Beispiel zu geben.

Tabelle 4-1. Beispiel für Bins
Bestellung Gewinn Gewinnbehälter
US-0001 $5.00 0
US0002 $10.00 0
US-0003 $15.00 0
US0004 $25.00 20
US-0005 $35.00 20
US0006 ($5.00) -20
US0007 ($25.00) -40

In jeder Bestellung weist Tableau dem Rohwert in 20er-Schritten einen Bereich zu. Die ersten drei Werte liegen also zwischen 0 und 20, was bedeutet, dass ihr Bin 0 ist. Die Aufträge 4 und 5 haben einen Gewinn, der zwischen 21 und 40 liegt, also werden sie dem Bin 20 zugewiesen, und so weiter.

Tableau hilft dir dabei, indem es dir eine vorgefertigte Bin zur Verfügung stellt, die du im Sample - Superstore Dataset mit dem Namen Profit (bin) verwenden kannst. Ich werde dir zeigen, wie du eine solche Bin von Grund auf erstellst, aber wenn du lieber diese Bin verwenden und weitermachen möchtest, kannst du das gerne tun.

Um eine Tonne zu erstellen, klickst du mit der rechten Maustaste auf Profit und wählst im Menü die Option Erstellen aus (siehe Abbildung 4-9).

Abbildung 4-9. Erstellen einer Mülltonne in Tableau

Daraufhin öffnet sich ein neues Dialogfeld mit Informationen über die Gewinnmaßnahme, wie in Abbildung 4-10 dargestellt.

Abbildung 4-10. Menü "Bins bearbeiten" in Tableau

Du kannst sehen, dass Tableau automatisch einen Wert für die "Größe der Bins" zuweist. In diesem Fall sind es 283, was bedeutet, dass jeder Balken des Histogramms die Gewinnwerte in diesen Schritten "einordnet". Ein besseres Beispiel: Wenn ein Produkt einen Gewinn von 200 US-Dollar erwirtschaftet hat, wird es mit Werten zwischen 0 und 283 US-Dollar zusammengefasst. Wenn ein Produkt 400 US-Dollar Gewinn erwirtschaftet hat, wird es mit Werten zwischen 284 und 567 US-Dollar zusammengefasst.

Wie du dir vorstellen kannst, werden die Balken umso breiter und weniger, je größer die Bin-Größe ist, während du bei kleineren Bin-Größen dünnere und reichlichere Balken erhältst. Es kann sinnvoll sein, verschiedene Bin-Größen zu testen, um einen besseren Überblick über die Verteilung deiner Daten zu bekommen.

Für den Moment nehmen wir die vorgeschlagene Menge und verfeinern sie später. Bevor ich weitermache, möchte ich die anderen Informationen erklären, die in diesem Menü angezeigt werden. Du kannst einen Min- und Max-Wert sehen; das sind die minimalen und maximalen Gewinnwerte aller Datensätze im Datensatz. Außerdem siehst du einen CntD-Wert, der für count distinct steht. Dies ist eine eindeutige Zählung aller einzelnen Gewinnbeträge in den Daten, also habe ich 7.545 eindeutige Werte in diesem Datensatz. Der Diff-Wert ist die Differenz zwischen dem Mindest- und dem Höchstwert.

Wenn du fertig bist, klicke auf OK. Dadurch wird eine neue Dimension namens "Gewinn (bin) 2" im Datenbereich erstellt. Ziehe diese Dimension auf die Spaltenablage und dann die Kennzahl "Aufträge (Anzahl)" auf die Zeilenablage, wie du in Abbildung 4-11 sehen kannst.

Abbildung 4-11. Ziehen von "Gewinn (bin) 2" und Bestellungen (Count) auf die Leinwand

So erhältst du ein schönes Histogramm, das wie eine Normalverteilung aussieht, wie du in Abbildung 4-12 sehen kannst.

Du kannst sehen, dass die Mehrheit der CNT(Orders) Gewinne zwischen -$849 und $849 erzielt. Auf den ersten Blick sieht das sehr aufschlussreich aus, aber sehen wir uns das Ganze etwas genauer an. Ändern wir die Bin-Größe von 283 auf 20. So können wir die Daten auf einer feineren Ebene binden. Klicke dazu mit der rechten Maustaste auf die Dimension "Gewinn (bin) 2", ändere die "Größe der Bins" auf 20 (siehe Abbildung 4-13) und klicke dann auf OK.

Abbildung 4-12. Histogramm des Gewinns nach Aufträgen in Tableau
Abbildung 4-13. Ändern der "Größe der Bins" auf 20

Wie ich bereits erwähnt habe, werden die Balken umso dünner und zahlreicher, je kleiner der Behälter ist. Wenn du die Größe der Gewinntonne bearbeitest, kannst du Abbildung 4-12 mit der Abbildung 4-14 vergleichen.

Abbildung 4-14. Histogramm nach Bearbeitung der Bin-Größe auf 20

Du kannst sehen, dass einige Aufträge sowohl auf der linken als auch auf der rechten Seite Gewinnspannen in beide Richtungen erzeugt haben. Als Analyst möchtest du diese Extremwerte vielleicht ausschließen und die Gewinnspannen genauer überprüfen, um sicherzustellen, dass sie korrekt berechnet werden.

Um das zu veranschaulichen, konzentrieren wir uns auf die Bestellungen zwischen -$300 und $300. Filtere auf diese Bereiche, indem du auf den Bereich -$300 in der x-Achse klickst; dann klicke bei gedrückter Umschalttaste auf den Bereich $300, wodurch dieser Bereich und alles dazwischen hervorgehoben wird. Wenn du diese Bereiche ausgewählt hast, klicke auf die Schaltfläche Nur behalten, wie in Abbildung 4-15 gezeigt.

Abbildung 4-15. Auswählen eines kleineren Bereichs von Bins

Es gibt viele andere Möglichkeiten, diesen Filter anzuwenden. Du könntest zum Beispiel auch "Gewinn (bin) 2" auf die Ablage "Filter" ziehen und einen Dimensionsfilter anwenden. Dann erhältst du eine Ansicht, die wie Abbildung 4-16 aussieht.

Abbildung 4-16. Normalverteilte Gewinnwerte in Tableau

Du kannst sehen, dass die Daten hier einer Normalverteilung folgen. In diesem Datensatz gibt es einige Aufträge, die einen negativen Gewinn und einige, die einen positiven Gewinn erwirtschaftet haben. Wie würden die Daten aber aussehen, wenn sie schief wären? Um dir ein gutes Beispiel dafür zu geben, erstellen wir einen Behälter mit Verkäufen.

Beginne, indem du mit der rechten Maustaste auf Verkäufe klickst, zu Erstellen navigierst und dann Lagerplätze auswählst, wie in Abbildung 4-17).

Dadurch wird das Menü Bins bearbeiten geöffnet, wie in Abbildung 4-18 dargestellt.

Abbildung 4-17. Erstellen einer Umsatzliste in Tableau
Abbildung 4-18. Menü Bins bearbeiten für Sales (bin)

Für dieses Beispiel änderst du die "Größe der Fächer" auf 100 und klickst dann auf OK, um das Menü zu schließen. Erstelle nun ein neues Blatt und ziehe das neue Feld "Umsatz (bin)" auf die Spaltenablage und " Aufträge (Anzahl)" auf die Zeilenablage, wie in Abbildung 4-19 gezeigt.

Abbildung 4-19. Histogramm der Verkäufe nach Anzahl der Aufträge

Du siehst, dass du durch die Änderung der Bin-Größe auf 100 eine rechtsschiefe Verteilung erhalten hast. Wenn du die Umsatzdaten logisch betrachtest, ergibt das einen Sinn. Es gibt nur wenige Fälle, in denen ein Unternehmen negative Umsätze aus einer Bestellung hat. Das würde im Wesentlichen bedeuten, dass das Unternehmen den Kunden für das Produkt bezahlt hat. Es würde also auch keinen Sinn machen, eine Transformation auf diese Daten anzuwenden. Du müsstest ein nichtparametrisches Modell anwenden oder ein Modell, das nicht von einer Normalverteilung ausgeht, um die besten Ergebnisse bei der Arbeit mit dieser Kennzahl zu erzielen.

Wie ich bereits erwähnt habe, gibt es einige Modelle, bei denen die Daten normal verteilt sein müssen, damit sie richtig funktionieren. Es gibt aber auch Modelle, die funktionieren, auch wenn deine Daten nicht normalverteilt sind. Auf einige dieser Modelle werde ich in Kapitel 7 eingehen. Um dir die Idee näher zu bringen, wollen wir kurz über parametrische Modelle und nichtparametrische Modelle sprechen.

Parametrische Modelle

Parametrische Modelle sind statistische Modelle, die Annahmen über die Verteilung der Daten treffen. Bei der parametrischen Modellierung besteht das Ziel darin, die Parameter der gewählten Verteilung auf der Grundlage der verfügbaren Daten zu schätzen. Sobald die Parameter geschätzt sind, kann das Modell verwendet werden, um Rückschlüsse und Vorhersagen zu treffen oder neue Daten zu generieren. Der Begriff parametrisch bezieht sich auf die Schätzung dieser Parameter.

Einige Beispiele für parametrische Modelle sind:

  • Lineare Regression

  • Exponentiale Regression

  • Poisson-Regression

  • Logistische Regression

Der Vorteil dieser Modelle ist, dass sie leicht zu interpretieren und den Beteiligten zu erklären sind. Das macht sie zu idealen Modellen, die ein Unternehmen leicht umsetzen und in seinen Betrieb integrieren kann.

Nichtparametrische Modelle

Nichtparametrische Modelle sind statistische Modelle, die keine starken Annahmen über die zugrunde liegende Bevölkerungsverteilung oder ihre Parameter machen. Im Gegensatz zu parametrischen Modellen, die eine feste Form für die Verteilung vorgeben und ihre Parameter schätzen, zielen nichtparametrische Modelle darauf ab, die zugrunde liegende Datenverteilung direkt aus den Daten selbst zu schätzen.

Nichtparametrische Modelle sind flexibel und können mit einer Vielzahl von Datenverteilungen umgehen, ohne eine bestimmte Funktionsform anzunehmen. Sie sind besonders nützlich, wenn die Daten nicht den Annahmen parametrischer Modelle entsprechen oder wenn es nur begrenztes Vorwissen über die Datenverteilung gibt. Diese Modelle konzentrieren sich oft auf die Schätzung von Mustern, Beziehungen oder Rangfolgen in den Daten und nicht auf die Schätzung bestimmter Parameter.

Einige Beispiele für nichtparametrische Modelle sind:

  • K-Nächste Nachbarn(k-NN)

  • Entscheidungsbaum

  • Zufälliger Wald

  • Support-Vektor-Maschine (SVM)

Der Vorteil dieser Modelle ist ihre Flexibilität, aber sie sind schwieriger zu interpretieren und den Interessengruppen zu vermitteln.

In den nächsten Kapiteln zeige ich dir Beispiele für diese verschiedenen Arten von Modellen.

Zusammenfassung

In diesem Kapitel hast du etwas über verschiedene Arten von Verteilungen gelernt, was Schiefe ist und wie man Histogramme in Tableau visualisiert. Die Fähigkeit, diese Techniken anzuwenden, ist eine grundlegende Fähigkeit, die du beherrschen musst, bevor du mit der Modellierung beginnen kannst.

In diesem Kapitel wurde auch die Idee der parametrischen und nichtparametrischen Modelle vorgestellt. Wenn du diese Informationen kennst, kannst du entscheiden, welches Modell du je nach Verteilung deiner Daten auf bestimmte Daten anwenden willst.

Get Statistisches Tableau now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.