Kapitel 1. Grundlagen der explorativen Datenanalyse
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
"Man weiß nie, was durch diese Tür kommt", sagt Rick Harrison in der Eröffnungsfolge der Erfolgsserie Pawn Stars. So ist es auch in der Analytik: Wenn du mit einem neuen Datensatz konfrontiert wirst, weißt du nie, was du finden wirst. In diesem Kapitel von geht es darum, einen Datensatz zu erkunden und zu beschreiben, damit wir wissen, welche Fragen wir ihm stellen können. Dieser Prozess wird alsexplorative Datenanalyse oder EDA bezeichnet.
Was ist eine explorative Datenanalyse?
Der amerikanische Mathematiker John Tukey propagierte die EDA in seinem Buch Exploratory Data Analysis (Pearson). Tukey betonte, dass Analysten zunächst die Daten auf mögliche Forschungsfragen hin untersuchen müssen, bevor sie sich daran machen, die Antworten mit Hypothesentests und Inferenzstatistiken zu bestätigen.
Die EDA wird oft mit einem "Interview" mit den Daten verglichen. Dabei lernt der Analytiker die Daten kennen und erfährt, welche interessanten Dinge sie zu sagen haben. Im Rahmen unseres Interviews wollen wir Folgendes tun:
-
Klassifiziere unsere Variablen als kontinuierlich, kategorisch und so weiter
-
Fasse unsere Variablen mithilfe der deskriptiven Statistik zusammen
-
Visualisiere unsere Variablen mit Diagrammen
Die EDA gibt uns eine Menge zu tun. Auf kannst du den Prozess anhand von Excel und einem realen Datensatz nachvollziehen. Die Daten von findest du in der Arbeitsmappe star.xlsx, die du im Ordner datasets im Repository dieses Buches im Unterordner star findest. Dieser Datensatz wurde für eine Studie gesammelt, in der die Auswirkungen der Klassengröße auf die Testergebnisse untersucht wurden. Für diese und andere Excel-basierte Demos empfehle ich dir, die folgenden Schritte mit den Rohdaten durchzuführen:
-
Erstelle eine Kopie der Datei, damit der ursprüngliche Datensatz unverändert bleibt. Wir werden später einige dieser Excel-Dateien in R oder Python importieren, sodass sich jede Änderung an den Datensätzen auf diesen Prozess auswirkt.
-
Füge einen Index Spalte namens id hinzu. Damit wird jede Zeile des Datensatzes nummeriert, so dass die erste Zeile die ID 1 hat, die zweite die ID 2 und so weiter. Das geht in Excel schnell, indem du Zahlen in die ersten Zeilen der Spalte eingibst, dann diesen Bereich markierst und mit Flash Fill die Auswahl nach diesem Muster vervollständigst. Suche nach dem kleinen Quadrat unten rechts in deiner aktiven Zelle, fahre mit dem Mauszeiger darüber, bis du ein kleines Pluszeichen siehst, und fülle dann den Rest deines Bereichs aus. Wenn du diese Indexspalte hinzufügst, wird es einfacher, die Daten nach Gruppen zu analysieren.
-
Zum Schluss wandelst du deinen Datensatz in eine Tabelle um, indem du eine beliebige Zelle im Bereich auswählst und dann in der Multifunktionsleiste auf Einfügen → Tabelle klickst. Das Tastaturkürzel ist Strg + T für Windows, Cmd + T für Mac. Wenn deine Tabelle Kopfzeilen hat, stelle sicher, dass die Auswahl "Meine Tabelle hat Kopfzeilen" aktiviert ist. Tabellen haben eine ganze Reihe von Vorteilen, nicht zuletzt ihren ästhetischen Reiz. Außerdem ist es möglich, bei Tabellenoperationen auf Spalten mit Namen zu verweisen.
Du kannst der Tabelle einen bestimmten Namen geben, indem du auf eine beliebige Stelle in der Tabelle klickst, dann zum Menüband gehst und in der Gruppe Eigenschaften auf Tabellendesign → Tabellenname klickst, wie in Abbildung 1-1 gezeigt.
Die Durchführung dieser ersten Analyseaufgaben ist eine gute Übung für andere Datensätze, mit denen du in Excel arbeiten möchtest. Für den Sterndatensatz sollte deine fertige Tabelle wie in Abbildung 1-2 aussehen. Ich habe meine Tabelle star
genannt. Dieser Datensatz ist in einer rechteckigen Form mit Spalten und Zeilen angeordnet.
Du hast wahrscheinlich schon mit genug Daten gearbeitet, um zu wissen, dass dies eine wünschenswerte Form für die Analyse ist. Manchmal müssen wir unsere Daten bereinigen, um sie in den gewünschten Zustand zu bringen. Auf einige dieser Operationen zur Datenbereinigung werde ich später in diesem Buch eingehen . Aber erst einmal sollten wir uns glücklich schätzen und etwas über unsere Daten und die EDA lernen.
In der Analytik beziehen wir uns oft auf Beobachtungen und Variablenstatt auf Zeilen und Spalten. Lass uns die Bedeutung dieser Begriffe untersuchen.
Beobachtungen
In diesem Datensatz haben wir 5.748 Zeilen: jede ist eine einzigartige Beobachtung. In diesem Fall werden die Messungen auf der Ebene der Schüler/innen vorgenommen; die Beobachtungen können von einzelnen Bürger/innen bis hin zu ganzen Nationen reichen.
Variablen
Jede Spalte bietet eine bestimmte Information über unsere Beobachtungen. Zum Beispiel finden wir im Star-Datensatz die Leseleistung jedes Schülers(treadssk) und den Klassentyp, in dem der Schüler war(classk). Wir bezeichnen diese Spalten als Variablen. Tabelle 1-1 beschreibt, was jede Spalte in star misst:
Säule | Beschreibung |
---|---|
id |
Eindeutiger Bezeichner/Indexspalte |
tmathssk |
Skalierte Gesamtpunktzahl in Mathematik |
treadssk |
Skalierte Gesamtpunktzahl Lesen |
classk |
Art der Klasse |
totexpk |
Gesamtzahl der Jahre an Erfahrung des Lehrers |
Sex |
Sex |
Freiberufler |
Hast du dich für ein kostenloses Mittagessen qualifiziert? |
Ethnie |
Ethnie |
schidkn |
Schulindikator |
Bereit für eine Tautologie? Wir nennen sie Variablen, weil ihre Werte von Beobachtung zu Beobachtung variieren können. Wenn jede Beobachtung, die wir aufgezeichnet haben, die gleichen Messwerte liefern würde, gäbe es nicht viel zu analysieren. Jede Variable kann ganz unterschiedliche Informationen über unsere Beobachtungen liefern. Selbst in diesem relativ kleinen Datensatz haben wir Text, Zahlen und Ja/Nein-Aussagen als Variablen. Manche Datensätze können Dutzende oder sogar Hunderte von Variablen enthalten.
Es kann hilfreich sein, diese Variablentypen zu klassifizieren, da diese Unterscheidungen wichtig sind, wenn wir unsere Analyse fortsetzen. Denke daran, dass diese Unterscheidungen etwas willkürlich sind und sich je nach Zweck und Umständen unserer Analyse ändern können. Du wirst sehen, dass die EDA und die Analytik im Allgemeinen sehr iterativ ist.
Hinweis
Die Klassifizierung von Variablen ist etwas willkürlich und basiert, wie ein Großteil der Analytik, eher auf Faustregeln als auf festen Kriterien.
Ich werde die verschiedenen Variablentypen besprechen, wie in Abbildung 1-3 dargestellt, und dann den Sterndatensatz anhand dieser Unterscheidungen klassifizieren.
Es gibt weitere Variablentypen, die hier behandelt werden könnten: Wir werden zum Beispiel nicht auf den Unterschied zwischen Intervall- und Verhältnisdaten eingehen. Einen genaueren Blick auf die Variablentypen findest du in Sarah BoslaughsStatistics in a Nutshell, 2nd edition (O'Reilly) . Arbeiten wir uns in Abbildung 1-3 von links nach rechts vor.
Kategorische Variablen
Sie werden manchmal auch als qualitative Variablen bezeichnet und beschreiben eine Eigenschaft oder ein Merkmal einer Beobachtung. Eine typische Frage, die mit kategorischen Variablen beantwortet wird, ist "Welche Art?". Kategoriale Variablen werden oft durch nichtnumerische Werte dargestellt, obwohl das nicht immer der Fall ist.
Ein Beispiel für eine kategoriale Variable ist das Herkunftsland. Wie jede Variable kann sie verschiedene Werte annehmen (Vereinigte Staaten, Finnland usw.), aber wir können keine quantitativen Vergleiche zwischen ihnen anstellen (was ist schon zwei Mal Indonesien?). Jeder eindeutige Wert, den eine kategoriale Variable annimmt, wird alsStufe der Variable bezeichnet. Drei Stufen eines Herkunftslandes könnten zum Beispiel USA, Finnland oder Indonesien sein.
Da kategoriale Variablen eine Qualität einer Beobachtung beschreiben und nicht eine Quantität, sind viele quantitative Operationen auf diese Daten nicht anwendbar. Wir können zum Beispiel nicht das durchschnittlicheHerkunftsland berechnen, aber wir können die häufigste oder die Gesamthäufigkeit jeder Stufe berechnen.
Außerdem können wir kategoriale Werte danach unterscheiden, wie viele Stufen sie annehmen können und ob die Rangfolge dieser Stufen sinnvoll ist.
Binäre Variablen können nur zwei Stufen annehmen. Oft werden diese Variablen als Ja/Nein-Antworten angegeben, obwohl das nicht immer der Fall ist. Einige Beispiele für binäre Variablen:
-
Verheiratet? (ja oder nein)
-
Hast du gekauft? (ja oder nein)
-
Weinsorte? (rot oder weiß)
Im Fall der Weinart gehen wir implizit davon aus, dass unsere Daten nur aus Rot- oder Weißwein bestehen... aber was passiert, wenn wir auch Rosé analysieren wollen? In diesem Fall können wir nicht mehr alle drei Stufen einbeziehen und die Daten als binäre Daten analysieren.
Jede qualitative Variable mit mehr als zwei Stufen ist eine nominale Variable. Einige Beispielesind:
-
Herkunftsland (USA, Finnland, Indonesien, usw.)
-
Lieblingsfarbe (Orange, Blau, Gebrannte Siena usw.)
-
Weintyp (rot, weiß, rosé)
Beachte, dass es sich bei einer ID-Nummer um eine kategoriale Variable handelt, die numerisch angegeben wird: Wirkönnten zwar eine durchschnittliche ID-Nummer nehmen, aber diese Zahl ist bedeutungslos. Wichtig ist, dass nominale Variablen nicht von Natur aus geordnet sind. Zum Beispiel kann die Farbe Rot nicht von Natur aus höher oder niedriger geordnet werden als Blau. Da die intrinsische Ordnung nicht unbedingt klar ist, sehen wir uns einige Beispiele für ihre Verwendung an.
Ordinale Variablen haben mehr als zwei Stufen, wobei zwischen diesen Stufen eine innere Ordnung besteht. Einige Beispiele für Ordinalvariablen:
-
Größe des Getränks (klein, mittel, groß)
-
Klasse (Erstsemester, Zweitsemester, Junior, Senior)
-
Wochentage (Montag, Dienstag, Mittwoch, Donnerstag, Freitag)
Hier können wir die Stufen von Natur aus ordnen: Senior ist höher als Freshman, während wir das Gleiche über Rot und Blau nicht sagen können. Wir können diese Stufen zwar in eine Rangfolge bringen, aber wir können nicht unbedingt denAbstand zwischen ihnen quantifizieren. Zum Beispiel ist der Größenunterschied zwischen einem kleinen und einem mittleren Getränk nicht unbedingt derselbe wie zwischen einem mittleren und einem großen Getränk.
Quantitative Variablen
Diese Variablen beschreiben eine messbare Menge einer Beobachtung. Eine typische Frage, die mit quantitativen Variablen beantwortet wird, ist "Wie viel?" oder "Wie viele?". Quantitative Variablen werden fast immer durch Zahlen dargestellt. Wir können quantitative Variablen auch nach der Anzahl der Werte unterscheiden, die sie annehmen können.
Beobachtungen einer kontinuierlichen Variable können theoretisch unendlich viele Werte zwischen zwei beliebigen anderen Werten annehmen. Das hört sich kompliziert an, aber kontinuierliche Variablen sind in der Natur recht häufig. Einige Beispiele:
-
Größe (innerhalb eines Bereichs von 59 und 75 Zoll kann eine Beobachtung 59,1, 74,99 oder ein anderer Wert dazwischen sein)
-
pH-Wert
-
Fläche
Da wir bei kontinuierlichen Variablen quantitative Vergleiche über die Beobachtungen hinweg anstellen können, gibt es für sie eine größere Bandbreite an Analysen. So ist es zum Beispiel sinnvoll, bei kontinuierlichen Variablen den Durchschnitt zu bilden, während dies bei kategorialen Variablen nicht sinnvoll ist. Im weiteren Verlauf dieses Kapitels erfährst du, wie du kontinuierliche Variablen analysieren kannst, indem du ihre deskriptiven Statistiken in Excel ermittelst.
Auf der anderen Seite können Beobachtungen einer diskreten Variable nur eine feste Anzahl von zählbaren Werten zwischen zwei beliebigen Werten annehmen. Diskrete Variablen sind in den Sozialwissenschaften und der Wirtschaft weit verbreitet. Einige Beispiele sind:
-
Anzahl der Personen in einem Haushalt (innerhalb einer Spanne von 1 und 10, eine Beobachtung kann 2 oder 5 sein, aber nicht 4.3)
-
Verkaufte Einheiten
-
Anzahl der Bäume in einem Wald
Wenn wir es mit diskreten Variablen mit vielen Stufen oder vielen Beobachtungen zu tun haben, behandeln wir sie oft als kontinuierlich, um eine breitere Palette an statistischen Analysen zu ermöglichen. Du hast vielleicht schon gehört, dass der durchschnittliche US-Haushalt 1,93 Kinder hat. Wir wissen, dass keine Familie tatsächlich eine solche Anzahl von Kindern hat. Schließlich handelt es sich um eine diskrete Variable, die in ganzen Zahlen angegeben wird. Über viele Beobachtungen hinweg kann diese Aussage jedoch eine hilfreiche Darstellung dafür sein, wie viele Kinder in einem typischen Haushalt zu erwarten sind.
Aber halt, das ist noch nicht alles! In fortgeschrittenen Analysen werden wir auch oft Variablen neu berechnen und mischen: Zum Beispiel können wir eine logarithmische Transformation einer Variable vornehmen, damit sie den Annahmen einer bestimmten Analyse entspricht, oder wir können die Bedeutung vieler Variablen mit einer Methode namens Dimensionalitätsreduktion in weniger Variablen extrahieren. Diese Techniken würden den Rahmen dieses Buches sprengen.
Demonstration: Variablen klassifizieren
Klassifiziere die Sternvariablen mit dem, was du bisher gelernt hast, anhand der in Abbildung 1-3 dargestellten Typen. Während du darüber nachdenkst, zögere nicht, die Daten zu untersuchen. Ich gebe dir hier eine einfache Möglichkeit, dies zu tun, und wir werden später in diesem Kapitel einen gründlicheren Prozess durchlaufen.
Eine schnelle Möglichkeit, ein Gefühl dafür zu bekommen, welche Variablen vom Typ sind, besteht darin, die Anzahl der eindeutigen Werte zu ermitteln, die sie annehmen. Das kannst du in Excel tun, indem du die Filtervorschau anschaust. Ich habe auf den Dropdown-Pfeil neben der Geschlechtsvariablen in Abbildung 1-4 geklickt und festgestellt, dass sie nur zwei unterschiedliche Werte annimmt. Was für eine Variable könnte das wohl sein? Nimm dir einen Moment Zeit, um die Variablen mit dieser oder einer anderen Methode durchzugehen.
Tabelle 1-2 zeigt, wie ich mich entschieden habe, diese Variablen zu klassifizieren.
Variabel | Beschreibung | Kategorisch oder quantitativ? | Typ? |
---|---|---|---|
id |
Index-Spalte |
Kategorisch |
Nominal |
tmathssk |
Skalierte Gesamtpunktzahl in Mathematik |
Quantitativ |
Kontinuierlich |
treadssk |
Skalierte Gesamtpunktzahl Lesen |
Quantitativ |
Kontinuierlich |
classk |
Art der Klasse |
Kategorisch |
Nominal |
totexpk |
Gesamtzahl der Jahre an Erfahrung des Lehrers |
Quantitativ |
Diskret |
Sex |
Sex |
Kategorisch |
Binär |
Freelancer |
Hast du dich für ein kostenloses Mittagessen qualifiziert? |
Kategorisch |
Binär |
Ethnie |
Ethnie |
Kategorisch |
Nominal |
schidkn |
Schulindikator |
Kategorisch |
Nominal |
Einige dieser Variablen, wie classk und freelunk, waren leichter zu kategorisieren. Andere, wie schidkn und id, waren nicht so offensichtlich: Sie werden in Zahlen angegeben, aber kann nicht quantitativ verglichen werden.
Warnung
Nur weil Daten numerisch angegeben werden, heißt das nicht, dass sie als quantitative Variable verwendet werden können.
Du wirst sehen, dass nur drei von ihnen quantitativ sind: tmathssk,treadssk und totexpk. Ich habe mich entschieden, die ersten beiden als kontinuierlich und die letzte als diskret zu klassifizieren. Um zu verstehen, warum das so ist, fangen wir mit totexpk an, der Anzahl der Erfahrungsjahre der Lehrkraft. Alle diese Beobachtungen sind in ganzen Zahlen ausgedrückt und reichen von 0 bis 27. Da diese Variable nur eine bestimmte Anzahl von abzählbaren Werten annehmen kann, habe ich sie alsdiskret eingestuft.
Aber was ist mit tmathssk und treadssk, den Testergebnissen? Auch diese werden in ganzen Zahlen ausgedrückt: Ein Schüler kann also nicht 528,5 Punkte im Lesen erhalten, sondern nur 528 oder 529. In dieser Hinsicht sind sie also diskret. Da diese Werte jedoch so viele verschiedene Ausprägungen annehmen können, ist es in der Praxis sinnvoll, sie als kontinuierlich zu klassifizieren.
Es mag dich überraschen, dass es in einem so strengen Bereich wie der Analytik nur sehr wenige feste Regeln gibt.
Rekapitulation: Variable Typen
Kenne die Regeln gut, damit du sie effektiv brechen kannst.
Dalai Lama XIV
Die Art und Weise, wie wir eine Variable klassifizieren, hat Einfluss darauf, wie wir sie in unserer Analyse behandeln - zum Beispiel können wir den Mittelwert von kontinuierlichen Variablen berechnen, aber nicht von nominalen Variablen. Gleichzeitig beugen wir die Regeln oft aus Gründen der Zweckmäßigkeit - zum Beispiel, indem wir den Durchschnitt einer diskreten Variable nehmen, so dass eine Familie im Durchschnitt 1,93 Kinder hat.
Im Laufe unserer Analyse können wir uns entscheiden, weitere Regeln zu verdrehen, Variablen neu zu klassifizieren oder ganz neue Variablen zu erstellen. Erinnere dich: EDA ist ein iterativer Prozess.
Variablen in Excel erforschen
Fahren wir fort mit und erkunden wir den Star-Datensatz mit deskriptiven Statistiken und Visualisierungen. Wir werden diese Analyse in Excel durchführen, obwohl du die gleichen Schritte auch in R oder Python ausführen könntest und die gleichen Ergebnisse erhalten würdest. Am Ende des Buches wirst du in der Lage sein, EDA mit allen drei Methoden durchzuführen.
Wir beginnen unsere Variablenexploration mit den kategorischen Variablen des Sterns.
Kategoriale Variablen erforschen
Erinnere dich daran, dass wir Qualitäten und nicht Quantitäten mit kategorialen Variablen messen, so dass es z.B. keinen aussagekräftigen Durchschnitt, kein Minimum oder Maximum gibt. Wir können diese Daten trotzdem analysieren, indem wir die Häufigkeiten zählen. Das können wir in Excel mit PivotTables machen. Platziere deinen Cursor an einer beliebigen Stelle im Sterndatensatz und wähle Einfügen → PivotTable, wie in Abbildung 1-5. Klicke auf OK.
Ich möchte herausfinden, wie viele Beobachtungen von jeder Klassenart stammen. Dazu ziehe ich classk in den Bereich Rows der PivotTable und id in den Bereich Values. Standardmäßig nimmt Excel die Summe aus dem Feld id. Es hat den Fehler gemacht, eine kategoriale Variable als quantitativ anzusehen. Wir können ID-Nummern nicht quantitativ vergleichen, aber wir können ihre Häufigkeit zählen. Um dies unter Windows zu tun, klicke im Bereich Werte auf "Summe der ID" und wähle "Wertfeldeinstellungen". Wähle unter "Wertfeld zusammenfassen nach" die Option "Zählen". Klicke auf OK. Auf dem Mac klickst du dazu auf das i-Symbol neben "Summe der ID". Jetzt haben wir, was wir wollen: die Anzahl der Beobachtungen für jede Klassenart. Diese Tabelle ist unter als einseitige Häufigkeitstabelle bekannt und wird in Abbildung 1-6 dargestellt.
Unterteilen wir diese Häufigkeitsauszählung in Beobachtungen von Schülern, die am kostenlosen Mittagessen teilgenommen haben, und solche, die nicht daran teilgenommen haben. Dazu fügst dufreelunk in den Spaltenbereich der PivotTable ein. Wir haben jetzt einezweiseitige Häufigkeitstabelle, wie in Abbildung 1-7.
Im Laufe dieses Buches werden wir als Teil unserer Analyse Visualisierungen erstellen. Bei all den anderen Themen, die wir behandeln müssen, werden wir nicht allzu viel Zeit auf die Prinzipien und Techniken der Datenvisualisierung verwenden. Es lohnt sich jedoch, sich mit diesem Thema zu befassen; eine hilfreiche Einführung findest du unter in Claus O. Wilkes Fundamentals of Data Visualization (O'Reilly).
Wir können eine ein- oder zweiseitige Häufigkeitstabelle mit einem Balkendiagramm (auch bekannt als Barplot oder Countplot) visualisieren. Wir stellen unsere zweiseitige Häufigkeitstabelle dar, indem wir in die PivotTable klicken und auf Einfügen → Geclusterte Spalte klicken. Abbildung 1-8 zeigt das Ergebnis. Ich füge dem Diagramm einen Titel hinzu, indem ich auf den Rand des Diagramms klicke und dann auf das Pluszeichen, das oben rechts erscheint. Im Menü Diagrammelemente, das erscheint, wählst du den Diagrammtitel aus. Auf dem Mac findest du dieses Menü, indem du auf das Diagramm klickst und in der Multifunktionsleiste auf Design → Diagrammelement hinzufügen gehst. Ich werde in diesem Buch noch einige Male Diagramme auf diese Weise hinzufügen.
Beachte, dass die Zählung und die Tabelle die Anzahl der Beobachtungen nach Klassentyp in Schüler mit und ohne kostenloses Mittagessen unterteilt haben. Zum Beispiel zeigen 1.051 und 949 die erste und zweite Beschriftung und Balken in der Tabelle bzw. im Zähldiagramm an.
Selbst bei einer so einfachen Analyse wie einer zweiseitigen Häufigkeitstabelle ist es keine schlechte Idee, die Ergebnisse zu visualisieren. Menschen können Linien und Balken in einem Diagramm viel leichter verarbeiten als Zahlen in einer Tabelle. Wenn unsere Analyse also immer komplexer wird, sollten wir die Ergebnisse weiterhin auf darstellen.
Bei kategorialen Daten können wir keine quantitativen Vergleiche anstellen, daher basiert jede Analyse auf der Anzahl der Werte. Das mag uninteressant erscheinen, ist aber dennoch wichtig: Es zeigt uns, welche Werte am häufigsten vorkommen, und wir können diese Werte mit anderen Variablen für weitere Analysen vergleichen. Aber jetzt wollen wir uns erst einmal mit den quantitativen Variablen beschäftigen.
Quantitative Variablen erforschen
Hier führen wir eine umfangreichere Auswahl an zusammenfassenden oder deskriptiven Statistiken durch. Deskriptive Statistiken ermöglichen es dir, Datensätze mit quantitativen Methoden zusammenzufassen. Häufigkeiten sind eine Art der deskriptiven Statistik; wir werden uns einige andere ansehen und zeigen, wie man sie in Excel berechnet.
Maße der zentralen Tendenz gehören zu den deskriptiven Statistiken, die ausdrücken, welchen Wert oder welche Werte eine typische Beobachtung annimmt. Wir werden die drei gängigsten dieser Maße behandeln.
Erstens, der Mittelwert oder Durchschnitt. Genauer gesagt, das arithmetische Mittel. Es wird berechnet, indem alle Beobachtungen addiert und durch die Gesamtzahl der Beobachtungen geteilt werden. Von allen statistischen Kennzahlen, die wir behandelt haben, ist dir diese wahrscheinlich am geläufigsten und wir werden uns weiterhin auf sie beziehen.
Als Nächstes: der Median. Das ist die Beobachtung, die in der Mitte unseres Datensatzes liegt. Um den Median zu berechnen, sortierst du die Daten von niedrig nach hoch und zählst dann die Daten von beiden Seiten, um die Mitte zu finden. Wenn zwei Werte in der Mitte liegen, nimm den Durchschnitt, um den Median zu ermitteln.
Schließlich der Modus: der am häufigsten vorkommende Wert. Es ist auch hilfreich, die Daten zu sortieren, um den Modus zu finden. Eine Variable kann einen, viele oder gar keinen Modus haben.
Excel verfügt über eine Vielzahl von statistischen Funktionen, darunter auch einige zur Berechnung von Maßen der zentralen Tendenz, die in Tabelle 1-3 aufgeführt sind.
Statistik | Excel-Funktion |
---|---|
Mittlere |
|
Median |
|
Modus |
|
MODE.MULT()
ist eine neue Funktion in Excel, die die Leistungsfähigkeit dynamischer Arrays nutzt, um mehrere mögliche Modi zurückzugeben. Wenn du keinen Zugriff auf diese Funktion hast, versuche es mit MODE()
. Benutze diese Funktionen, um die Maße der zentralen Tendenz für unseretmathssk-Werte zu ermitteln. Abbildung 1-9 zeigt die Ergebnisse.
Aus dieser Analyse geht hervor, dass unsere drei Maße der zentralen Tendenz recht ähnliche Werte haben: den Mittelwert von 485,6, den Median von 484 und den Modus von 489. Ich habe auch herausgefunden, wie oft der Modus vorkommt: 277 Mal.
Welches dieser Maße für die zentrale Tendenz ist das richtige, um sich darauf zu konzentrieren? Ich werde diese Frage mit einer kurzen Fallstudie beantworten. Stell dir vor, du bist Berater bei einer gemeinnützigen Organisation. Du wurdest gebeten, dir die Spenden anzusehen und zu empfehlen, welches Maß der zentralen Tendenz du verfolgen solltest. Die Spenden sind in Tabelle 1-4 aufgeführt. Nimm dir einen Moment Zeit zum Rechnen und Entscheiden.
$10 |
$10 |
$25 |
$40 |
$120 |
Der Mittelwert scheint ein konventioneller Wert zu sein, aber sind die 41 $ wirklichrepräsentativ für unsere Daten? Bis auf eine Ausnahme lagen alle Einzelspenden unter diesem Wert; die Spende von 120 Dollar treibt diese Zahl in die Höhe. Das ist ein Nachteil des Mittelwerts: Extremwerte können ihn übermäßig beeinflussen.
Wir hätten dieses Problem nicht, wenn wir den Median verwenden würden: $25 ist vielleicht eine bessere Darstellung des "Mittelwerts" als $41. Das Problem bei diesem Maß ist, dass es den genauen Wert jeder Beobachtung nicht berücksichtigt: Wir "zählen" einfach in die Mitte der Variable herunter, ohne die relative Größe jeder Beobachtung zu berücksichtigen.
Bleibt noch der Modus , der nützliche Informationen liefert: Die häufigste Spende sind $10. Allerdings sind die 10 $ nicht repräsentativ für die Spenden insgesamt. Außerdem kann ein Datensatz, wie bereits erwähnt, mehrere Modi oder gar keinen haben, so dass dies kein sehr stabiles Maß ist.
Unsere Antwort an die gemeinnützige Organisation? Sie sollte sie alle verfolgen und auswerten. Jede Kennzahl fasst unsere Daten aus einer anderen Perspektive zusammen. Wie du in späteren Kapiteln sehen wirst, ist es jedoch am üblichsten, sich auf den Mittelwert zu konzentrieren, wenn man eine fortgeschrittene statistische Analyse durchführt.
Hinweis
Häufig werden wir mehrere Statistiken analysieren, um einen umfassenderen Blick auf denselben Datensatz zu erhalten. Kein Maß ist unbedingt besser als ein anderes.
Nachdem wir den "Mittelpunkt" der Variable ermittelt haben, wollen wir untersuchen, wie weit die Werte vom Mittelpunkt entfernt sind. Es gibt verschiedene Maßstäbe für die Variabilität; wir konzentrieren uns auf die gängigsten.
Erstens die Spanne, also die Differenz zwischen dem Höchst- und dem Mindestwert. Sie ist zwar einfach herzuleiten, aber sehr empfindlich auf Beobachtungen: Ein einziger Extremwert, und die Spanne kann irreführend sein, wenn es darum geht, wo die meisten Beobachtungen tatsächlich zu finden sind.
Als nächstes die Varianz. Das ist ein Maß dafür, wie weit die Beobachtungen vom Mittelwert abweichen. Die Berechnung ist etwas aufwendiger als das, was wir bisher behandelt haben. Unsere Schrittewerden sein:
-
Finde den Mittelwert unseres Datensatzes.
-
Ziehe den Mittelwert von jeder Beobachtung ab. Das ist die Abweichung.
-
Nimm die Summe der Quadrate aller Abweichungen.
-
Teile die Summe der Quadrate durch die Anzahl der Beobachtungen.
Das ist eine Menge, die man verstehen muss. Bei derart komplexen Vorgängen kann es hilfreich sein, die mathematische Notation zu verwenden. Ich weiß, dass sie gewöhnungsbedürftig und anfangs einschüchternd ist, aber betrachte die Alternative der vorherigen Liste. Ist das verständlicher? Mit der mathematischen Notation kann man genauer ausdrücken, was zu tun ist. Wir können zum Beispiel alle Schritte, die zur Ermittlung der Varianz nötig sind, in Gleichung 1-1 abdecken:
Gleichung 1-1. Formel zur Ermittlung der Varianz
ist unsere Varianz. sagt uns, dass wir jede Beobachtung subtrahieren müssen von dem Durchschnitt subtrahieren und diesen quadrieren. sagt uns, dass wir diese Ergebnisse addieren sollen. Schließlich wird dieses Ergebnis durch die Anzahl der Beobachtungen geteilt.
Ich werde in diesem Buch noch ein paar Mal die mathematische Notation verwenden, aber nur insofern, als sie eine effizientere Art ist, ein bestimmtes Konzept auszudrücken und zu verstehen, als alle Schritte diskursiv niederzuschreiben. Versuche die Varianz der Zahlen in Tabelle 1-5 zu berechnen.
3 |
5 |
2 |
6 |
3 |
2 |
Da die Ableitung dieser Statistik vergleichsweise komplex ist, werde ich Excel für die Berechnungen verwenden. Du wirst gleich erfahren, wie du die Varianz mit den integrierten Funktionen von Excel berechnen kannst. Abbildung 1-10 zeigt die Ergebnisse.
Du findest diese Ergebnisse auf dem Arbeitsblatt zur Variabilität in der Arbeitsmappe zu diesem Kapitel, ch-1.xlsx.
Du fragst dich vielleicht, warum wir mit dem Quadrat der Abweichungen arbeiten. Umdas zu verstehen, nimmst du die Summe der nicht quadrierten Abweichungen. Sie ist gleich Null: Die Abweichungen heben sichgegenseitig auf.
Das Problem mit der Varianz ist, dass wir jetzt in Form von quadrierten Abweichungen von der ursprünglichen Einheit arbeiten. Das ist keine intuitive Art, Daten zu analysieren. Um das zu korrigieren, nehmen wir die Quadratwurzel der Varianz, die so genannte Standardabweichung. Die Variabilität wird nun in Bezug auf die ursprüngliche Maßeinheit, den Mittelwert, ausgedrückt. Gleichung 1-2 zeigt die Standardabweichung in mathematischer Schreibweise.
Gleichung 1-2. Formel zur Ermittlung der Standardabweichung
Mit dieser Formel beträgt die Standardabweichung von Abbildung 1-10 1,5 (die Quadratwurzel aus 2,25). Unter kannst du diese Variabilitätsmaße in Excel mit den Funktionen in Tabelle 1-6 berechnen. Beachte, dass für die Varianz und Standardabweichungder Stichprobe und der Grundgesamtheit unterschiedliche Funktionen verwendet werden. Das Stichprobenmaß verwendet und nicht im Nenner, was zu einer größeren Varianz und Standardabweichung führt.
Statistik | Excel-Funktion |
---|---|
Reichweite |
|
Abweichung (Stichprobe) |
|
Standardabweichung (Stichprobe) |
|
Abweichung (Bevölkerung) |
|
Standardabweichung (Bevölkerung) |
|
Die Unterscheidung zwischen der Stichprobe und der Grundgesamtheit wird ein zentrales Thema in späteren Kapiteln sein. Wenn du dir nicht sicher bist, ob du alle Daten gesammelt hast, an denen du interessiert bist, kannst du die Stichprobenfunktionen verwenden. Wie du jetzt siehst, gibt es mehrere deskriptive Statistiken, auf die du achten solltest. Wir können die Berechnung dieser Statistiken mit den Excel-Funktionen beschleunigen, aber wir können auch das Data Analysis ToolPak verwenden, um mit wenigen Klicks eine ganze Reihe von deskriptiven Statistiken zu erstellen.
Tipp
Einige statistische Kennzahlen unterscheiden sich, wenn sie für eine Grundgesamtheit oder eine Stichprobe berechnet werden. Wenn du dir nicht sicher bist, womit du arbeitest, nimm die Stichprobe.
Dieses Add-in wird mit Excel installiert, aber du musst es zuerst laden. Unter Windows wählst du in der Multifunktionsleiste Datei → Optionen > Add-ins. Klicke dann ganz unten im Menü auf Gehe zu. Wähle Analysis ToolPak aus dem Menü und klicke dann auf OK. Es ist nicht notwendig, die Option Analysis ToolPak-VBA zu wählen. Auf dem Mac wählst du in der Menüleiste Daten → Analysetools. Wähle Analysis ToolPak aus dem Menü und klicke dann auf OK. Möglicherweise musst du Excel neu starten, um die Konfiguration abzuschließen. Danach siehst du eine neue Schaltfläche Datenanalyse auf der Registerkarte Daten.
In Tabelle 1-1, haben wir festgestellt, dass tmathssk und treadssk kontinuierliche Variablen sind. Berechnen wir ihre deskriptiven Statistiken mit dem ToolPak. Wähle im Menüband Daten → Datenanalyse → Deskriptive Statistik. Es erscheint ein Menü; wähle den Eingabebereich B1:C5749
aus. Achte darauf, die Kontrollkästchen für "Beschriftungen in der ersten Zeile" und "Zusammenfassende Statistiken" zu aktivieren. Dein Menü sollte wie in Abbildung 1-11 aussehen. Du kannst die anderen Einstellungen so lassen, wie sie sind, und auf OK klicken.
Dadurch wird die deskriptive Statistik für diese beiden Variablen in ein neues Arbeitsblatt eingefügt, wie in Abbildung 1-12.
Schauen wir uns nun an, um beschreibende Statistiken für jede Ebene einer kategorialen Variable zu finden, damit wir sie mit anderen Gruppen vergleichen können. Dazu fügst du eine neue PivotTable auf der Grundlage der Sterndaten in ein neues Arbeitsblatt ein. Setze freelunkin den Bereich Spalten, id in die Zeilen und die Summe der Stufen in den Bereich Werte. Erinnere dich daran, dass das Feld id ein eindeutiger Bezeichner ist, also sollten wir es in der PivotTable nicht summieren, auch wenn das Programm das denkt.
Für diese und alle weiteren PivotTable-Operationen, die wir durchführen werden, ist es am besten, alle Gesamtsummen zu deaktivieren, indem du in die Tabelle klickst und Design → Gesamtsummen → Aus für Zeilen und Spalten wählst. Auf diese Weise werden die Gesamtsummen nicht versehentlich in die Analyse einbezogen. Du kannst nun das ToolPak verwenden, um beschreibende Statistiken einzufügen. Abbildung 1-13 zeigt das Ergebnis.
Die meisten dieser Maßnahmen kennst du bereits; auf den Rest wird in diesem Buch später eingegangen. Es mag den Anschein erwecken, dass all die Informationen, die das ToolPak bereitstellt, eine Visualisierung der Daten überflüssig machen. Tatsächlich spielen Visualisierungen immer noch eine unverzichtbare Rolle in der EDA. Insbesondere werden wir sie nutzen, um uns über die Verteilung der Beobachtungen über den gesamten Wertebereich einer Variablen zu informieren.
Zuerst schauen wir uns Histogramme an. Mit diesen Diagrammen können wir die relative Häufigkeit von Beobachtungen nach Intervallen visualisieren. Um ein Histogramm von treadssk in Excel zu erstellen, wählst du diesen Datenbereich aus, gehst zum Menüband und wählst Einfügen → Histogramm. Abbildung 1-14 zeigt das Ergebnis.
Aus Abbildung 1-14 geht hervor, dass das am häufigsten vorkommende Intervall zwischen 426,6 und 432,8 liegt und etwa 650 Beobachtungen in diesen Bereich fallen. Keines unserer tatsächlichen Testergebnisse enthält Dezimalzahlen, aber unsere X-Achse kann sie enthalten, je nachdem, wie Excel die Intervalle, oder Bins, festlegt. Wir können die Anzahl der Bins ändern, indem wir mit der rechten Maustaste auf die x-Achse des Diagramms klicken und Achse formatieren auswählen. Auf der rechten Seite erscheint ein Menü. (Diese Funktionen sind für Mac nicht verfügbar.)
Standardmäßig hat sich Excel für 51 Bins entschieden, aber was wäre, wenn wir diese Zahl (ungefähr) halbieren und verdoppeln, also 25 bzw. 100? Passe die Zahlen im Menü an; Abbildung 1-15 zeigt die Ergebnisse. Ich stelle mir das so vor, dass wir die Details der Verteilung "heran- und herauszoomen".
Wenn wir die Verteilung als Histogramm darstellen, können wir schnell erkennen, dass es eine beträchtliche Anzahl von Testergebnissen ganz rechts in der Verteilung gibt, aber dass die meisten Testergebnisse überwiegend im Bereich von 400-500 liegen.
Was wäre, wenn wir sehen wollten, wie die Verteilung der Leseergebnisse in den drei Klassengrößen variiert? Hier vergleichen wir eine kontinuierliche Variable mit drei Stufen einer kategorialen Variable. Um ein Histogramm in Excel zu erstellen, müssen wir ein wenig "hacken", aber wir können uns auf PivotTables stützen, um die Aufgabe zu erledigen.
Füge eine neue PivotTable ein, die auf dem Sterndatensatz basiert, und ziehe danntreadssk in den Zeilenbereich, classk in den Spaltenbereich und "Count of id" in den Wertebereich. Auch hier wird die spätere Analyse einfacher, wenn wir die Summen aus der PivotTable entfernen.
Nun wollen wir aus diesen Daten ein Diagramm erstellen. Klicke auf eine beliebige Stelle in deiner PivotTable und wähle im Menüband Einfügen → Geclusterte Spalte. Das Ergebnis, das in Abbildung 1-16 zu sehen ist, ist extrem schwer zu lesen, aber vergleiche es mit der Ausgangs-PivotTable: Sie sagt uns, dass von den Schülern mit einer Punktzahl von 380 10 in regulären Klassen, 2 in regulären Klassen mit Hilfskräften und 2 in kleinen Klassen waren.
Nun geht es darum, diese Werte zu größeren Intervallen zusammenzufassen. Klicke dazu mit der rechten Maustaste auf eine beliebige Stelle in der ersten Spalte deiner PivotTable und wähle Gruppieren. Excel gruppiert standardmäßig in 100er-Schritten; ändere dies auf 25.
Es zeichnet sich ein erkennbares Histogramm ab. Lass uns das Diagramm neu formatieren, damit es noch mehr wie ein Histogramm aussieht. Klicke mit der rechten Maustaste auf einen der Balken im Diagramm und wähle Datenreihe formatieren. Du stellst die Serienüberlappung auf 75% und die Lückenbreite auf 0%. Abbildung 1-17 zeigt das Ergebnis.
Wir könnten die Lückenbreiten so einstellen, dass sie sich vollständig überschneiden, aber dann wird es noch schwieriger, die reguläre Klassengrößenverteilung zu erkennen. Histogramme sind ein beliebtes Mittel, um die Verteilung einer kontinuierlichen Variable zu visualisieren, aber sie können schnell unübersichtlich werden.
Als Alternative können wir uns Boxplots ansehen. Hier stellen wir unsere Verteilung in Form vonQuartilen dar. Der Mittelpunkt des Boxplots ist ein Maß, das du kennst: der Median.
Als "Mitte" unseres Datensatzes kann man sich den Median auch als das zweite Quartil vorstellen. Wir können das erste und das dritte Quartil finden, indem wir unseren Datensatz gleichmäßig in Quadranten unterteilen und deren Mittelpunkte finden. In Abbildung 1-18 sind diese verschiedenen Elemente eines Boxplots dargestellt.
Der Teil der resultierenden Grafik, der sich in der "Box" befindet, wird alsInterquartilsbereich bezeichnet. Dieser Bereich wird als Grundlage für die Ableitung der anderen Teile des Diagramms verwendet. Der verbleibende Bereich von , der innerhalb des 1,5-fachen des Interquartilsbereichs liegt, wird durch zwei Linien oder "Whisker" dargestellt. In Excel wird diese Art von Diagramm als Box & Whisker bezeichnet.
Beobachtungen , die nicht in diesem Bereich liegen, werden als einzelne Punkte auf dem Diagramm angezeigt. Diese werden alsAusreißer bezeichnet. Der Boxplot ist zwar komplexer als das Histogramm, aber zum Glück übernimmt Excel die gesamte Vorbereitung für uns. Kehren wir zu unserem Beispiel mit den Tretminen zurück. Markiere diesen Bereich und wähle dann im Menüband Einfügen → Box & Whisker.
In Abbildung 1-19 sehen wir, dass unser Interquartilsbereich zwischen 415 und 450 liegt und dass es mehrere Ausreißer gibt, vor allem auf der hohen Seite. Wir haben ähnliche Muster bei den Daten aus dem Histogramm festgestellt, obwohl wir eine visuellere Perspektive auf die gesamte Verteilung hatten und in der Lage waren, auf verschiedenen Ebenen mit unterschiedlichen Bin-Breiten zu untersuchen. Genau wie bei der deskriptiven Statistik bietet jede Visualisierung eine einzigartige Perspektive auf die Daten; keine ist von Natur aus besser als die andere.
Ein Vorteil des Boxplots ist, dass er uns genaue Informationen darüber gibt, wo sich die Quartile unserer Daten befinden und welche Beobachtungen als Ausreißer gelten. Ein weiterer Vorteil ist, dass es einfacher sein kann, Verteilungen über mehrere Gruppen hinweg zu vergleichen. Um in Excel Boxplots für mehrere Gruppen zu erstellen, ist es am einfachsten, die kategoriale Variable direkt links neben der kontinuierlichen Variable zu platzieren. Verschiebe also classk in deiner Datenquelle nach links neben treadssk. Wenn du diese Daten ausgewählt hast, klicke im Menüband auf Einfügen → Box & Whisker. In Abbildung 1-20 sehen wir, dass die allgemeine Verteilung der Punktzahlen in den drei Gruppen von ähnlich aussieht.
Zusammenfassend lässt sich sagen, dass wir bei der Arbeit mit quantitativen Daten ( ) viel mehr tun können als nurHäufigkeiten zu zählen:
-
Wir können mit Hilfe der zentralen Tendenz bestimmen, um welche(n) Wert(e) die Daten zentriert sind.
-
Mit Hilfe vonVariabilitätsmaßen können wir feststellen, wie relativ breit gestreut die Daten sind.
-
Wir können die Verteilung dieser Daten mithilfe von Histogrammen und Boxplots visualisieren.
Es gibt andere deskriptive Statistiken und andere Visualisierungen, mit denen du quantitative Variablen untersuchen kannst. Einige davon wirst du später in diesem Buch kennenlernen. Aber dies ist ein guter Anfang mit den wichtigsten Fragen, die du deinen Daten während der EDA stellen solltest.
Fazit
Wir wissen zwar nie, was wir in einem neuen Datensatz finden werden, aber der EDA-Rahmen gibt uns ein gutes Verfahren an die Hand, um ihn zu verstehen. Wir wissen jetzt, mit welcher Art von Variablen wir in star arbeiten und wie ihre Beobachtungen insgesamt aussehen und sich verhalten: ein ziemlich tiefgehendes Interview. In Kapitel 3 werden wir auf dieser Arbeit aufbauen, indem wir lernen, wie wir die Erkenntnisse, die wir über die Daten gewonnen haben, durch die Erkundung der Daten bestätigen können. Zuvor werden wir in Kapitel 2 einen Blick auf die Wahrscheinlichkeitsrechnung werfen, die einen Großteil des Treibstoffs für die Analysemaschine liefert.
Übungen
Übe deine EDA-Kenntnisse mit dem Housing-Datensatz, den du im Repository des Buches unter datasets → housing → housing.xlsx findest. Dies ist ein realer Datensatz, der die Verkaufspreise von Häusern in der Stadt Windsor, Ontario, Kanada, enthält. Eine Beschreibung der Variablen findest du auf dem Readme-Arbeitsblattder Datei. Fülle das Folgende aus und zögere nicht, auch deine eigene EDA zu vervollständigen:
-
Klassifiziere den Typ jeder Variable.
-
Erstelle eine zweiseitige Frequenztabelle von airco und prefarea.
-
Gib eine deskriptive Statistik für den Preis zurück.
-
Visualisiere die Verteilung der Losgröße.
Die Lösungen zu diesen und allen anderen Übungen im Buch findest du im Ordner exercise-solutions in der Buchablage. Für jedes Kapitel gibt es eine Datei mit dem Namen .
Get Vorstoß in die Analytik now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.