Kapitel 1. Software für die Modellierung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Modelle sind mathematische Hilfsmittel, die ein System beschreiben und Beziehungen in den Daten erfassen können, die ihnen zur Verfügung gestellt werden. Modelle können für verschiedene Zwecke eingesetzt werden, z. B. zur Vorhersage zukünftiger Ereignisse, zur Feststellung von Unterschieden zwischen verschiedenen Gruppen, zur kartenbasierten Visualisierung, zur Entdeckung neuer Muster in den Daten, die weiter untersucht werden können, und vieles mehr. Der Nutzen eines Modells hängt von seiner Fähigkeit ab, komplexe Zusammenhänge auf einfachere Begriffe zu reduzieren. Die Haupteinflüsse in den Daten können auf sinnvolle Weise mathematisch erfasst werden, z. B. in einer Beziehung, die sich in einer Gleichung ausdrücken lässt.

Seit Beginn des 21. Jahrhunderts sind mathematische Modelle in unserem täglichen Leben allgegenwärtig, sowohl auf offensichtliche als auch auf subtile Weise. Ein typischer Tag sieht für viele Menschen so aus, dass sie nach dem Wetter schauen, um herauszufinden, wann ein guter Zeitpunkt für einen Spaziergang mit dem Hund ist, dass sie ein Produkt auf einer Website bestellen, dass sie eine Textnachricht an einen Freund schreiben, die automatisch korrigiert wird, und dass sie ihre E-Mails abrufen. In jedem dieser Fälle ist die Wahrscheinlichkeit groß, dass eine Art von Modell beteiligt war. In einigen Fällen ist der Beitrag des Modells leicht zu erkennen ("Du könntest auch am Kauf von Produkt Xinteressiert sein"), in anderen Fällen könnte die Auswirkung das Fehlen von etwas sein (z. B. Spam-Mails). Modelle werden verwendet, um Kleidung auszuwählen, die einem Kunden gefallen könnte, um ein Molekül zu identifizieren, das als Medikamentenkandidat geprüft werden sollte, und sie können sogar der Mechanismus sein, den ein ruchloses Unternehmen nutzt, um die Entdeckung von Autos mit zu hohem Schadstoffausstoß zu verhindern. Wie auch immer, Modelle werden bleiben.

Hinweis

Es gibt zwei Gründe, warum Modelle unser Leben heute durchdringen:

  • Es gibt eine Fülle von Software zur Erstellung von Modellen

  • Es ist einfacher geworden, Daten zu erfassen und zu speichern sowie sie zugänglich zu machen

In diesem Buch geht es hauptsächlich um Software. Natürlich ist es wichtig, dass die Software die richtigen Beziehungen herstellt, um die Daten darzustellen. In den meisten Fällen ist es möglich, die mathematische Korrektheit zu bestimmen, aber die zuverlässige Erstellung geeigneter Modelle erfordert mehr. In diesem Kapitel erläutern wir, welche Überlegungen bei der Erstellung oder Auswahl von Modellierungssoftware angestellt werden müssen, welchen Zweck die Modelle erfüllen und wo die Modellierung im Rahmen der Datenanalyse angesiedelt ist.

Grundlagen für Modellierungssoftware

Es ist wichtig, dass die Modellierungssoftware, die du verwendest, einfach und richtig zu bedienen ist. Die Benutzeroberfläche sollte nicht so schlecht gestaltet sein, dass der Benutzer nicht merkt, dass er sie nicht richtig benutzt. Baggerly und Coombes (2009) berichten zum Beispiel von unzähligen Problemen bei der Datenanalyse einer hochkarätigen Veröffentlichung im Bereich der Computerbiologie. Eines der Probleme hing damit zusammen, wie die Benutzer die Namen der Modelleingaben hinzufügen mussten. Die Benutzeroberfläche der Software machte es leicht, die Spaltennamen der Daten mit den tatsächlichen Datenspalten zu verwechseln. Dies führte dazu, dass die falschen Gene als wichtig für die Behandlung von Krebspatienten identifiziert wurden und trug schließlich zum Abbruch mehrerer klinischer Studien bei (Carlson 2012).

Wenn wir qualitativ hochwertige Modelle brauchen, muss die Software die richtige Nutzung erleichtern. Abrams (2003) beschreibt ein interessantes Prinzip, das uns helfen kann:

Die Grube des Erfolgs: Im Gegensatz zu einem Gipfel, einer Spitze oder einer Reise durch eine Wüste, bei der man durch viele Prüfungen und Überraschungen den Sieg erringen muss, wollen wir, dass unsere Kunden durch die Nutzung unserer Plattform und unserer Frameworks einfach in die Gewinnzone fallen.

Datenanalyse- und Modellierungssoftware sollte diese Idee unterstützen.

Zweitens sollte die Modellierungssoftware eine gute wissenschaftliche Methodik fördern. Bei der Arbeit mit komplexen Vorhersagemodellen kann es leicht passieren, dass man unbewusst Fehler macht, die mit logischen Fehlern oder unangemessenen Annahmen zu tun haben. Viele maschinelle Lernmodelle sind so geschickt darin, Muster zu entdecken, dass sie mühelos empirische Muster in den Daten finden, die später fehlschlagen. Einige dieser methodischen Fehler sind insofern heimtückisch, als sie unentdeckt bleiben können, bis später neue Daten vorliegen, die das wahre Ergebnis enthalten.

Warnung

Da unsere Modelle immer leistungsfähiger und komplexer geworden sind, ist es auch einfacher geworden, latente Fehler zu machen.

Das gleiche Prinzip gilt auch für die Programmierung. Wann immer möglich, sollte die Software die Nutzer/innen davor schützen, Fehler zu machen. Die Software sollte es den Nutzern leicht machen, das Richtige zu tun.

Diese beiden Aspekte der Modellentwicklung - einfache Anwendung und gute methodische Praxis - sind entscheidend. Da die Werkzeuge zur Erstellung von Modellen leicht zugänglich sind und Modelle eine so tiefgreifende Wirkung haben können, erstellen immer mehr Menschen Modelle. Die technischen Kenntnisse und die Ausbildung der Modellentwickler/innen sind unterschiedlich. Es ist wichtig, dass die Werkzeuge den Erfahrungen der Nutzer/innen gerecht werden. Sie sollten leistungsfähig genug sein, um leistungsstarke Modelle zu erstellen, andererseits aber auch einfach zu bedienen sein. Dieses Buch beschreibt eine Software-Suite für die Modellierung, die unter Berücksichtigung dieser Eigenschaften entwickelt wurde.

Die Software basiert auf der Programmiersprache R (R Core Team 2014). R wurde speziell für die Datenanalyse und -modellierung entwickelt. Es ist eine Implementierung der Sprache S (mit lexikalischen Scoping-Regeln, die von Scheme und Lisp übernommen wurden), die in den 1970er Jahren entwickelt wurde, um "Ideen schnell und getreu in Software umzusetzen" (Chambers 1998). R ist quelloffen und kostenlos. Es ist eine leistungsstarke Programmiersprache, die für viele verschiedene Zwecke eingesetzt werden kann, aber auf Datenanalyse, Modellierung, Visualisierung und maschinelles Lernen spezialisiert ist. R ist leicht erweiterbar und verfügt über ein umfangreiches Ökosystem von Paketen, die meist von Nutzern zur Verfügung gestellt werden und sich auf ein bestimmtes Thema konzentrieren, z. B. Modellierung, Visualisierung usw.

Eine Sammlung von Paketen wird tidyverse genannt (Wickham et al. 2019). Das tidyverse ist eine Sammlung von R-Paketen, die für die Datenwissenschaft entwickelt wurden. Alle Pakete haben eine gemeinsame Designphilosophie, Grammatik und Datenstrukturen. Einige dieser Designphilosophien sind direkt von den in diesem Kapitel beschriebenen Aspekten der Software für die Modellierung beeinflusst. Wenn du die tidyverse-Pakete noch nie benutzt hast, findest du in Kapitel 2 einen Überblick über die grundlegenden Konzepte. Innerhalb von tidyverse werden die Pakete, die sich speziell auf die Modellierung konzentrieren, als tidymodels-Pakete bezeichnet. Dieses Buch ist ein praktischer Leitfaden für die Modellierung mit den Paketen tidyverse und tidymodels. Es zeigt, wie man eine Reihe von Paketen, von denen jedes seinen eigenen Zweck erfüllt, zusammen verwendet, um hochwertige Modelle zu erstellen.

Arten von Modellen

Bevor wir fortfahren, wollen wir eine Taxonomie der Modelltypen, gruppiert nach ihrem Zweck, beschreiben. Diese Taxonomie gibt Aufschluss darüber, wie ein Modell verwendet wird und wie es erstellt oder bewertet werden kann. Auch wenn diese Liste nicht vollständig ist, fallen die meisten Modelle in mindestens eine der folgenden Kategorien: beschreibend, ableitend oder prädiktiv.

Beschreibende Modelle

Der Zweck eines deskriptiven Modells ist es, Merkmale bestimmter Daten zu beschreiben oder zu veranschaulichen. Die Analyse kann keinen anderen Zweck haben, als einen Trend oder ein Artefakt in den Daten visuell hervorzuheben.

Zum Beispiel sind groß angelegte Messungen von RNA schon seit einiger Zeit mit Microarrays möglich. Frühe Labormethoden platzierten eine biologische Probe auf einem kleinen Mikrochip. An sehr kleinen Stellen des Chips kann ein Signal gemessen werden, das auf der Häufigkeit einer bestimmten RNA-Sequenz basiert. Der Chip würde Tausende von Ergebnissen (oder mehr) enthalten, jedes eine Quantifizierung der RNA, die mit einem biologischen Prozess zusammenhängt. Es könnte jedoch Qualitätsprobleme auf dem Chip geben, die zu schlechten Ergebnissen führen könnten. Zum Beispiel könnte ein Fingerabdruck, der versehentlich auf einem Teil des Chips hinterlassen wurde, beim Scannen zu ungenauen Messungen führen.

Eine frühe Methode zur Bewertung solcher Probleme waren Modelle auf Sondenebene (probe-level models, PLMs) (Bolstad 2004). Es wurde ein statistisches Modell erstellt, das die bekannten Unterschiede in den Daten berücksichtigte, wie z. B. den Chip, die RNA-Sequenz, die Art der Sequenz und so weiter. Wenn es andere, unbekannte Faktoren in den Daten gab, wurden diese Effekte in den Modellresiduen erfasst. Wenn die Residuen nach ihrer Position auf dem Chip aufgetragen werden, zeigt ein Chip von guter Qualität keine Muster. Wenn doch ein Problem auftrat, war eine Art räumliches Muster zu erkennen. Oft lässt die Art des Musters auf das zugrunde liegende Problem (z. B. einen Fingerabdruck) und eine mögliche Lösung schließen (Chip abwischen und erneut scannen, Probe wiederholen usw.). Abbildung 1-1(a) zeigt eine Anwendung dieser Methode für zwei Microarrays aus Gentleman et al. (2005). Die Bilder zeigen zwei unterschiedliche Farbwerte; die dunkleren Bereiche zeigen an, dass die Signalintensität größer war als vom Modell erwartet, während die helleren Bereiche niedrigere Werte als erwartet anzeigen. Das linke Feld zeigt ein ziemlich zufälliges Muster, während das rechte Feld ein unerwünschtes Artefakt in der Mitte des Chips aufweist.

Ein weiteres Beispiel für ein deskriptives Modell ist das lokal geschätzte Scatterplot-Glättungsmodell, besser bekannt als LOESS (Cleveland 1979). Dabei wird ein geglättetes und flexibles Regressionsmodell an einen Datensatz angepasst, in der Regel mit einer einzigen unabhängigen Variable, und die angepasste Regressionsgerade wird verwendet, um einen Trend in den Daten zu erkennen. Diese Art von Glättung wird verwendet, um mögliche Wege zur Darstellung einer Variable in einem Modell zu finden. Dies wird in Abbildung 1-1(b) veranschaulicht, wo ein nichtlinearer Trend durch den flexiblen Glätter beleuchtet wird. Aus dieser Darstellung wird deutlich, dass es eine stark nichtlineare Beziehung zwischen dem Verkaufspreis eines Hauses und seiner geografischen Breite gibt.

tmwr 0101
Abbildung 1-1. Zwei Beispiele dafür, wie beschreibende Modelle verwendet werden können, um bestimmte Muster zu veranschaulichen.

Inferentielle Modelle

Das Ziel eines inferentiellen Modells ist es, eine Entscheidung für eine Forschungsfrage zu treffen oder eine bestimmte Hypothese zu untersuchen, ähnlich wie bei statistischen Tests.1 Ein schlussfolgerndes Modell beginnt mit einer vordefinierten Vermutung oder Idee über eine Population und führt zu einer statistischen Schlussfolgerung wie einer Intervallschätzung oder der Ablehnung einer Hypothese.

Das Ziel einer klinischen Studie könnte zum Beispiel darin bestehen, den Nachweis zu erbringen, dass eine neue Therapie besser zur Lebensverlängerung beiträgt als eine Alternative, wie eine bestehende Therapie oder gar keine Behandlung. Wenn sich der klinische Endpunkt auf das Überleben eines Patienten bezieht, könnte die Nullhypothese lauten, dass die neue Behandlung eine gleiche oder niedrigere mittlere Überlebenszeit hat, während die Alternativhypothese lautet, dass die neue Therapie eine höhere mittlere Überlebenszeit hat. Würde diese Studie mit Hilfe traditioneller Nullhypothesen-Signifikanztests durch Modellierung ausgewertet, würde der Signifikanztest einen p-Wert ergeben, der auf einer vordefinierten Methode basiert, die auf einer Reihe von Annahmen für die Daten beruht. Kleine Werte für die p-Werte in den Modellergebnissen würden darauf hinweisen, dass es Beweise dafür gibt, dass die neue Therapie den Patienten hilft, länger zu leben. Große Werte für die p-Werte in den Modellergebnissen würden darauf schließen, dass ein solcher Unterschied nicht nachgewiesen werden kann.

Was sind die wichtigsten Aspekte dieser Art von Analyse? Inferentielle Modellierungstechniken liefern in der Regel eine Art probabilistisches Ergebnis, wie z. B. einen p-Wert, ein Konfidenzintervall oder eine posteriore Wahrscheinlichkeit. Um eine solche Größe zu berechnen, müssen in der Regel formale probabilistische Annahmen über die Daten und die zugrunde liegenden Prozesse, die die Daten erzeugt haben, getroffen werden. Die Qualität der statistischen Modellierungsergebnisse hängt in hohem Maße von diesen vordefinierten Annahmen ab, aber auch davon, inwieweit die beobachteten Daten mit ihnen übereinzustimmen scheinen. Die wichtigsten Faktoren sind dabei theoretischer Natur: "Wenn meine Daten unabhängig sind und die Residuen der Verteilung X folgen, dann kann die Teststatistik Y verwendet werden, um einen p-Wert zu ermitteln. Andernfalls könnte der resultierende p-Wert ungenau sein."

Warnung

Ein Aspekt von schlussfolgernden Analysen ist, dass es in der Regel eine verzögerte Rückkopplungsschleife gibt, um zu verstehen, wie gut die Daten mit den Modellannahmen übereinstimmen. Wenn in unserem Beispiel der klinischen Studie die statistische (und klinische) Signifikanz darauf hindeutet, dass die neue Therapie den Patienten zur Verfügung gestellt werden sollte, kann es noch Jahre dauern, bis sie in der Praxis eingesetzt wird und genügend Daten vorliegen, um unabhängig zu beurteilen, ob die ursprüngliche statistische Analyse zur richtigen Entscheidung geführt hat.

Prädiktive Modelle

Manchmal werden Daten modelliert, um eine möglichst genaue Vorhersage für neue Daten zu erstellen. Dabei geht es in erster Linie darum, dass die vorhergesagten Werte so genau wie möglich mit dem wahren Wert der neuen Daten übereinstimmen.

Ein einfaches Beispiel wäre, wenn ein Bucheinkäufer vorhersagen würde, wie viele Exemplare eines bestimmten Buches im nächsten Monat an seinen Laden geliefert werden sollen. Eine überhöhte Vorhersage verschwendet Platz und Geld durch überzählige Bücher. Wenn die Vorhersage kleiner ist als sie sein sollte, gibt es einen Opportunitätsverlust und weniger Gewinn.

Bei dieser Art von Modell handelt es sich eher um ein Schätzproblem als um ein Schlussfolgerungsproblem. Den Käufer interessiert zum Beispiel normalerweise nicht die Frage: "Werde ich im nächsten Monat mehr als 100 Exemplare von Buch X verkaufen?", sondern eher: "Wie viele Exemplare von Buch X werden die Kunden im nächsten Monat kaufen?" Je nach Kontext ist man auch nicht daran interessiert, warum der vorhergesagte Wert X ist. Mit anderen Worten: Man interessiert sich mehr für den Wert selbst als für die Bewertung einer formalen Hypothese in Bezug auf die Daten. Die Vorhersage kann auch Maße für die Unsicherheit enthalten. Im Fall des Buchkäufers kann die Angabe eines Vorhersagefehlers hilfreich sein, um zu entscheiden, wie viele Bücher er kaufen soll. Er kann auch als Maß dafür dienen, wie gut die Vorhersagemethode funktioniert hat.

Was sind die wichtigsten Faktoren, die Vorhersagemodelle beeinflussen? Es gibt viele verschiedene Möglichkeiten, wie ein Vorhersagemodell erstellt werden kann. Die wichtigsten Faktoren hängen also davon ab, wie das Modell entwickelt wurde.2

Ein mechanistisches Modell kann aus den ersten Prinzipien abgeleitet werden, um eine Modellgleichung zu erstellen, die von Annahmen abhängt. Wenn man zum Beispiel die Menge eines Medikaments vorhersagt, die sich zu einem bestimmten Zeitpunkt im Körper einer Person befindet, werden einige formale Annahmen darüber getroffen, wie das Medikament verabreicht, absorbiert, verstoffwechselt und ausgeschieden wird. Auf dieser Grundlage wird eine Reihe von Differentialgleichungen verwendet, um eine bestimmte Modellgleichung abzuleiten. Anhand von Daten werden die unbekannten Parameter dieser Gleichung geschätzt, so dass Vorhersagen gemacht werden können. Wie Schlussfolgerungsmodelle hängen auch mechanistische Vorhersagemodelle stark von den Annahmen ab, die ihre Modellgleichungen definieren. Im Gegensatz zu schlussfolgernden Modellen ist es jedoch einfach, datengestützte Aussagen darüber zu treffen, wie gut das Modell funktioniert, je nachdem, wie gut es die vorhandenen Daten vorhersagt. Hier ist die Feedbackschleife für den Modellierer viel schneller als bei einem Hypothesentest.

Empirisch getriebene Modelle werden mit eher vagen Annahmen erstellt. Diese Modelle fallen eher in die Kategorie des maschinellen Lernens. Ein gutes Beispiel ist das K-Nächste-Nachbarn-Modell(KNN). Bei einem Satz von Referenzdaten wird eine neue Probe vorhergesagt, indem die Werte der K ähnlichsten Daten des Referenzsatzes verwendet werden. Wenn z. B. ein Buchkäufer eine Vorhersage für ein neues Buch benötigt, können historische Daten von bestehenden Büchern verfügbar sein. Ein 5-Nächste-Nachbarn-Modell würde die Anzahl der neu zu kaufenden Bücher auf der Grundlage der Verkaufszahlen der fünf Bücher schätzen, die dem neuen Buch am ähnlichsten sind (bei einer bestimmten Definition von "ähnlich"). Dieses Modell wird nur durch die Struktur der Vorhersage definiert (der Durchschnitt von fünf ähnlichen Büchern). Es werden keine theoretischen oder probabilistischen Annahmen über die Verkaufszahlen oder die Variablen getroffen, die zur Definition der Ähnlichkeit verwendet werden. Die wichtigste Methode, um die Angemessenheit des Modells zu bewerten, besteht darin, seine Genauigkeit anhand vorhandener Daten zu beurteilen. Wenn die Struktur eines solchen Modells eine gute Wahl wäre, würden die Vorhersagen nahe an den tatsächlichen Werten liegen.

Verbindungen zwischen Modelltypen

Hinweis

Beachte, dass wir die Art eines Modells durch seine Verwendung und nicht durch seine mathematischen Eigenschaften definiert haben.

Ein gewöhnliches lineares Regressionsmodell kann in eine dieser drei Klassen von Modellen fallen, je nachdem, wie es verwendet wird:

  • Eine deskriptive Glättungsmethode, ähnlich wie LOESS, genannt " Restricted Smoothing Splines" (Durrleman und Simon 1989), kann verwendet werden, um Trends in Daten mit Hilfe einer gewöhnlichen linearen Regression mit speziellen Termen zu beschreiben.

  • Ein Varianzanalysemodell (ANOVA) ist eine beliebte Methode, um die p-Werte zu ermitteln, die für Schlussfolgerungen verwendet werden. ANOVA-Modelle sind ein Spezialfall der linearen Regression.

  • Wenn ein einfaches lineares Regressionsmodell genaue Vorhersagen liefert, kann es als Vorhersagemodell verwendet werden.

Es gibt viele Beispiele für Vorhersagemodelle, die nicht für Schlussfolgerungen verwendet werden können (oder zumindest nicht sollten). Selbst wenn für die Daten probabilistische Annahmen getroffen würden, macht die Art des K-Nächste-Nachbarn-Modells beispielsweise die für die Schlussfolgerung erforderliche Mathematik unpraktikabel.

Es gibt eine weitere Verbindung zwischen den Modelltypen. Auch wenn der Hauptzweck von deskriptiven und schlussfolgernden Modellen nicht mit der Vorhersage zusammenhängt, sollte die Vorhersagefähigkeit des Modells nicht außer Acht gelassen werden. Die logistische Regression ist zum Beispiel ein beliebtes Modell für Daten, bei denen das Ergebnis qualitativ ist und zwei mögliche Werte hat. Es kann modellieren, wie die Variablen mit der Wahrscheinlichkeit des Ergebnisses zusammenhängen. Bei der Anwendung von Schlussfolgerungen wird den statistischen Eigenschaften des Modells viel Aufmerksamkeit geschenkt. Analysten neigen zum Beispiel dazu, sich stark auf die Auswahl der im Modell enthaltenen unabhängigen Variablen zu konzentrieren. Viele Iterationen der Modellerstellung können verwendet werden, um eine minimale Teilmenge unabhängiger Variablen zu bestimmen, die eine statistisch signifikante Beziehung zur Ergebnisvariable aufweisen. Dies ist in der Regel erreicht, wenn alle p-Werte für die unabhängigen Variablen unter einem bestimmten Wert liegen (z. B. 0,05). Von hier aus kann sich der Analyst darauf konzentrieren, qualitative Aussagen über den relativen Einfluss der Variablen auf das Ergebnis zu treffen (z. B. "Es besteht ein statistisch signifikanter Zusammenhang zwischen dem Alter und der Wahrscheinlichkeit einer Herzerkrankung").

Dieser Ansatz kann jedoch gefährlich sein, wenn die statistische Signifikanz als einziges Maß für die Modellqualität verwendet wird. Es ist möglich, dass dieses statistisch optimierte Modell eine schlechte Modellgenauigkeit hat oder bei einem anderen Maß für die Vorhersagefähigkeit schlecht abschneidet. Auch wenn das Modell nicht für Vorhersagen verwendet werden sollte, wie sehr sollte man den Schlussfolgerungen eines Modells vertrauen, das zwar signifikante p-Werte, aber eine miserable Genauigkeit aufweist? Die Vorhersagekraft hängt in der Regel damit zusammen, wie nahe die angepassten Werte des Modells an den beobachteten Daten liegen.

Warnung

Wenn ein Modell nur begrenzt datengetreu ist, sollten die Schlussfolgerungen, die aus dem Modell gezogen werden, höchst fragwürdig sein. Mit anderen Worten: Die statistische Signifikanz ist kein ausreichender Beweis dafür, dass ein Modell geeignet ist.

Das mag intuitiv einleuchtend erscheinen, wird aber in der realen Welt der Datenanalyse oft ignoriert.

Einige Terminologie

Bevor wir fortfahren, werden wir weitere Begriffe im Zusammenhang mit Modellierung und Daten erläutern. Diese Beschreibungen sollen dir bei der Lektüre dieses Buches helfen, sind aber nicht erschöpfend.

Erstens können viele Modelle in überwachte und nicht überwachte Modelle unterteilt werden. Unüberwachte Modelle sind solche, die Muster, Cluster oder andere Merkmale der Daten lernen, aber kein Ergebnis, d.h. keine abhängige Variable, haben. Beispiele für unbeaufsichtigte Modelle sind die Hauptkomponentenanalyse (PCA), das Clustering und Autocodierer. Sie werden verwendet, um Beziehungen zwischen Variablen oder Variablengruppen zu verstehen, ohne dass eine explizite Beziehung zwischen Prädiktoren und einem Ergebnis besteht. Überwachte Modelle sind solche, die eine Ergebnisvariable haben. Lineare Regression, neuronale Netze und zahlreiche andere Methoden fallen in diese Kategorie.

Innerhalb der überwachten Modelle gibt es zwei Hauptunterkategorien:

  • DieRegression sagt ein numerisches Ergebnis voraus.

  • Die Klassifizierung sagt ein Ergebnis voraus, das eine geordnete oder ungeordnete Menge von qualitativen Werten ist.

Diese Definitionen sind unvollständig und berücksichtigen nicht alle möglichen Modelltypen. In Kapitel 6 bezeichnen wir diese Eigenschaft überwachter Verfahren als Modellmodus.

Verschiedene Variablen können unterschiedliche Rollen spielen, insbesondere in einer überwachten Modellanalyse. Die Ergebnisse (auch bekannt als Labels, Endpunkte oder abhängige Variablen) sind die Werte, die in überwachten Modellen vorhergesagt werden. Die unabhängigen Variablen, die das Substrat für die Vorhersage des Ergebnisses sind, werden auch als Prädiktoren, Merkmale oder Kovariaten bezeichnet (je nach Kontext). Die Begriffe Ergebnisse und Prädiktoren werden in diesem Buch am häufigsten verwendet.

Was die Daten oder Variablen selbst angeht, egal ob sie für überwachte oder unüberwachte Modelle, als Prädiktoren oder Ergebnisse verwendet werden, gibt es zwei Hauptkategorien: quantitative und qualitative. Beispiele für erstere sind reelle Zahlen wie 3,14159 und ganze Zahlen wie 42. Qualitative Werte, auch bekannt als nominale Daten, sind solche, die eine Art von diskretem Zustand darstellen, der nicht auf einer numerischen Skala eingeordnet werden kann, wie "rot", "grün" und "blau".

Wie passt die Modellierung in den Prozess der Datenanalyse?

Unter welchen Umständen werden Modelle erstellt? Gibt es Schritte, die einem solchen Unterfangen vorausgehen? Ist die Modellerstellung der erste Schritt der Datenanalyse?

Hinweis

Es gibt ein paar kritische Phasen der Datenanalyse, die immer vor der Modellierung kommen.

Zunächst ist da der chronisch unterschätzte Prozess der Datenbereinigung. Unabhängig von den Umständen solltest du die Daten untersuchen, um sicherzustellen, dass sie für deine Projektziele anwendbar, korrekt und angemessen sind. Diese Schritte können leicht mehr Zeit in Anspruch nehmen als der Rest des Datenanalyseprozesses (je nach den Umständen).

Die Datenbereinigung kann sich auch mit der zweiten Phase des Verstehens der Daten überschneiden, die oft als explorative Datenanalyse (EDA) bezeichnet wird. Die EDA bringt ans Licht, wie die verschiedenen Variablen zueinander in Beziehung stehen, ihre Verteilungen, typischen Bereiche und andere Merkmale. Eine gute Frage, die du dir in dieser Phase stellen solltest, ist: "Wie bin ich an diese Daten gekommen?" Diese Frage kann dir dabei helfen zu verstehen, wie die vorliegenden Daten ausgewählt oder gefiltert wurden und ob diese Vorgänge angemessen waren. Wenn du zum Beispiel Datenbanktabellen zusammenführst, kann eine Verknüpfung schiefgehen, wodurch versehentlich eine oder mehrere Teilpopulationen ausgeschlossen werden. Eine weitere gute Idee ist die Frage, ob die Daten relevant sind. Um zum Beispiel vorherzusagen, ob Patienten an Alzheimer erkrankt sind, wäre es unklug, einen Datensatz mit erkrankten Personen und einer Zufallsstichprobe gesunder Erwachsener aus der Allgemeinbevölkerung zu haben. Angesichts des fortschreitenden Charakters der Krankheit könnte das Modell einfach vorhersagen, wer die ältesten Patienten sind.

Bevor mit der Datenanalyse begonnen wird, sollte klar sein, welches Ziel mit dem Modell verfolgt wird und wie die Leistung (und der Erfolg) beurteilt werden soll. Es sollte mindestens eine Leistungskennzahl mit realistischen Zielvorgaben für das zu Erreichende festgelegt werden. Gängige statistische Kennzahlen, die in Kapitel 9 näher erläutert werden, sind Klassifizierungsgenauigkeit, Wahrheits- und Falsch-Positiv-Rate, mittlerer quadratischer Fehler und so weiter. Die relativen Vor- und Nachteile dieser Metriken sollten abgewogen werden. Es ist auch wichtig, dass die Metrik relevant ist; die Ausrichtung auf die allgemeinen Ziele der Datenanalyse ist entscheidend.

Der Prozess der Datenuntersuchung ist nicht immer einfach. Wickham und Grolemund (2016) enthalten eine hervorragende Illustration des allgemeinen Datenanalyseprozesses, die in Abbildung 1-2 wiedergegeben ist. Die ersten Schritte sind das Einlesen der Daten und das Bereinigen/Aufräumen. Wenn die analytischen Schritte zum Verstehen beginnen, sind sie ein heuristischer Prozess; wir können nicht vorhersagen, wie lange sie dauern werden. Der Zyklus aus Transformation, Modellierung und Visualisierung erfordert oft mehrere Iterationen.

tmwr 0102
Abbildung 1-2. Der Prozess der Datenwissenschaft.

Dieser iterative Prozess gilt besonders für die Modellierung. Abbildung 1-3 zeigt den typischen Weg zur Bestimmung eines geeigneten Modells. Die allgemeinen Phasen sind:

Explorative Datenanalyse (EDA)

Am Anfang gibt es ein Hin und Her zwischen numerischer Analyse und Datenvisualisierung (dargestellt in Abbildung 1-2), bei dem verschiedene Entdeckungen zu weiteren Fragen und Datenanalysen führen, um mehr Verständnis zu erlangen.

Feature Engineering

Das aus der EDA gewonnene Verständnis führt zur Erstellung spezifischer Modellterme, die es einfacher machen, die beobachteten Daten genau zu modellieren. Dies kann komplexe Methoden (z. B. PCA) oder einfachere Merkmale (wie das Verhältnis zweier Prädiktoren) umfassen. Kapitel 8 konzentriert sich ganz auf diesen wichtigen Schritt.

Modellabstimmung und -auswahl (große Kreise mit abwechselnden Segmenten)

Es wird eine Vielzahl von Modellen erstellt und ihre Leistung verglichen. Einige Modelle erfordern eine Parameterabstimmung, bei der einige Strukturparameter festgelegt oder optimiert werden müssen. Die abwechselnden Segmente innerhalb der Kreise stehen für die wiederholte Aufteilung der Daten beim Resampling (siehe Kapitel 10).

Modellbewertung

In dieser Phase der Modellentwicklung bewerten wir die Leistungskennzahlen des Modells, untersuchen die Residuen und führen andere EDA-ähnliche Analysen durch, um zu verstehen, wie gut die Modelle funktionieren. In einigen Fällen helfen dir formale Modellvergleiche(Kapitel 11) dabei, zu verstehen, ob Unterschiede zwischen den Modellen im Rahmen des experimentellen Rauschens liegen.

tmwr 0103
Abbildung 1-3. Ein Schema für den typischen Modellierungsprozess.

Nach einer anfänglichen Abfolge dieser Aufgaben gewinnt man mehr Erkenntnisse darüber, welche Modelle besser sind und welche Datenuntergruppen nicht effektiv geschätzt werden. Dies führt zu weiteren EDA- und Feature-Engineering-Maßnahmen, einer weiteren Modellierungsrunde und so weiter. Wenn die Ziele der Datenanalyse erreicht sind, besteht der letzte Schritt in der Regel darin, das Modell fertig zu stellen, zu dokumentieren und zu kommunizieren. Bei Vorhersagemodellen ist es üblich, das Modell am Ende mit einem zusätzlichen Datensatz zu validieren, der speziell für diesen Zweck reserviert ist.

Kuhn und Johnson (2020) verwenden beispielsweise Daten, um die täglichen Fahrgastzahlen des öffentlichen Zugsystems in Chicago zu modellieren, indem sie Prädiktoren wie das Datum, die vorherigen Fahrgastzahlen, das Wetter und andere Faktoren verwenden. Tabelle 1-1 zeigt eine Annäherung an den hypothetischen inneren Monolog dieser Autoren, wenn sie diese Daten analysieren und schließlich ein Modell mit ausreichender Leistung auswählen.

Tabelle 1-1. Hypothetischer innerer Monolog eines Modellentwicklers
Gedanken Aktivität

Die Werte der täglichen Fahrgastzahlen zwischen den Bahnhöfen sind extrem korreliert.

EDA

Die Fahrgastzahlen unter der Woche und am Wochenende sind sehr unterschiedlich.

EDA

An einem Tag im Sommer 2010 sind ungewöhnlich viele Fahrer unterwegs.

EDA

Welche Bahnhöfe hatten die niedrigsten Werte bei den täglichen Fahrgastzahlen?

EDA

Daten sollten zumindest als Wochentag und Jahr kodiert werden.

Feature Engineering

Vielleicht könnte die PCA auf die korrelierten Prädiktoren angewandt werden, um es den Modellen zu erleichtern, sie zu nutzen.

Feature Engineering

Stündliche Wetteraufzeichnungen sollten wahrscheinlich zu täglichen Messungen zusammengefasst werden.

Feature Engineering

Beginnen wir mit einer einfachen linearen Regression, K-nearest neighbors und einem verstärkten Entscheidungsbaum.

Modellanpassung

Wie viele Nachbarn sollten verwendet werden?

Modell-Tuning

Sollten wir viele Boosting-Iterationen durchführen oder nur ein paar?

Modell-Tuning

Wie viele Nachbarn scheinen für diese Daten optimal zu sein?

Modell-Tuning

Welche Modelle haben die niedrigsten mittleren quadratischen Fehler?

Modellbewertung

Welche Tage wurden schlecht vorhergesagt?

EDA

Variable Wichtigkeitswerte zeigen an, dass die Wetterinformationen nicht vorhersagend sind. Wir werden sie aus den nächsten Modellen streichen.

Modellbewertung

Es sieht so aus, als ob wir uns auf viele Boosting-Iterationen für dieses Modell konzentrieren sollten.

Modellbewertung

Wir müssen Feiertagsmerkmale kodieren, um die Vorhersagen an (und um) diese Daten zu verbessern.

Feature Engineering

Lass uns KNN aus der Modellliste streichen.

Modellbewertung

Kapitel Zusammenfassung

In diesem Kapitel ging es darum, wie Modelle Zusammenhänge in Daten beschreiben und welche Arten von Modellen es gibt, z. B. deskriptive Modelle, Schlussfolgerungsmodelle und Vorhersagemodelle. Die Vorhersagekraft eines Modells kann zu seiner Bewertung herangezogen werden, auch wenn sein Hauptziel nicht die Vorhersage ist. Die Modellierung selbst ist Teil des umfassenderen Prozesses der Datenanalyse, und die explorative Datenanalyse ist ein wichtiger Bestandteil der Erstellung hochwertiger Modelle.

1 Viele spezifische statistische Tests sind in der Tat gleichbedeutend mit Modellen. Zum Beispiel sind t-Tests und Varianzanalysen (ANOVA) besondere Fälle des verallgemeinerten linearen Modells.

2 Eine umfassendere Diskussion dieser Unterscheidungen findet sich in Breiman (2001a) und Shmueli (2010).

Get Aufgeräumtes Modellieren mit R now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.