Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Willkommen bei Tidy Modeling with R! Dieses Buch ist ein Leitfaden für die Verwendung einer Sammlung von Software in der Programmiersprache R für die Modellerstellung, genannttidymodels, und verfolgt zwei Hauptziele:

  • Dieses Buch bietet vor allem eine praktische Einführung in die Verwendung dieser speziellen R-Pakete zur Erstellung von Modellen. Wir konzentrieren uns auf einen R-Dialekt namens tidyverse, der mit einer konsistenten, menschenzentrierten Philosophie entwickelt wurde, und zeigen, wie die Pakete tidyverse undtidymodels verwendet werden können, um qualitativ hochwertige statistische und maschinelle Lernmodelle zu erstellen.

  • Zweitens zeigt dir dieses Buch, wie du eine gute Methodik und statistische Verfahren entwickeln kannst. Wann immer es möglich ist, versuchen unsere Software, Dokumentation und andere Materialien, häufige Fallstricke zu vermeiden.

In Kapitel 1 skizzieren wir eine Taxonomie für Modelle und zeigen auf, was eine gute Software für die Modellierung ausmacht. Die Ideen und die Syntax von tidyverse, die wir in Kapitel 2 vorstellen (bzw. besprechen), bilden die Grundlage für den tidymodels-Ansatz zur Bewältigung dieser Herausforderungen in Methodik und Praxis. Kapitel 3 bietet einen kurzen Überblick über die konventionellen R-Modellierungsfunktionen und fasst die ungedeckten Bedürfnisse in diesem Bereich zusammen.

Danach ist dieses Buch in mehrere Teile gegliedert, beginnend mit den Grundlagen der Modellierung mit Tidy Data Prinzipien. In den Kapiteln 4-9 wird ein Beispieldatensatz zu Hauspreisen vorgestellt und gezeigt, wie man die grundlegenden tidymodels-Pakete verwendet: recipes,parsnip,workflows,yardstick und andere.

Der nächste Teil des Buches befasst sich mit weiteren Details zum Prozess der Erstellung eines effektiven Modells. In den Kapiteln 10-15 geht es um die Erstellung guter Schätzungen der Leistung und die Abstimmung der Hyperparameter des Modells.

Im letzten Abschnitt dieses Buches, den Kapiteln 16-21, werden weitere wichtige Themen für die Modellbildung behandelt. Wir besprechen fortschrittlichere Ansätze der Merkmalstechnik wie die Dimensionalitätsreduktion und die Kodierung von Prädiktoren mit hoher Kardinalität sowie die Beantwortung der Frage, warum ein Modell bestimmte Vorhersagen macht und wann man seinen Modellvorhersagen vertrauen kann.

Wir gehen nicht davon aus, dass die Leserinnen und Leser über umfangreiche Erfahrungen in der Modellbildung und Statistik verfügen. Ein gewisses statistisches Wissen ist erforderlich, z. B. über Stichproben, Varianz, Korrelation, grundlegende lineare Regression und andere Themen, die normalerweise in einem Statistik- oder Datenanalyse-Grundkurs für Studenten behandelt werden. Wir gehen davon aus, dass der Leser zumindest ein wenig mit dplyr, ggplot2 und dem %>% "pipe"-Operator in R vertraut ist und daran interessiert ist, diese Werkzeuge bei der Modellierung anzuwenden. Nutzern, die noch nicht über dieses Hintergrundwissen in R verfügen, empfehlen wir Bücher wie R for Data Science von Wickham und Grolemund (2016). Das Untersuchen und Analysieren von Daten ist ein wichtiger Teil jedes Modellierungsprozesses.

Dieses Buch soll kein umfassendes Nachschlagewerk über Modellierungstechniken sein; wir empfehlen andere Quellen, um mehr über die statistischen Methoden selbst zu erfahren. Für allgemeine Hintergrundinformationen über die gängigste Art von Modellen, das lineare Modell, empfehlen wir Fox (2008). Für Vorhersagemodelle sind Kuhn und Johnson (2013) und Kuhn und Johnson (2020) eine gute Quelle. Für Methoden des maschinellen Lernens ist Goodfellow, Bengio und Courville (2016) eine ausgezeichnete (aber formale) Informationsquelle. In einigen Fällen beschreiben wir die von uns verwendeten Modelle detailliert, aber auf eine weniger mathematische und hoffentlich intuitivere Weise.

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv

Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.

Constant width

Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.

Constant width bold

Zeigt Befehle oder anderen Text an, der vom Benutzer wortwörtlich eingetippt werden sollte.

Constant width italic

Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch vom Kontext bestimmte Werte ersetzt werden soll.

Tipp

Dieses Element steht für einen Tipp oder eine Anregung.

Hinweis

Dieses Element steht für einen allgemeinen Hinweis.

Warnung

Dieses Element weist auf eine Warnung oder einen Warnhinweis hin.

Code-Beispiele verwenden

Zusätzliches Material (Code-Beispiele, Übungen usw.) steht unter https://github.com/tidymodels/TMwR zum Download bereit . Dieses Buch wurde mit RStudio unter Verwendung von bookdown (Xie 2016) geschrieben. Wir haben alle Diagramme in diesem Buch mit ggplot2 und seinem Schwarz-Weiß-Thema erstellt (theme_bw()). Eine Online-Version dieses Buches ist verfügbar und wird auch nach der Veröffentlichung des physischen Buches weiterentwickelt.

Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, schreibe bitte eine E-Mail an

Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.

Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Ein Beispiel: "Tidy Modeling with R von Max Kuhn und Julia Silge (O'Reilly). Copyright 2022 Max Kuhn und Julia Silge, 978-1-492-09648-1."

Wenn du der Meinung bist, dass die Verwendung von Code-Beispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter kontaktieren

Diese Version des Buches wurde erstellt mit: R Version 4.1.3 (2022-03-10), pandoc Version 2.17.1.1, und den folgenden Paketen:

  • anwendbar (0.0.1.2, CRAN)
  • av (0.7.0, CRAN)
  • baguette (0.2.0, CRAN)
  • beans (0.1.0, CRAN)
  • bestNormalize (1.8.2, CRAN)
  • bookdown (0.25, CRAN)
  • Besen (0.7.12, CRAN)
  • zensiert (0.0.0.9000, GitHub)
  • corrplot (0.92, CRAN)
  • corrr (0.4.3, CRAN)
  • Cubist (0.4.0, CRAN)
  • DALEXtra (2.1.1, CRAN)
  • dials (0.1.1, CRAN)
  • dimRed (0.2.5, CRAN)
  • discrim (0.2.0, CRAN)
  • doMC (1.3.8, CRAN)
  • dplyr (1.0.8, CRAN)
  • earth (5.3.1, CRAN)
  • embed (0.1.5, CRAN)
  • fastICA (1.2-3, CRAN)
  • finetune (0.2.0, CRAN)
  • forcats (0.5.1, CRAN)
  • ggforce (0.3.3, CRAN)
  • ggplot2 (3.3.5, CRAN)
  • glmnet (4.1-3, CRAN)
  • gridExtra (2.3, CRAN)
  • infer (1.0.0, CRAN)
  • kableExtra (1.3.4, CRAN)
  • kernlab (0.9-30, CRAN)
  • kknn (1.3.1, CRAN)
  • klaR (1.7-0, CRAN)
  • knitr (1.38, CRAN)
  • learntidymodels (0.0.0.9001, GitHub)
  • lime (0.5.2, CRAN)
  • lme4 (1.1-29, CRAN)
  • lubridate (1.8.0, CRAN)
  • mda (0.5-2, CRAN)
  • mixOmics (6.18.1, Bioconductor)
  • modeldata (0.1.1, CRAN)
  • multilevelmod (0.1.0, CRAN)
  • nlme (3.1-157, CRAN)
  • nnet (7.3-17, CRAN)
  • parsnip (0.2.1.9001, GitHub)
  • Patchwork (1.1.1, CRAN)
  • Säule (1.7.0, CRAN)
  • poissonreg (0.2.0, CRAN)
  • prettyunits (1.1.1, CRAN)
  • wahrscheinlich (0.0.6, CRAN)
  • pscl (1.5.5, CRAN)
  • purrr (0.3.4, CRAN)
  • ranger (0.13.1, CRAN)
  • Rezepte (0.2.0, CRAN)
  • rlang (1.0.2, CRAN)
  • rmarkdown (2.13, CRAN)
  • rpart (4.1.16, CRAN)
  • rsample (0.1.1, CRAN)
  • rstanarm (2.21.3, CRAN)
  • Regeln (0.2.0, CRAN)
  • sessioninfo (1.2.2, CRAN)
  • stacks (0.2.2, CRAN)
  • stringr (1.4.0, CRAN)
  • svglite (2.1.0, CRAN)
  • text2vec (0.6, CRAN)
  • textrecipes (0.5.1.9000, GitHub)
  • themis (0.2.0, CRAN)
  • tibble (3.1.6, CRAN)
  • tidymodels (0.2.0, CRAN)
  • tidyposterior (0.1.0, CRAN)
  • tidyverse (1.3.1, CRAN)
  • tune (0.2.0, CRAN)
  • uwot (0.1.11, CRAN)
  • Arbeitsabläufe (0.2.6, CRAN)
  • Workflowsets (0.2.1, CRAN)
  • xgboost (1.5.2.1, CRAN)
  • yardstick (0.0.9, CRAN)

O'Reilly Online Learning

Hinweis

Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.

Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Nord
  • Sebastopol, CA 95472
  • 800-998-9938 (in den Vereinigten Staaten oder Kanada)
  • 707-829-0515 (international oder lokal)
  • 707-829-0104 (Fax)

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/tidy-modeling-r aufrufen .

Schreib eine E-Mail an , um Kommentare oder technische Fragen zu diesem Buch zu stellen.

Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.

Du findest uns auf LinkedIn: https://linkedin.com/company/oreilly-media.

Folge uns auf Twitter: https://twitter.com/oreillymedia.

Sieh uns auf YouTube: https://youtube.com/oreillymedia.

Danksagungen

Wir sind so dankbar für die Beiträge, die Hilfe und die Perspektiven der Menschen, die uns bei diesem Projekt unterstützt haben. Es gibt einige, denen wir besonders danken möchten.

Wir möchten uns bei unseren RStudio-Kollegen imtidymodels-Team (Davis Vaughan, Hannah Frick, Emil Hvitfeldt und Simon Couch) sowie bei den übrigen Mitarbeitern des RStudio-Open-Source-Teams bedanken. Vielen Dank an Desirée De Leon für die Gestaltung der Online-Arbeit. Wir möchten auch unseren technischen Gutachtern, Chelsea Parlett-Pelleriti und Dan Simpson, für ihr detailliertes, aufschlussreiches Feedback danken, das dieses Buch wesentlich verbessert hat, sowie unseren Redakteuren, Nicole Taché und Rita Fernando, für ihre Sichtweise und Beratung während des Schreib- und Veröffentlichungsprozesses.

Dieses Buch wurde offen geschrieben und viele Leute haben über Pull Requests oder Issues beigetragen. Ein besonderer Dank geht an die 38 Personen, die über GitHub Pull Requests beigetragen haben (in alphabetischer Reihenfolge nach Benutzernamen): ArisPaschalidis (@arisp99), Brad Hill (@bradisbrad), Bryce Roney (@bryceroney), CedricBatailler (@cedricbatailler), Ildikó Czeller (@czeildi), David Kane (@davidkane9),@DavZim, @DCharIAA, Emil Hvitfeldt (@EmilHvitfeldt), Emilio (@emilopezcano),Fgazzelloni (@Fgazzelloni), Hannah Frick (@hfrick), Hlynur (@hlynurhallgrims), Howard Baek (@howardbaek), Jae Yeon Kim (@jaeyk), Jonathan D. Trattner (@jdtrat), Jeffrey Girard(@jmgirard), John W. Pickering (@JohnPickering), Jon Harmon (@jonthegeek), Joseph B. Rickert (@joseph-rickert), Maximilian Rohde(@maxdrohde), Michael Grund (@michaelgrund), @MikeJohnPage, Mine Cetinkaya-Rundel (@mine-cetinkaya-rundel), Mohammed Hamdy (@mmhamdy), @nattalides, Y. Yu(@PursuitOfDataScience), Riaz Hedayati (@riazhedayati), Rob Wiederstein(@RobWiederstein), Scott (@scottyd22), Simon Schölzel (@simonschoe), Simon Sayz (@tagasimon), @thrkng, Tanner Stauss (@tmstauss), Tony ElHabr (@tonyelhabr), Dmitry Zotikov (@x1o), Xiaochi (@xiaochi-liu), und Zach Bogart (@zachbogart).

Get Aufgeräumtes Modellieren mit R now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.