Kapitel 5. Konvertierung in und aus Nicht-Nidy-Formaten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den vorangegangenen Kapiteln haben wir Text analysiert, der im Tidy-Textformat angeordnet ist: eine Tabelle mit einem Token pro Dokument und Zeile, wie sie von der Funktion unnest_tokens() erstellt wird. So können wir die beliebten Tidy-Tools wie dplyr, tidyr und ggplot2 nutzen, um Textdaten zu untersuchen und zu visualisieren. Wir haben gezeigt, dass viele informative Textanalysen mit diesen Werkzeugen durchgeführt werden können.

Allerdings sind die meisten der vorhandenen R-Tools für die Verarbeitung natürlicher Sprache, abgesehen vom tidytext-Paket, nicht mit diesem Format kompatibel. DieCRAN Task View for Natural Language Processing listet eine große Auswahl an Paketen auf, die andere Eingabestrukturen akzeptieren und nicht-aufgeräumte Ausgaben liefern. Diese Pakete sind für Text Mining-Anwendungen sehr nützlich, und viele bestehende Textdatensätze sind nach diesen Formaten strukturiert.

Der Informatiker Hal Abelson hat festgestellt, dass "egal wie komplex und ausgefeilt die einzelnen Operationen sind, es ist oft die Qualität des Klebstoffs, die am unmittelbarsten die Leistungsfähigkeit des Systems bestimmt" (Abelson 2008). In diesem Sinne geht es in diesem Kapitel um den "Klebstoff", der das Tidy-Textformat mit anderen wichtigen Paketen und Datenstrukturen verbindet und es dir ermöglicht, ...

Get Text Mining mit R now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.