Kapitel 6. Umgang mit Text

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

6.0 Einleitung

Unstrukturierte Textdaten, wie der Inhalt eines Buches oder eines Tweets, sind eine der interessantesten Quellen für Merkmale und gleichzeitig eine der komplexesten. In diesem Kapitel werden wir uns mit Strategien zur Umwandlung von Text in informationsreiche Merkmale befassen und einige sofort einsetzbare Merkmale (sogenannte Einbettungen) verwenden, die in Aufgaben der natürlichen Sprachverarbeitung (NLP) zunehmend allgegenwärtig geworden sind.

Das soll nicht heißen, dass die hier vorgestellten Rezepte umfassend sind. Ganze akademische Disziplinen konzentrieren sich auf den Umgang mit unstrukturierten Daten wie Text. In diesem Kapitel werden wir einige häufig verwendete Techniken vorstellen, deren Kenntnis unsere Vorverarbeitungs-Toolbox um wertvolle Werkzeuge erweitern wird. Neben vielen allgemeinen Textverarbeitungsrezepten zeigen wir dir auch, wie du einige vortrainierte Machine-Learning-Modelle importieren und nutzen kannst, um aussagekräftigere Textmerkmale zu erzeugen.

6.1 Text reinigen

Problem

Du hast einige unstrukturierte Textdaten und möchtest eine grundlegende Bereinigung vornehmen.

Lösung

Im folgenden Beispiel sehen wir uns den Text von drei Büchern an und bereinigen ihn, indem wir die zentralen String-Operationen von Python verwenden, insbesondere strip, replace und split:

# Create ...

Get Maschinelles Lernen mit Python Kochbuch, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.