Kapitel 3. Textdarstellung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In der Sprachverarbeitung, werden die Vektoren x aus Textdaten abgeleitet, um verschiedene sprachliche Eigenschaften des Textes widerzuspiegeln.
Yoav Goldberg
Die Merkmalsextraktion ist ein wichtiger Schritt für jedes maschinelle Lernproblem. Egal, wie gut ein Modellierungsalgorithmus ist, wenn du schlechte Merkmale einfügst, wirst du schlechte Ergebnisse erhalten. In der Informatik wird dies oft als "garbage in, garbage out" bezeichnet. In den beiden vorangegangenen Kapiteln haben wir einen Überblick über NLP, die verschiedenen Aufgaben und Herausforderungen, die damit verbunden sind, und den Aufbau einer typischen NLP-Pipeline gesehen. In diesem Kapitel befassen wir uns mit der Frage: Wie gehen wir beim Feature Engineering von Textdaten vor? Mit anderen Worten: Wie bringen wir einen Text in eine numerische Form, damit er in NLP- und ML-Algorithmen eingespeist werden kann? Im NLP-Jargon wird diese Umwandlung von Rohtext in eine geeignete numerische Form als Textrepräsentation bezeichnet. In diesem Kapitel werfen wir einen Blick auf die verschiedenen Methoden der Textrepräsentation, d. h. der Darstellung von Text als numerischer Vektor. Im Hinblick auf das Gesamtbild eines NLP-Problems wird der Umfang dieses Kapitels durch den gepunkteten Kasten in Abbildung 3-1 dargestellt.
Get Praktische natürliche Sprachverarbeitung now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.