Kapitel 3. Korpusvorverarbeitung und Wrangling
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Im vorigen Kapitel haben wir gelernt, wie man ein benutzerdefiniertes, domänenspezifisches Korpus aufbaut und strukturiert. Leider ist jeder echte Korpus in seiner Rohform für Analysen völlig unbrauchbar, wenn er nicht erheblich vorverarbeitet und komprimiert wird. Eine der Hauptmotivationen, dieses Buch zu schreiben, ist die enorme Herausforderung, der wir selbst bei unseren Bemühungen begegnet sind, ein ausreichend großes und umfangreiches Korpus zu erstellen und zu bearbeiten, um aussagekräftige Datenprodukte zu erstellen. Wenn man bedenkt, wie viel Zeit und Mühe wir selbst in die Vorverarbeitung und Bearbeitung von Texten investieren, ist es erstaunlich, wie wenig Ressourcen es gibt, um diese Phasen zu unterstützen (oder auch nur anzuerkennen!).
In diesem Kapitel schlagen wir ein Mehrzweck-Vorverarbeitungssystem vor, mit dem wir unseren Rohtext systematisch in eine Form umwandeln können, die für die Berechnung und Modellierung geeignet ist. Unser Rahmenwerk umfasst die fünf in Abbildung 3-1 dargestellten Schlüsselschritte: Inhaltsextraktion, Absatzblockierung, Satzsegmentierung, Wort-Tokenisierung und Part-of-Speech-Tagging. Für jede dieser Phasen stellen wir Funktionen bereit, die als Methoden unter der im vorherigen Kapitel definierten Klasse HTMLCorpusReader
konzipiert sind.
Get Angewandte Textanalyse mit Python now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.