Skip to Main Content
Blaupausen für Textanalyse mit Python
book

Blaupausen für Textanalyse mit Python

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler
September 2024
Intermediate to advanced content levelIntermediate to advanced
424 pages
13h 12m
German
O'Reilly Media, Inc.
Book available
Content preview from Blaupausen für Textanalyse mit Python

Kapitel 5. Merkmalstechnik und syntaktische Ähnlichkeit

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wie wir in Kapitel 1 gesehen haben, unterscheidet sich Text deutlich von strukturierten Daten. Einer der auffälligsten Unterschiede ist, dass Text durch Wörter dargestellt wird, während strukturierte Daten (meistens) Zahlen verwenden. Aus wissenschaftlicher Sicht haben jahrhundertelange mathematische Forschungen zu einem extrem guten Verständnis von Zahlen und ausgefeilten Methoden geführt. Die Informationswissenschaft hat diese mathematische Forschung aufgegriffen, und viele kreative Algorithmen wurden darauf aufbauend erfunden. Die jüngsten Fortschritte im Bereich des maschinellen Lernens ( ) haben viele ehemals sehr spezifische Algorithmen verallgemeinert und sie für viele verschiedene Anwendungsfälle anwendbar gemacht. Diese Methoden "lernen" direkt aus den Daten und bieten eine unvoreingenommene Sichtweise.

Um diese Instrumente zu nutzen, müssen wir eine Zuordnung von Text zu Zahlen finden. Angesichts des Reichtums und der Komplexität von Texten ist es klar, dass eine einzelne Zahl nicht ausreicht, um die Bedeutung eines Dokuments darzustellen. Es wird etwas Komplexeres benötigt. Die natürliche Erweiterung der reellen Zahlen in der Mathematik ist ein Tupel aus reellen Zahlen, ein sogenannter Vektor. Fast alle Textdarstellungen in der Textanalyse und im maschinellen Lernen verwenden

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Python für die Bioinformatik beherrschen

Python für die Bioinformatik beherrschen

Ken Youens-Clark
Python in a Nutshell, 4. Auflage

Python in a Nutshell, 4. Auflage

Alex Martelli, Anna Martelli Ravenscroft, Steve Holden, Paul McGuire

Publisher Resources

ISBN: 9781098191191Supplemental Content