Skip to Main Content
Blaupausen für Textanalyse mit Python
book

Blaupausen für Textanalyse mit Python

by Jens Albrecht, Sidharth Ramachandran, Christian Winkler
September 2024
Intermediate to advanced content levelIntermediate to advanced
424 pages
13h 12m
German
O'Reilly Media, Inc.
Book available
Content preview from Blaupausen für Textanalyse mit Python

Kapitel 7. Wie man einen Textklassifikator erklärt

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den vorherigen Kapiteln haben wir viel über fortgeschrittene Analysemethoden für unstrukturierte Textdaten gelernt. Angefangen bei der Statistik und dem Einsatz von NLP haben wir interessante Erkenntnisse aus Texten gewonnen.

Mit überwachten Klassifizierungsmethoden haben wir Textdokumente durch Trainingsalgorithmen bereits vorgegebenen Kategorien zugeordnet. Obwohl wir die Qualität des Klassifizierungsprozesses überprüft haben, haben wir einen wichtigen Aspekt ausgelassen: Wir wissen nicht, warum das Modell entschieden hat, einem Text eine Kategorie zuzuweisen.

Das mag unwichtig klingen, wenn die Kategorie richtig war. Im täglichen Leben musst du aber oft deine eigenen Entscheidungen erklären und sie für andere transparent machen. Das Gleiche gilt für Algorithmen des maschinellen Lernens.

In realen Projekten wirst du öfters die Frage hören: "Warum hat der Algorithmus diese Kategorie/dieses Gefühl zugeordnet?" Wenn du schon vorher verstehst, wie der Algorithmus etwas gelernt hat, kannst du die Klassifizierung verbessern, indem du andere Algorithmen verwendest, Merkmale hinzufügst, die Gewichtung änderst und so weiter. Im Vergleich zu strukturierten Daten ist die Frage bei Text viel wichtiger, da Menschen den Text selbst interpretieren können. Außerdem gibt es in Texten viele Artefakte wie Signaturen ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Python für die Bioinformatik beherrschen

Python für die Bioinformatik beherrschen

Ken Youens-Clark
Python in a Nutshell, 4. Auflage

Python in a Nutshell, 4. Auflage

Alex Martelli, Anna Martelli Ravenscroft, Steve Holden, Paul McGuire

Publisher Resources

ISBN: 9781098191191Supplemental Content