Kapitel 7. Wie man einen Textklassifikator erklärt
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In den vorherigen Kapiteln haben wir viel über fortgeschrittene Analysemethoden für unstrukturierte Textdaten gelernt. Angefangen bei der Statistik und dem Einsatz von NLP haben wir interessante Erkenntnisse aus Texten gewonnen.
Mit überwachten Klassifizierungsmethoden haben wir Textdokumente durch Trainingsalgorithmen bereits vorgegebenen Kategorien zugeordnet. Obwohl wir die Qualität des Klassifizierungsprozesses überprüft haben, haben wir einen wichtigen Aspekt ausgelassen: Wir wissen nicht, warum das Modell entschieden hat, einem Text eine Kategorie zuzuweisen.
Das mag unwichtig klingen, wenn die Kategorie richtig war. Im täglichen Leben musst du aber oft deine eigenen Entscheidungen erklären und sie für andere transparent machen. Das Gleiche gilt für Algorithmen des maschinellen Lernens.
In realen Projekten wirst du öfters die Frage hören: "Warum hat der Algorithmus diese Kategorie/dieses Gefühl zugeordnet?" Wenn du schon vorher verstehst, wie der Algorithmus etwas gelernt hat, kannst du die Klassifizierung verbessern, indem du andere Algorithmen verwendest, Merkmale hinzufügst, die Gewichtung änderst und so weiter. Im Vergleich zu strukturierten Daten ist die Frage bei Text viel wichtiger, da Menschen den Text selbst interpretieren können. Außerdem gibt es in Texten viele Artefakte wie Signaturen ...