Kapitel 4. Text-Klassifizierung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Eine der neueren Anwendungen für die binäre Klassifizierung ist die Stimmungsanalyse, bei der eine Textprobe wie eine Produktbewertung, ein Tweet oder ein Kommentar auf einer Website untersucht und auf einer Skala von 0,0 bis 1,0 bewertet wird, wobei 0,0 für eine negative und 1,0 für eine positive Stimmung steht. Eine Bewertung wie "tolles Produkt zu einem tollen Preis" könnte die Note 0,9 erhalten, während "überteuertes Produkt, das kaum funktioniert" die Note 0,1 erhalten könnte. Die Punktzahl gibt die Wahrscheinlichkeit an, dass der Text eine positive Stimmung ausdrückt. Modelle für die Stimmungsanalyse sind algorithmisch schwer zu erstellen, aber mit maschinellem Lernen relativ einfach zu realisieren. Beispiele dafür, wie die Stimmungsanalyse heute in der Wirtschaft eingesetzt wird, findest du in dem Artikel "8 Sentiment Analysis Real-World Use Cases" von Nicholas Bianchi.
Die Stimmungsanalyse ist ein Beispiel für eine Aufgabe, bei der es um die Klassifizierung von Textdaten und nicht von numerischen Daten geht. Da maschinelles Lernen mit Zahlen arbeitet, musst du Text in Zahlen umwandeln, bevor du ein Stimmungsanalysemodell, ein Modell zur Erkennung von Spam-E-Mails oder ein anderes Modell zur Klassifizierung von Text trainierst. Eine gängige Methode ist es, eine Tabelle mit Worthäufigkeiten zu erstellen, die ...