Kapitel 5. Textanalyse

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den letzten beiden Kapiteln haben wir uns mit der Anwendung von Daten und Zahlen bei der Zeitreihenanalyse und der Kohortenanalyse beschäftigt. Aber Datensätze sind oft mehr als nur numerische Werte und zugehörige Zeitstempel. Von qualitativen Attributen bis hin zu freiem Text sind die Zeichenfelder oft mit potenziell interessanten Informationen gefüllt. Obwohl Datenbanken sich hervorragend für numerische Berechnungen wie Zählen, Summieren und Mittelwertbildung eignen, können sie auch gut mit Textdaten arbeiten.

Zu Beginn dieses Kapitels gebe ich einen Überblick über die Arten von Textanalyseaufgaben, für die SQL gut geeignet ist, und über diejenigen, für die eine andere Programmiersprache die bessere Wahl ist. Dann stelle ich unseren Datensatz mit UFO-Sichtungen vor. Dann geht es an die Codierung: Textmerkmale und Profilerstellung, Parsing von Daten mit SQL, verschiedene Transformationen, Konstruktion von neuem Text aus Teilen und schließlich das Auffinden von Elementen in größeren Textblöcken, auch mit regulären Ausdrücken.

Warum Textanalyse mit SQL?

Unter den riesigen Datenmengen, die jeden Tag erzeugt werden, besteht ein großer Teil aus Text: Wörter, Sätze, Absätze und sogar längere Dokumente. Textdaten, die für die Analyse verwendet werden, können aus einer Vielzahl von Quellen stammen, z. B. von Menschen oder Computeranwendungen ...

Get SQL für die Datenanalyse now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.