Kapitel 5. Datensee

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Big Data tauchte Anfang der 2010er Jahre in noch nie dagewesenen Mengen auf, weil immer mehr Quellen semistrukturierte und unstrukturierte Daten ausgeben, wie z.B. Sensoren, Videos und soziale Medien. Semistrukturierte und unstrukturierte Daten haben einen phänomenalen Wert - man denke nur an die Erkenntnisse, die in jahrelangen Kunden-E-Mails enthalten sind! Damals konnten relationale Data Warehouses jedoch nur strukturierte Daten verarbeiten. Außerdem konnten sie große Datenmengen oder Daten, die häufig eingegeben werden mussten, nur schwer verarbeiten und waren daher keine Option für die Speicherung dieser Daten. Das zwang die Branche dazu, eine Lösung zu finden: Data Lakes. Data Lakes können mit halbstrukturierten und unstrukturierten Daten umgehen und Daten verwalten, die häufig aufgenommen werden.

Vor Jahren sprach ich mit Analysten einer großen Einzelhandelskette, die Daten von Twitter erfassen wollten, um herauszufinden, was die Kunden über ihre Geschäfte denken. Sie wussten, dass die Kunden zögern würden, ihre Beschwerden den Angestellten in den Geschäften mitzuteilen, aber sie würden sie schnell auf Twitter veröffentlichen. Ich half ihnen, die Twitter-Daten in einen Data Lake zu übertragen und die Stimmung der Kundenkommentare zu bewerten, indem sie sie als positiv, neutral oder negativ einstuften. Als sie die negativen ...

Get Datenarchitekturen entschlüsseln now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.