Kapitel 3. Einführung in Big Data und Data Science

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die populäre Nutzung von Big Data lässt sich auf eine einzige Forschungsarbeit zurückführen, die 2004 veröffentlicht wurde: "MapReduce: Simplified Data Processing on Large Clusters", von Jeffrey Dean und Sanjay Ghemawat. In diesem 13-seitigen Papier (einschließlich Quellcode) erklärten zwei Google-Ingenieure, wie das Unternehmen einen Weg gefunden hatte, seinen gigantischen Indexierungsbedarf durch einen völlig neuartigen Algorithmus, der auf massiv parallelen Clustern läuft, auf vernünftige Verarbeitungsanforderungen zu reduzieren. Die Grundidee von MapReduce ist die Aufteilung der Arbeit in Mapper, die parallel laufen können, und Reducer, die die Ergebnisse der Mapper übernehmen und verarbeiten. Die erste Operation wird "Mapping" genannt, weil sie jedes Element der Eingabedaten auf eine Funktion "abbildet" und die Ausgabe dem Reducer zur Bearbeitung überlässt.

Um zum Beispiel die Wörter in allen Dokumenten auf allen Knoten in einem Cluster zu zählen, vorausgesetzt, jedes Dokument ist auf einem einzelnen Knoten gespeichert, können wir Tausende von Mappern parallel laufen lassen, die eine Liste von Dokumenten und deren Wortanzahl erstellen und diese Liste an den Reducer senden. Der Reducer erstellt dann eine Masterliste mit allen Dokumenten und ihrer Wortzahl und berechnet die Gesamtwortzahl, indem ...

Get Der Enterprise Big Data Lake now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.