KAPITEL 25
MapReduce
Die Zukunft ist bereits eingetreten. Sie ist nur noch nicht gleichmäßig verteilt.
– William Gibson
MapReduce ist ein Programmierparadigma zum parallelen Verarbeiten großer Datenmengen. Obwohl es eine mächtige Technik ist, beruht es auf einer relativ einfachen Grundidee. Angenommen, wir möchten eine Anzahl Datensätze verarbeiten. Diese Datensätze könnten zum Beispiel Logfiles von Webseiten, Texte verschiedener Bücher, Bilder oder irgendetwas anderes sein. Eine einfache Version des MapReduce-Algorithmus besteht aus den folgenden Schritten:
- Verwende eine mapper-Funktion, um jeden Datensatz in null oder mehr Schlüssel/Wert-Paare umzuwandeln. (Diese wird oft auch map-Funktion genannt, aber in Python gibt es bereits eine Funktion ...
Get Einführung in Data Science, 2nd Edition now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.