Kapitel 1. Big Data analysieren
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wenn die Leute sagen, dass wir im Zeitalter von Big Data leben, meinen sie damit, dass wir über Werkzeuge verfügen, mit denen wir Informationen in einem bisher ungekannten Ausmaß sammeln, speichern und verarbeiten können. Die folgenden Aufgaben hätten vor 10 oder 15 Jahren einfach nicht bewältigt werden können:
-
Erstelle ein Modell zur Erkennung von Kreditkartenbetrug anhand von Tausenden von Merkmalen und Milliarden von Transaktionen
-
Intelligente Empfehlungen für Millionen von Produkten für Millionen von Nutzern
-
Schätze das finanzielle Risiko durch Simulationen von Portfolios, die Millionen von Instrumenten umfassen
-
Genomische Daten von Tausenden von Menschen einfach bearbeiten, um genetische Zusammenhänge mit Krankheiten zu erkennen
-
Bewertung der landwirtschaftlichen Bodennutzung und der Ernteerträge für eine bessere Politikgestaltung durch die regelmäßige Verarbeitung von Millionen von Satellitenbildern
Hinter diesen Fähigkeiten steht ein Ökosystem von Open-Source-Software, die Servercluster zur Verarbeitung riesiger Datenmengen nutzen kann. Die Einführung/Veröffentlichung von Apache Hadoop im Jahr 2006 hat zu einer weit verbreiteten Nutzung des verteilten Rechnens geführt. Das Big-Data-Ökosystem und die Tools haben sich seitdem rasant weiterentwickelt. In den letzten fünf Jahren wurden auch viele Open-Source-Bibliotheken ...