Vorwort

Viele der Ideen, die dem Apache Hadoop-Projekt zugrunde liegen, sind Jahrzehnte alt. Wissenschaft und Industrie beschäftigen sich seit den 1960er Jahren mit der verteilten Speicherung und Berechnung von Daten. Die gesamte Technologiebranche ist aus der Nachfrage von Regierungen und Unternehmen nach Datenverarbeitung entstanden, und bei jedem Schritt auf diesem Weg erschienen die Daten den Menschen im Moment groß. Sogar einige der fortschrittlichsten und interessantesten Anwendungen reichen weit zurück: Maschinelles Lernen, eine Fähigkeit, die für viele Unternehmen neu ist, hat ihren Ursprung in der akademischen Forschung der 1950er Jahre und in der praktischen Systemarbeit der 1960er und 1970er Jahre.

Aber echte, praktische, nützliche, massiv skalierbare und zuverlässige Systeme konnten einfach nicht gefunden werden - zumindest nicht billig - bis Google sich in den späten 1990er und frühen 2000er Jahren dem Problem des Internets stellte. Das gesamte Internet zu erfassen, zu indizieren und zu analysieren, war mit der damals verfügbaren Technologie unmöglich.

Google entstaubte die jahrzehntelange Forschung an Großsystemen. Seine Architekten erkannten, dass die benötigten Computer und Netzwerke zum ersten Mal zu einem vernünftigen Preis zu haben waren.

Seine Arbeit am Google File System (GFS) für die Speicherung und am MapReduce-Framework für Berechnungen hat die Big-Data-Industrie begründet.

Diese Arbeit führte zur Gründung des Open-Source-Projekts Hadoop im Jahr 2005 durch Mike Cafarella und Doug Cutting. Die Tatsache, dass die Software leicht zu bekommen war und von einer weltweiten Entwicklergemeinschaft verbessert und erweitert werden konnte, machte sie für ein breites Publikum attraktiv. Zunächst nutzten andere Internetunternehmen die Software, um dem Beispiel von Google zu folgen. Schnell bemerkten jedoch auch traditionelle Unternehmen, dass sich etwas tat, und suchten nach Möglichkeiten, sich zu beteiligen.

In den mehr als zehn Jahren seit Beginn des Hadoop-Projekts ist das Ökosystem explodiert. Früher war das einzige Speichersystem das Hadoop Distributed File System (HDFS), das auf GFS basiert. Heute floriert HDFS, aber es gibt noch viele andere Möglichkeiten: Amazon S3 oder Microsoft Azure Data Lake Store (ADLS) für die Speicherung in der Cloud zum Beispiel oder Apache Kudu für IoT- und Analysedaten. Auch MapReduce war ursprünglich die einzige Option für die Analyse von Daten. Heute haben die Nutzer/innen die Wahl zwischen MapReduce, Apache Spark für Stream Processing und maschinelles Lernen, SQL-Engines wie Apache Impala und Apache Hive und mehr.

Alle diese neuen Projekte haben die grundlegende Architektur von Hadoop übernommen: große, verteilte, gemeinsam genutzte Systeme, die durch ein gutes Netzwerk verbunden sind und gemeinsam an der Lösung desselben Problems arbeiten. Hadoop ist der Open-Source-Urvater, aber das darauf aufbauende Big-Data-Ökosystem ist weitaus leistungsfähiger - und nützlicher - als das ursprüngliche Hadoop-Projekt.

Diese Explosion von Innovationen bedeutet, dass Big Data wertvoller ist als je zuvor. Die Unternehmen sind begierig darauf, die Technologie zu übernehmen. Sie wollen das Kundenverhalten vorhersagen, Maschinenausfälle in ihren Fabriken oder LKWs in ihren Flotten vorhersehen, Betrug in ihren Transaktionsströmen erkennen und Patienten in Krankenhäusern gezielt betreuen und bessere Ergebnisse erzielen.

Aber diese so wertvolle Innovation verwirrt sie auch. Wie können sie mit dem Tempo der Verbesserungen und der Flut an neuen Projekten im Open-Source-Ökosystem mithalten? Wie können sie diese Systeme in ihren eigenen Rechenzentren einsetzen und betreiben und dabei die Erwartungen der Nutzer/innen an Zuverlässigkeit und Stabilität sowie die Anforderungen des Unternehmens erfüllen? Wie können sie ihre Daten sichern und die Richtlinien zum Schutz privater Informationen vor Cyberangriffen durchsetzen?

Die Beherrschung der Plattform im Unternehmenskontext bringt neue Herausforderungen mit sich, die tief in den Daten stecken. Wir waren lange Zeit in der Lage, Daten für einen Monat oder ein Quartal zu speichern und zu durchsuchen. Jetzt können wir die Daten eines Jahrzehnts oder eines Jahrhunderts speichern und durchsuchen. Dieser große quantitative Unterschied wird zu einem qualitativen Unterschied: Welche neuen Anwendungen können wir entwickeln, wenn wir über ein Jahrhundert nachdenken können?

Das vorliegende Buch ist dein Leitfaden zur Beantwortung dieser Fragen beim Aufbau deiner Big-Data-Plattform für Unternehmen.

Jan, Ian, Lars und Paul - die Autoren dieses Buches - sind Praktiker auf diesem Gebiet und haben viele Jahre Erfahrung darin, Unternehmen dabei zu helfen, echten Nutzen aus Big Data zu ziehen. Sie sind nicht nur Nutzer von Hadoop, Impala, Hive und Spark, sondern auch aktive Teilnehmer der Open-Source-Gemeinschaft, die diese Projekte und ihre Fähigkeiten für den Einsatz in Unternehmen mitgestaltet haben. Sie sind Experten in den Bereichen Analyse, Datenverarbeitung und maschinelles Lernen, die das Ökosystem bietet.

Wenn sich die Technologie schnell weiterentwickelt, ist es wichtig, sich auf Techniken und Ideen zu konzentrieren, die sich über die Zeit bewähren. Der Ratschlag hier gilt für die Software - Hadoop und die vielen damit verbundenen Dienste -, die heute existiert. Die Überlegungen und Entwürfe beziehen sich jedoch nicht auf bestimmte Projekte, sondern auf die grundlegende Architektur, die Hadoop zum Erfolg verholfen hat: Groß angelegte, verteilte, gemeinsam genutzte Software erfordert einen neuen Ansatz für den Betrieb, die Sicherheit und die Verwaltung.

Diese Techniken und Ideen wirst du hier lernen.

Get Architektur von modernen Datenplattformen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.