Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn du dieses Buch liest, wird es dich nicht überraschen, dass wir uns mitten in einer Revolution der Datenspeicherung und -verarbeitung in Unternehmen befinden. Jeder, der schon länger in der IT-Branche tätig ist, weiß, dass sich die Technologien und Ansätze zur Datenverarbeitung und -speicherung ständig weiterentwickeln. In den letzten 10 bis 15 Jahren war das Tempo der Veränderungen jedoch bemerkenswert. Wir haben uns von einer Welt, in der fast alle Unternehmensdaten mit SQL-Varianten verarbeitet und analysiert wurden und in einer Art relationaler Datenbank gespeichert waren, zu einer Welt entwickelt, in der die Daten eines Unternehmens in einer Vielzahl sogenannter NoSQL-Speichersysteme gespeichert werden können. Jede dieser Engines opfert einige Beschränkungen des relationalen Modells, um eine bessere Leistung und Skalierbarkeit für einen bestimmten Anwendungsfall zu erreichen. Die moderne Datenlandschaft umfasst neben den traditionellen relationalen Datenbanken auch nicht-relationale Key-Value-Stores, verteilte Dateisysteme, verteilte kolumnare Datenbanken, Protokollspeicher und Dokumentenspeicher. Die Daten in diesen Systemen werden auf vielfältige Weise genutzt und mit verteilten Stapelverarbeitungsalgorithmen, Stream-Processing, massiv parallel verarbeiteten Query-Engines, Freitextsuchen und Pipelines für maschinelles Lernen verarbeitet.

Es gibt viele Gründe für diesen Wandel, aber die wichtigsten sind:

Band

Der Begriff " Big Data" wurde schon zu oft verwendet, um noch viel Wert zu haben, aber die schiere Menge an Daten, die von den heutigen Unternehmen erzeugt wird, vor allem von denen mit einer starken Internetpräsenz - also von allen Unternehmen - ist atemberaubend. Die Datenexplosion durch Edge Computing und Internet of Things (IoT)-Geräte wird das Volumen nur noch vergrößern. Auch wenn es auf den ersten Blick nicht sinnvoll erscheint, Daten so granular wie möglich zu speichern, wird dies immer wichtiger, um neue Erkenntnisse zu gewinnen. Speicherung ist billig, und schlechte Entscheidungen, die dauerhafte Folgen haben, sind kostspielig. Besser ist es, mit einer modernen Datenplattform detailgetreu zu speichern und die Möglichkeit zu haben, später eine neue Entscheidung zu treffen. Herkömmliche Architekturen, die auf relationalen Datenbanken und gemeinsamer Speicherung von Dateien basieren, sind einfach nicht in der Lage, Daten in diesen Größenordnungen zu speichern und zu verarbeiten. Dies hat direkt zur Entwicklung neuer Tools und Techniken geführt, bei denen Berechnungen standardmäßig linear skalierbar und verteilt sind.

Geschwindigkeit

Vorbei sind die Zeiten, in denen die Daten für die Analyse in schönen, sauberen täglichen Stapeln ankamen. Auch wenn dies bei einigen Datensätzen immer noch der Fall ist, kommen die Daten immer häufiger im Streaming-Verfahren mit hohen Raten an. Die Geschwindigkeit, mit der sie erzeugt werden, erfordert eine neue Art der Speicherung, Verarbeitung und Bereitstellung der Daten.

Sorte

Neue Einsichten und neue Modelle leben von Daten - je mehr, desto besser. Bislang ungenutzte Datenquellen, vielleicht in halbstrukturierter oder völlig unstrukturierter Form, werden zunehmend nachgefragt. Alle Aspekte des Betriebs eines Unternehmens sind relevante und potenziell wertvolle Informationsquellen, die zu neuen Erkenntnissen und letztlich zu mehr Umsatz führen. Eine einzige, einheitliche Plattform mit Technologien, die all diese vielfältigen Daten speichern und verarbeiten können, ist unerlässlich.

Wettbewerb

Die Unternehmen, die im Datenzeitalter erfolgreich sein werden, sind diejenigen, die neue Geschäftsstrategien und Produkte entwickeln und vor allem Entscheidungen auf der Grundlage der aus neuen Datenquellen gewonnenen Erkenntnisse treffen. Um die richtigen datengestützten Entscheidungen zu treffen, brauchst du eine solide Daten- und Berechnungsplattform. Eine solche Plattform muss sowohl vor Ort als auch in der Cloud eingesetzt werden können. Außerdem muss sie skalierbar sein, um herkömmliche Datenanalysen zu unterstützen und um Fortschritte in deinem Unternehmen durch Data Science, maschinelles Lernen und künstliche Intelligenz (KI) zu ermöglichen.

Einige Missverständnisse

Wir haben gerade erst damit begonnen, Hadoop in Unternehmen zu erforschen, aber es lohnt sich, einige gängige Missverständnisse über Datenplattformen und Hadoop gleich zu Beginn auszuräumen:

Daten in Hadoop sind schemalos

Es stimmt zwar, dass viele Technologien im Hadoop-Ökosystem flexiblere Vorstellungen von Schemata haben und diese nicht so strikt vorschreiben wie z. B. eine relationale Datenbank, aber es ist ein Irrtum zu glauben, dass die in Hadoop-Clustern gespeicherten Daten kein definiertes Schema benötigen. Anwendungen, die in Hadoop gespeicherte Daten nutzen, müssen die Daten, die sie abfragen, immer noch verstehen, und es gibt immer eine Art zugrunde liegendes Datenmodell oder eine Struktur, entweder implizit oder explizit. Das Hadoop-Ökosystem bietet jedoch viel mehr Flexibilität bei der Art und Weise, wie die Daten strukturiert und abgefragt werden. Anstatt den Daten beim Einlesen ein global festgelegtes Schema aufzuerlegen und möglicherweise Felder zu löschen, die dem Schema nicht entsprechen, erhalten die Daten ihre Struktur von den Frameworks und Anwendungen, die sie nutzen. Dieses Konzept wird oft als " Schema on Read" bezeichnet. Du kannst jede Art von Daten in ihrer Rohform speichern und sie dann verarbeiten, umwandeln und mit anderen Quellen kombinieren, um das beste Format und die beste Struktur für deinen Anwendungsfall zu erhalten. Und wenn du etwas falsch machst, kannst du jederzeit eine neue Darstellung aus den Rohdaten erstellen.

Eine Kopie der Daten

Das ist ein weit verbreiteter Fehler, wenn man über moderne Datenplattformen nachdenkt. Unterschiedliche Anwendungsfälle erfordern unterschiedliche Zugriffsmuster, und das bedeutet oft, dass dieselben Datensätze auf unterschiedliche Weise mit unterschiedlichen Speicher-Engines gespeichert werden. Das ist eine logische Konsequenz der verschiedenen Optimierungen, die jede Speicherung bietet. Diese Datenvervielfältigung sollte als normaler Vorgang betrachtet und als grundlegender Aspekt der Freiheit im Hadoop-Ökosystem akzeptiert werden. Hadoop-Plattformen sind so konzipiert, dass sie horizontal skalierbar und um Größenordnungen billiger sind (wenn die IT-Abteilung deines Unternehmens einen vernünftigen Ansatz für die Beschaffung hat) als die proprietären Alternativen. Aber die Einsparungen bei der Speicherung sind nur ein Aspekt - vielleicht nicht einmal der wichtigste - beim Wechsel zu einer modernen Datenplattform. Sie bietet dir auch eine Vielzahl von Möglichkeiten, die Daten zu verarbeiten und abzufragen und durch skalierbare Analysen und maschinelles Lernen neue Werte zu schaffen.

Ein riesiger Haufen

In der anfänglichen Aufregung über die Umstellung auf Hadoop entstand die Vorstellung von einem einzigen, allumfassenden Data Lake, in dem alle Daten gespeichert und alle Verarbeitungen und Abfragen auf einem einzigen Cluster durchgeführt werden, der potenziell aus vielen Tausenden von Rechnern besteht. Obwohl Hadoop durchaus in der Lage ist, auf eine solche Anzahl von Servern zu skalieren, passen die verschiedenen Zugriffsmuster und Arten der Datenverarbeitung nicht unbedingt gut in einen einzigen Cluster. Die Zusammenlegung von Anwendungsfällen, die strikte Zeitgarantien für den Abschluss von Abfragen erfordern, mit anderen Ad-hoc-Workloads, die variabel sind, wird wahrscheinlich zu einer unbefriedigenden Erfahrung führen. Es gibt zwar Kontrollmechanismen für die Mehrmandantenfähigkeit, aber sie können nichts an der Tatsache ändern, dass eine begrenzte Anzahl von Ressourcen nicht immer allen Anforderungen gerecht werden kann. Daher solltest du mehrere Cluster einplanen, die verschiedene Anwendungsfälle mit ähnlichen Verarbeitungsmustern oder Service Levels bedienen. Übertreibe es aber nicht mit der anderen Seite. Viele kleine Cluster können genauso schlecht sein wie ein "einziger Cluster, der alle Anforderungen erfüllt". Cluster können und sollten gemeinsam genutzt werden, aber sei darauf vorbereitet, sie zu teilen und zu erobern, wenn es nötig ist.

Einige allgemeine Trends

Die Trends in der Industrie sind deutlich zu erkennen. Viele, wenn nicht sogar die meisten Unternehmen haben sich bereits auf den Weg zu datengesteuerten Lösungen gemacht und investieren in Hardware, Software und Dienstleistungen. Prognosen zufolge wird der Big-Data-Markt weiter wachsen und bis 2025 einen Jahresumsatz von etwa 90 Mrd. US-Dollar erreichen. Auch verwandte Märkte wie Deep Learning und künstliche Intelligenz, die durch Datenplattformen ermöglicht werden, werden in den nächsten zehn Jahren ein exponentielles Wachstum verzeichnen.

Der Wechsel zu Hadoop und zu modernen Datenplattformen im Allgemeinen fiel mit einer Reihe von Trends in der Unternehmens-IT zusammen, von denen wir hier eine Auswahl diskutieren. Einige dieser Trends sind direkt auf den Fokus auf Big Data zurückzuführen, andere wiederum sind das Ergebnis einer Vielzahl anderer Faktoren, wie dem Wunsch, die Softwarekosten zu senken, den IT-Betrieb zu konsolidieren und zu vereinfachen und die Zeit für die Beschaffung neuer Hardware und Ressourcen für neue Anwendungsfälle drastisch zu reduzieren.

Horizontale Skalierung

Dieser Trend ist bereits weit verbreitet. Es ist inzwischen allgemein anerkannt, dass der richtige Weg zur Skalierung einer Plattform für Speicherung und Datenverarbeitung die horizontale Skalierung mit verteilten Clustern von Standard-Servern (was nicht unbedingt die billigsten bedeutet) ist und nicht die vertikale Skalierung mit immer leistungsfähigeren Maschinen. Auch wenn einige Arbeitslasten, wie z. B. Deep Learning, schwieriger zu verteilen und zu parallelisieren sind, können sie dennoch von einer Vielzahl von Maschinen mit vielen Kernen, RAM und GPUs profitieren, und die Daten, die solche Arbeitslasten antreiben, werden in horizontal skalierbaren Umgebungen aufgenommen, bereinigt und vorbereitet.

Einführung von Open Source

Obwohl proprietäre Software immer ihren Platz haben wird, haben Unternehmen die Vorteile von Open-Source-Software im Zentrum ihrer Datenstrategien zu schätzen gelernt, mit den damit verbundenen Vorteilen von Transparenz und Datenfreiheit. Immer mehr Unternehmen - vor allem Behörden - verlangen, dass neue Projekte mit Open-Source-Technologien entwickelt werden.

Umfassender Einsatz von Cloud Compute

Wir haben einen Wendepunkt bei der Nutzung von öffentlichen Cloud-Diensten erreicht. Diese Dienste haben einen Reifegrad in Bezug auf Leistungsfähigkeit und Sicherheit erreicht, so dass selbst regulierte Branchen wie das Gesundheitswesen und Finanzdienstleistungen einen großen Teil ihrer Arbeitslasten in der Cloud ausführen können. Cloud-Lösungen können in Bezug auf Agilität, Skalierbarkeit und Leistung erhebliche Vorteile gegenüber On-Premises-Lösungen haben. Die Möglichkeit, die Cloud-Nutzung auf die Betriebs- und nicht auf die Investitionskosten anzurechnen, ist ebenfalls ein wichtiger Faktor für die Akzeptanz von Cloud-Lösungen, auch wenn die Kosten auf lange Sicht beträchtlich sein können. Auch wenn die Nutzung öffentlicher Cloud-Dienste zunimmt und weiter zunehmen wird, ist es unwahrscheinlich, dass sie flächendeckend wird. Einige Workloads werden in traditionellen On-Premise-Clustern oder privaten Clouds verbleiben müssen. In der derzeitigen Landschaft müssen Datenplattformen in der Lage sein, transparent vor Ort, in der öffentlichen Cloud und in privaten Clouds zu arbeiten.

Hinweis

Es gibt viele spannende Entwicklungen im Bereich der Cloud-basierten Bereitstellung, insbesondere im Hinblick auf neue Möglichkeiten der Bereitstellung und des Betriebs von Frameworks mithilfe von Containern, wie sie mit Docker und Kubernetes möglich sind. Da sie in Unternehmen noch nicht weit verbreitet sind und bewährte Methoden und Bereitstellungsmuster noch im Entstehen begriffen sind, gehen wir in diesem Buch nicht näher auf diese Technologien ein, empfehlen aber, die Entwicklungen in diesem Bereich genau zu verfolgen.

Entkoppelte Datenverarbeitung und Speicherung

Der Wunsch, die Datenverarbeitung von der Speicherung zu entkoppeln, hängt eng mit dem Übergang zum Cloud Computing zusammen. In den ersten Jahren, als Netzwerke mit hohem Durchsatz noch relativ selten waren und viele Datenanwendungen durch die Festplattenbandbreite begrenzt waren, verwendeten Hadoop-Cluster fast ausschließlich direkt angeschlossene Speicherung (aus gutem Grund, wie wir in den folgenden Kapiteln sehen werden). Die Verlagerung vieler Workloads in die öffentliche Cloud hat jedoch neue Möglichkeiten für die Interaktion mit persistenten Daten eröffnet, die sich die hocheffizienten vernetzten Speichersysteme zunutze machen, so dass Rechenleistung und Speicherung für viele Workloads unabhängig voneinander skaliert werden können. Das bedeutet, dass die Datenplattform der Zukunft flexibel sein muss, wenn es darum geht, wie und von wo aus sie den Zugriff auf die Daten ermöglicht, da sowohl lokale als auch entfernte Rechencluster auf die Daten in den Speicherclustern zugreifen werden.

Worum geht es in diesem Buch?

Als wir darüber nachdachten, dieses Buch zu schreiben, haben wir uns ernsthaft Gedanken über den Titel gemacht. Wenn du die ersten Entwürfe gesehen hast, wirst du wissen, dass es ursprünglich einen anderen Titel hatte: Hadoop im Unternehmen. Aber in Wahrheit geht es bei den Clustern um viel mehr als das Hadoop Distributed File System (HDFS), Yet Another Resource Negotiator (YARN) und MapReduce. Auch wenn es immer noch üblich ist, diese Plattformen als Hadoop-Cluster zu bezeichnen, sind in Wirklichkeit Hadoop, Hive, Spark, HBase, Solr und all die anderen gemeint. Die moderne Datenplattform besteht aus einer Vielzahl von Technologien, und es kann eine entmutigende Aufgabe sein, sie miteinander zu verbinden.

Du fragst dich vielleicht auch, warum wir noch ein weiteres Buch über Hadoop und die dazugehörigen Technologien brauchen. Sind diese Themen in der Literatur, in der Blogosphäre und auf den Konferenzen nicht bereits gut - ja sogar erschöpfend - behandelt worden? Die Antwort lautet ja, bis zu einem gewissen Grad. Es gibt jede Menge Material über das Innenleben der Technologien selbst und über die Kunst, Datenanwendungen zu entwickeln und sie auf neue Anwendungsfälle anzuwenden. Auch für Systemadministratoren gibt es einiges an Material über den Betrieb von Clustern. Es gibt jedoch viel weniger Material über die erfolgreiche Integration von Hadoop-Clustern in einem Unternehmenskontext.

Mit diesem Buch wollen wir dich in die Lage versetzen, moderne Unternehmensdatenplattformen erfolgreich zu entwickeln, aufzubauen, zu integrieren und zu betreiben. Unsere Erfahrung als Anbieter professioneller Dienstleistungen für Hadoop und die damit verbundenen Dienste in den letzten fünf oder mehr Jahren hat gezeigt, dass es sowohl für Architekten als auch für Praktiker einen großen Mangel an Anleitung gibt. Wenn du diese Aufgaben ohne Anleitung in Angriff nimmst, kann das zu teuren architektonischen Fehlern, enttäuschender Anwendungsleistung oder dem falschen Eindruck führen, dass solche Plattformen nicht unternehmenstauglich sind. Wir wollen dir den Einstieg in Big Data im Allgemeinen und in Hadoop im Besonderen so leicht wie möglich machen.

Wer sollte dieses Buch lesen?

In diesem Buch decken wir eine Menge ab. Einige Abschnitte sind vor allem technisch, während andere Abschnitte die Praxis und die Architektur auf einer höheren Ebene diskutieren. Das Buch kann von jedem gelesen werden, der im Rahmen seiner täglichen Arbeit mit Hadoop zu tun hat, aber wir hatten die folgenden Hauptzielgruppen im Blick, als wir das Buch geschrieben haben:

IT-Manager

Jeder, der für die Bereitstellung und den Betrieb von Hadoop-Clustern in Unternehmen verantwortlich ist (Kapitel 1, 2, 5 und 14)

Unternehmensarchitekten

Diejenigen, deren Aufgabe es ist, dafür zu sorgen, dass alle Aspekte des Hadoop-Clusters mit den anderen Unternehmenssystemen integriert und verbunden werden, und die sicherstellen müssen, dass der Cluster gemäß den Unternehmensstandards betrieben und verwaltet wird (Kapitel 1-4, 6-7 und 9-18)

Anwendungsarchitekten und Dateningenieure

Entwickler und Architekten, die die nächste Generation von datengesteuerten Anwendungen entwerfen und wissen wollen, wie sie ihren Code am besten in Hadoop integrieren und dessen Möglichkeiten nutzen können (Kapitel1-2, 9-13 und 17-18)

Systemadministratoren und Datenbankadministratoren (DBAs)

Diejenigen, die mit dem Betrieb und der Überwachung von Clustern betraut sind und ein umfassendes Verständnis davon haben müssen, wie die Clusterkomponenten zusammenarbeiten und wie sie mit der zugrunde liegenden Hardware und externen Systemen interagieren (Kapitel 1, 3, 4 und 6-18)

Wir haben besonders relevante Kapitel markiert, aber die Leser sollten sich durch diese Auswahl nicht eingeschränkt fühlen. Jedes Kapitel enthält Informationen, die für jede Zielgruppe interessant sind.

Der Weg in die Zukunft

In diesem Buch geht es um alles, was mit Architektur zu tun hat. Wir haben es in drei Teile aufgeteilt. In Teil I schaffen wir eine solide Grundlage für Cluster, indem wir uns die zugrunde liegende Infrastruktur ansehen. In Teil II befassen wir uns mit der Plattform als Ganzes und damit, wie man einen stabilen Cluster aufbaut, der sich reibungslos in externe Systeme integrieren lässt. In Teil III behandeln wir schließlich die wichtigen architektonischen Aspekte des Betriebs von Hadoop in der Cloud. Wir beginnen mit einer technischen Einführung in Hadoop und das Ökosystem.

In diesem Buch verwendete Konventionen

In diesem Buch werden die folgenden typografischen Konventionen verwendet:

Kursiv

Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.

Constant width

Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.

Constant width bold

Zeigt Befehle oder anderen Text an, der vom Benutzer wortwörtlich eingetippt werden sollte.

Constant width italic

Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.

Tipp

Dieses Element steht für einen Tipp oder eine Anregung.

Hinweis

Dieses Element steht für einen allgemeinen Hinweis.

Warnung

Dieses Element weist auf eine Warnung oder einen Warnhinweis hin.

O'Reilly Safari

Hinweis

Safari (ehemals Safari Books Online) ist eine mitgliedschaftsbasierte Schulungs- und Nachschlageplattform für Unternehmen, Behörden, Lehrkräfte und Einzelpersonen.

Mitglieder haben Zugang zu Tausenden von Büchern, Schulungsvideos, Lernpfaden, interaktiven Tutorials und kuratierten Playlists von über 250 Verlagen, darunter O'Reilly Media, Harvard Business Review, Prentice Hall Professional, Addison-Wesley Professional, Microsoft Press, Sams, Que, Peachpit Press, Adobe, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM Redbooks, Packt, Adobe Press, FT Press, Apress, Manning, New Riders, McGraw-Hill, Jones & Bartlett und Course Technology, um nur einige zu nennen.

Weitere Informationen erhältst du unter http://oreilly.com/safari.

Wie du uns kontaktierst

Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Nord
  • Sebastopol, CA 95472
  • 800-998-9938 (in den Vereinigten Staaten oder Kanada)
  • 707-829-0515 (international oder lokal)
  • 707-829-0104 (Fax)

Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter http://bit.ly/architectingModernDataPlatforms aufrufen .

Wenn du Kommentare oder technische Fragen zu diesem Buch stellen möchtest, sende eine E-Mail an

Weitere Informationen zu unseren Büchern, Kursen, Konferenzen und Neuigkeiten findest du auf unserer Website unter http://www.oreilly.com.

Finde uns auf Facebook: http://facebook.com/oreilly

Folge uns auf Twitter: http://twitter.com/oreillymedia

Schau uns auf YouTube: http://www.youtube.com/oreillymedia

Danksagungen

Das Hauptziel dieses Buches ist es, unseren Leserinnen und Lesern bei der erfolgreichen Integration von Hadoop in Unternehmen zu helfen. Dazu mussten wir über technische Fakten und Spezifikationen hinausgehen, um umsetzbare Ratschläge zu geben, die im Wesentlichen ein Bericht darüber sind, wie Big Data in der Unternehmens-IT umgesetzt wird. Dies wäre ohne die Hilfe vieler erfahrener Personen, die Big Data seit langem praktizieren, völlig unmöglich gewesen, darunter viele unserer aktuellen und ehemaligen Kollegen, Kunden und andere Branchenexperten. Wir fühlen uns privilegiert, dass wir uns auf ihr Wissen und ihre Erfahrung verlassen konnten, als wir an die Grenzen unserer eigenen stießen.

Wir bedanken uns bei Jörg Grauvogl, Werner Schauer, Dwai Lahiri und Travis Campbell für ihr umfangreiches Feedback und ihre bewährten Methoden zu Netzwerken, privaten Clouds und dem Design von Rechenzentren. Wir möchten uns auch bei Stefan Letz und Roelf Zomerman für die geduldige Diskussion und Beantwortung unserer vielen Fragen zu öffentlichen Clouds bedanken. Ein besonderer Dank geht an Andrew Wang, der uns ausführlich über das HDFS Erasure Coding und seine Möglichkeiten für Zero-Copy-Reads informiert hat! Ein weiterer Dank geht an Dominik Meyer, Alexis Moundalexis, Tristan Stevens und Mubashir Kazia.

Wir müssen auch dem großartigen Team von O'Reilly danken: Marie Beaugureau, Nicole Tache und Michele Cronin - vielen Dank für euren unermüdlichen Einsatz und eure Betreuung. Ohne euch wären wir im Weltall verloren. Ein weiterer Dank geht an Kristen Brown, Colleen Cole, Shannon Wright und Nick Adams.

Unsere tiefste Verpflichtung gilt unseren Gutachtern: David Yahalom, Frank Kane, Ryan Blue, Jesse Anderson, Amandeep Khurana und Lars Francke. Ihr habt viel von eurer wertvollen Zeit investiert, um diese Arbeit durchzulesen und uns unschätzbares Feedback zu geben, unabhängig von der Breite der Themen.

Nun zu unseren individuellen Danksagungen:

Ian Buss

Ich bin meinem Arbeitgeber Cloudera und insbesondere Hemal Kanani und meinen Kollegen in New York, Jeremy Beard, Ben Spivey und Jeff Shmain, sehr dankbar, dass sie mich während des gesamten Prozesses mit Zeit und Ermutigung unterstützt haben. Mein Dank gilt auch Michael Ernest, der mir viele Ratschläge zum "verbalen Styling" gab.

Wie bei vielen Dingen im Leben ist das Schreiben eines Buches immer mehr Arbeit als erwartet, aber es war ein seltenes Privileg, mit meinen Autorenkollegen Jan, Paul und Lars zusammenzuarbeiten. Danke für die Rezensionen, Diskussionen und all die harte Arbeit, die ihr geleistet habt - und für die Kameradschaft. Es hat Spaß gemacht.

Schließlich - und das ist das Wichtigste - möchte ich meiner wunderbaren Familie danken: Jenna, Amelia und Sebastian. Danke, dass ihr mir erlaubt habt, dieses Projekt in Angriff zu nehmen, für eure unermüdliche Liebe, Unterstützung und Ermutigung während des langen Prozesses und dafür, dass ihr euch nie über die verlorenen Abende, Wochenenden und Feiertage beschwert habt - nicht einmal, als ihr herausgefunden habt, dass das Buch trotz des Umschlags nicht von Vögeln handelt. Dieses Buch ist für euch.

Jan Kunigk

Für Dala, Ilai, Katy und Andre. Danke, dass ihr an mich geglaubt habt.

Ich möchte mich auch bei meinen Autorenkollegen bedanken: Ian, Paul und Lars - wir sind durch dick und dünn gegangen, haben viel über uns selbst gelernt und es geschafft, einen kühlen Kopf zu bewahren. Es ist mir eine Ehre, mit euch zusammenzuarbeiten.

Paul Wilkinson

An meine Familie, Sarah, Tom und Evie: Danke. Dieses Buch zu schreiben war ein seltenes Privileg, aber das größte Opfer, um es zu ermöglichen, habt ihr gebracht. Dafür, für eure Geduld und für eure Unterstützung bin ich euch sehr dankbar.

Ich bin auch meinen Co-Autoren Jan, Ian und Lars unglaublich dankbar. Ich habe keinen Zweifel daran, dass dieses Buch ohne eure Beiträge viel weniger wert wäre - und das nicht nur in Bezug auf die Anzahl der Wörter. Eure Freundschaft und Kameradschaft bedeuten mir sehr viel.

Schließlich ist dies auch eine seltene Gelegenheit, mich bei den Tausenden von Unterstützern zu bedanken: All meinen Freunden, Lehrern, Dozenten, Kunden und Kollegen: Jeder von euch hat eine wichtige Rolle in meinem Leben gespielt und mein Denken und Verstehen geprägt - auch wenn ihr euch dessen nicht bewusst seid. Ich danke euch allen!

Lars George

Dies ist für meine liebevolle Familie, Katja, Laura und Leon. Danke, dass ihr zu mir gehalten habt, auch wenn ich Versprechen nicht eingehalten oder euch vernachlässigt habe - ihr seid die Welt für mich.

Vielen Dank auch an meine Co-Autoren Doc Ian, Tenacious Jan und "Brummie" Paul, die nicht nur ehemalige Kollegen von mir sind, sondern auch Freunde fürs Leben. Ihr habt das hier möglich gemacht und ich bin dankbar, dass ich dabei sein durfte.

Und allen bei O'Reilly für ihre Geduld mit uns, den Gutachtern für ihre unermüdliche Hilfe und all den Menschen hinter Hadoop und Big Data, die dieses Ökosystem aufgebaut haben: Danke. Wir stehen aufrecht auf euren Schultern.

Trotz seiner enormen Komplexität hat das Hadoop-Ökosystem eine rasche Einführung verteilter Systeme in die Unternehmens-IT ermöglicht. Wir freuen uns, Teil dieser Reise zu sein, zusammen mit den großartigen Menschen, die uns dabei geholfen haben, unser Wissen über dieses Gebiet zu vermitteln. Big Data in Unternehmen hat seine Reiseflughöhe erreicht, aber zweifelsohne werden die Innovationen bei den Software-Frameworks für die Datenverarbeitung, die Menge der Daten und ihr Wert weiterhin unsere heutige Vorstellungskraft übersteigen.

Das ist erst der Anfang!

Get Architektur von modernen Datenplattformen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.