Vorwort
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In den letzten Jahren haben viele Unternehmen damit begonnen, mit Big Data und Cloud-Technologien zu experimentieren, um Data Lakes aufzubauen und eine datengesteuerte Kultur und Entscheidungsfindung zu unterstützen - aber die Projekte geraten oft ins Stocken oder schlagen fehl, weil die Ansätze, die bei Internetfirmen funktioniert haben, für Unternehmen angepasst werden müssen und es keinen umfassenden praktischen Leitfaden gibt, wie man das erfolgreich macht. Ich habe dieses Buch in der Hoffnung geschrieben, einen solchen Leitfaden zu liefern.
In meinen Funktionen als Führungskraft bei IBM und Informatica (große Anbieter von Datentechnologie), als Entrepreneur in Residence bei Menlo Ventures (einer führenden VC-Firma) und als Gründer und CTO von Waterline (einem Big-Data-Startup) hatte ich das Glück, mit Hunderten von Experten, Visionären, Branchenanalysten und Praktikern über die Herausforderungen beim Aufbau erfolgreicher Data Lakes und die Schaffung einer datengesteuerten Kultur zu sprechen. Dieses Buch ist eine Zusammenfassung der Themen und bewährten Methoden, die mir in verschiedenen Branchen (von sozialen Medien über Banken bis hin zu Behörden) und Rollen (von Chief Data Officers und anderen IT-Führungskräften bis hin zu Datenarchitekten, Datenwissenschaftlern und Business-Analysten) begegnet sind.
Big Data, Data Science und Analytik, die datengestützte Entscheidungsfindung unterstützen, versprechen ein noch nie dagewesenes Maß an Einblicken und Effizienz in allen Bereichen - von der Arbeit mit Daten über die Zusammenarbeit mit Kunden bis hin zur Suche nach einem Heilmittel für Krebs - aber Data Science und Analytik hängen vom Zugang zu historischen Daten ab. Aus diesem Grund setzen Unternehmen Big Data Lakes ein, um alle ihre Daten an einem Ort zusammenzuführen und die Historie zu speichern, damit Datenwissenschaftler/innen und Analytiker/innen Zugang zu den Informationen haben, die sie für datengestützte Entscheidungen benötigen. Big Data Lakes für Unternehmen schließen die Lücke zwischen der freien Kultur moderner Internetunternehmen, in denen Daten das Herzstück aller Praktiken sind, jeder ein Analytiker ist und die meisten Leute ihre eigenen Datensätze programmieren und erstellen können, und Unternehmensdatenlagern, in denen Daten ein kostbares Gut sind, das von professionellen IT-Mitarbeitern sorgfältig gepflegt und in Form von sorgfältig vorbereiteten Berichten und Analysedatensätzen bereitgestellt wird.
Um erfolgreich zu sein, müssen Enterprise Data Lakes drei neue Funktionen bieten:
-
Kosteneffiziente, skalierbare Speicherung und Datenverarbeitung, so dass große Datenmengen gespeichert und analysiert werden können, ohne dass hohe Kosten für die Datenverarbeitung anfallen
-
Kosteneffizienter Datenzugriff und -verwaltung, damit jeder die richtigen Daten finden und nutzen kann, ohne dass teure Personalkosten für die Programmierung und manuelle Ad-hoc-Datenerfassung anfallen
-
Ein abgestufter, geregelter Zugang, so dass verschiedene Ebenen von Daten für verschiedene Nutzer je nach ihren Bedürfnissen und Fähigkeiten sowie den geltenden Data-Governance-Richtlinien zur Verfügung stehen können
Hadoop, Spark, NoSQL-Datenbanken und elastische Cloud-basierte Systeme sind aufregende neue Technologien, die das erste Versprechen einer kosteneffizienten, skalierbaren Speicherung und Datenverarbeitung erfüllen. Obwohl sie noch nicht ganz ausgereift sind und mit einigen der Herausforderungen zu kämpfen haben, die jede neue Technologie mit sich bringt, stabilisieren sie sich schnell und werden zum Mainstream. Diese leistungsstarken Technologien erfüllen jedoch nicht die beiden anderen Versprechen: kostengünstiger und abgestufter Datenzugriff. Wenn Unternehmen also große Cluster erstellen und riesige Datenmengen aufnehmen, haben sie am Ende keinen Datensee, sondern einen Datensumpf - eine große Ansammlung unbrauchbarer Datensätze, in denen man sich nicht zurechtfindet und die zu gefährlich sind, um sie für Entscheidungen zu nutzen.
Dieses Buch führt die Leserinnen und Leser durch die Überlegungen und bewährten Methoden, um alle Versprechen des Big Data Lake zu erfüllen. Es werden verschiedene Ansätze für den Start und das Wachstum eines Data Lakes erörtert, darunter Data Puddles (analytische Sandboxen) und Data Ponds (Big Data Warehouses), sowie der Aufbau von Data Lakes von Grund auf. Es werden die Vor- und Nachteile verschiedener Data-Lake-Architekturen (On-Premises, Cloud-basiert und virtuell) erörtert und verschiedene Zonen eingerichtet, in denen alle Arten von Daten gespeichert werden können - von unbearbeiteten Rohdaten bis hin zu sorgfältig verwalteten und zusammengefassten Daten - sowie der Zugriff auf diese Zonen geregelt. Es wird erklärt, wie man Self-Service ermöglicht, damit die Nutzer/innen Daten selbst finden, verstehen und bereitstellen können, wie man unterschiedliche Schnittstellen für Nutzer/innen mit verschiedenen Qualifikationsniveaus bereitstellt und wie man all dies im Einklang mit den Data-Governance-Richtlinien des Unternehmens tut.
Wer sollte dieses Buch lesen?
Dieses Buch richtet sich an die folgenden Zielgruppen in großen traditionellen Unternehmen:
-
Datendienste und Governance-Teams: Chief Data Officer und Data Stewards
-
IT-Führungskräfte und Architekten: Chief Technology Officers und Big-Data-Architekten
-
Analyseteams: Datenwissenschaftler, Dateningenieure, Datenanalysten und Leiter von Analyseteams
-
Compliance-Teams: Chief Information Security Officers, Datenschutzbeauftragte, Informationssicherheitsanalysten und Leiter der Compliance-Abteilung
Das Buch stützt sich auf meine 30-jährige Erfahrung in der Entwicklung von Spitzentechnologien und der Zusammenarbeit mit einigen der größten Unternehmen der Welt bei der Lösung ihrer schwierigsten Datenprobleme. Es stützt sich auf bewährte Methoden der weltweit führenden Big-Data-Firmen und -Unternehmen sowie auf Aufsätze und Erfolgsgeschichten von Praktikern und Branchenexperten, um einen umfassenden Leitfaden für die Entwicklung und den Einsatz eines erfolgreichen Big Data Lake zu bieten. Wenn du daran interessiert bist, die Vorteile dieser aufregenden neuen Big-Data-Technologien und -Ansätze für dein Unternehmen zu nutzen, ist dieses Buch ein hervorragender Startpunkt. Führungskräfte werden es vielleicht einmal lesen und dann regelmäßig nachschlagen, wenn Big-Data-Probleme am Arbeitsplatz auftauchen, während es für Praktiker/innen ein nützliches Nachschlagewerk bei der Planung und Durchführung von Big-Data-Lake-Projekten sein kann.
In diesem Buch verwendete Konventionen
In diesem Buch werden die folgenden typografischen Konventionen verwendet:
- Kursiv
-
Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.
Constant width
-
Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.
Constant width italic
-
Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.
O'Reilly Online Learning
Hinweis
Seit fast 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.
Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel, Konferenzen und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen findest du unter http://oreilly.com.
Wie du uns kontaktierst
Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Nord
- Sebastopol, CA 95472
- 800-998-9938 (in den Vereinigten Staaten oder Kanada)
- 707-829-0515 (international oder lokal)
- 707-829-0104 (Fax)
Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter http://bit.ly/Enterprise-Big-Data-Lake aufrufen .
Wenn du Kommentare oder technische Fragen zu diesem Buch stellen möchtest, sende eine E-Mail an bookquestions@oreilly.com.
Weitere Informationen zu unseren Büchern, Kursen, Konferenzen und Neuigkeiten findest du auf unserer Website unter http://www.oreilly.com.
Finde uns auf Facebook: http://facebook.com/oreilly
Folge uns auf Twitter: http://twitter.com/oreillymedia
Schau uns auf YouTube: http://www.youtube.com/oreillymedia
Danksagungen
Zuallererst möchte ich mich bei allen Experten und Praktikern bedanken, die ihre Geschichten, ihr Wissen und ihre bewährten Methoden mit mir geteilt haben - dieses Buch ist für und über dich!
Ein großes Dankeschön geht auch an all die Menschen, die mir bei diesem Projekt geholfen haben. Dies ist mein erstes Buch, und ich hätte es ohne ihre Hilfe nicht geschafft. Danke an:
-
Das O'Reilly-Team: Andy Oram, mein O'Reilly-Redakteur, der dem Buch neues Leben einhauchte, als mir die Luft ausging, und ihm dabei half, es von einem Bewusstseinsstrom zu einem gewissen Grad an Kohärenz zu bringen; Tim McGovern, der ursprüngliche Redakteur, der dabei half, das Buch auf den Weg zu bringen; und Rachel Head, die Lektorin, die mich damit schockierte, wie viele Verbesserungen nach über zwei Jahren des Schreibens, Redigierens, Umschreibens, Überarbeitens, Umschreibens, Redigierens und Umschreibens noch möglich waren...und Kristen Brown, die das Buch durch den Produktionsprozess begleitet hat.
-
Die Autoren, die ihre Gedanken und bewährten Methoden in Aufsätzen mit uns geteilt haben und deren Namen und Biografien du neben ihren Aufsätzen im Buch findest
-
Die Gutachter, die mit ihrer frischen Perspektive, ihrem kritischen Blick und ihrer Branchenkenntnis große Verbesserungen bewirkt haben: Sanjeev Mohan, Opinder Bawa und Nicole Schwartz
Und schließlich wäre dieses Buch ohne die Unterstützung und Liebe meiner wunderbaren Familie - meiner Frau Irina, meiner Kinder Hannah, Jane, Lisa und John und meiner Mutter Regina -, meiner Freunde und meiner wunderbaren Waterline-Familie nicht möglich gewesen.
Get Der Enterprise Big Data Lake now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.