book

Datenintensive Anwendungen designen

Name: Datenintensive Anwendungen designen
Author: Martin Kleppmann
ISBN: 9783960090755

by Martin Kleppmann

November 2018

Intermediate to advanced

652 pages

20h 56m

German

dpunkt

Read now

Unlock full access

Cover
Titel
Impressum
Inhalt
Einleitung
Teil I: Grundlagen von Datensystemen
1 Zuverlässige, skalierbare und wartbare Anwendungen
Gedanken zu DatensystemenZuverlässigkeitHardwarefehlerSoftwarefehlerMenschliche FehlerWie wichtig ist Zuverlässigkeit?SkalierbarkeitLasten beschreibenPerformance beschreibenKonzepte zur Bewältigung von BelastungenWartbarkeitBetriebsfähigkeit: Den Betrieb erleichternEinfachheit: Komplexität im GriffEvolvierbarkeit: Änderungen erleichternZusammenfassung
2 Datenmodelle und Abfragesprachen
Relationales Modell vs. DokumentmodellDie Geburt von NoSQLDie objektrelationale Unverträglichkeitn:1- und n:n-BeziehungenWiederholen Dokumentdatenbanken die Geschichte?Heutige relationale Datenbanken vs. DokumentdatenbankenAbfragesprachen für DatenDeklarative Abfragen im WebMapReduce-AbfragenGraphen-ähnliche DatenmodelleProperty-GraphenDie Abfragesprache CypherGraph-Abfragen in SQLTriple-Stores und SPARQLDas Fundament: DatalogZusammenfassung
3 Speichern und Abrufen
Datenstrukturen, auf denen Ihre Datenbank beruhtHash-IndizesSSTables und LSM-BäumeB-BäumeB-Bäume und LSM-Bäume im VergleichAndere IndizierungsstrukturenTransaktionsverarbeitung oder Datenanalyse?Data-WarehousingSterne und Schneeflocken: Schemas für die AnalytikSpaltenorientierte SpeicherungSpaltenkomprimierungSortierreihenfolge in spaltenorientierten DatenbankenIn spaltenorientierte Datenbanken schreibenAggregation: Datenwürfel und materialisierte SichtenZusammenfassung
4 Codierung und Evolution
Formate für das Codieren von DatenSprachspezifische FormateJSON, XML und binäre VariantenThrift und Protocol BuffersAvroDie Vorzüge von SchemasDatenflussmodiDatenfluss über DatenbankenDatenfluss über Dienste: REST und RPCDatenfluss beim NachrichtenaustauschZusammenfassung

Teil II: Verteilte Daten
5 Replikation
Leader und FollowerSynchrone und asynchrone ReplikationNeue Follower einrichtenKnotenausfälle behandelnImplementierung von ReplikationsprotokollenProbleme mit der ReplikationsverzögerungDie eigenen Schreiboperationen lesenMonotones LesenPräfixkonsistenzLösungen für ReplikationsverzögerungMulti-Leader-ReplikationEinsatzfälle für Multi-Leader-ReplikationSchreibkonflikte behandeln
Topologien für Multi-Leader-Replikation
Replikation ohne LeaderIn die Datenbank schreiben, wenn ein Knoten ausgefallen istGrenzen der QuorumkonsistenzSloppy Quoren und Hinted HandoffParallele Schreibvorgänge erkennenZusammenfassung
6 Partitionierung
Partitionierung und ReplikationPartitionierung von Schlüssel-Wert-DatenPartitionierung nach SchlüsselbereichNach dem Hashwert des Schlüssels partitionierenSchiefe Arbeitslasten und Entlastung von HotspotsPartitionierung und SekundärindizesSekundärindizes nach Dokument partitionierenSekundärindizes nach Begriff partitionierenRebalancing – Partitionen gleichmäßig belastenStrategien für RebalancingOperationen: Automatisches oder manuelles RebalancingAnfragen weiterleitenParallele AbfrageausführungZusammenfassung
7 Transaktionen
Das schwammige Konzept einer TransaktionDie Bedeutung von ACIDEinzelobjekt- und MultiobjektoperationenSchwache IsolationsstufenRead CommittedSnapshot-Isolation und Repeatable ReadVerlorene Updates verhindern
Schreibversatz und Phantome
SerialisierbarkeitTatsächliche serielle AusführungZwei-Phasen-Sperrverfahren (2PL)Serialisierbare Snapshot-Isolation (SSI)Zusammenfassung
8 Die Probleme mit verteilten Systemen
Fehler und TeilausfälleCloud-Computing und SupercomputingUnzuverlässige NetzwerkeNetzwerkfehler in der PraxisFehler erkennenTimeouts und unbeschränkte VerzögerungenSynchrone und asynchrone NetzwerkeUnzuverlässige UhrenMonotone Uhren und EchtzeituhrenUhrensynchronisierung und GenauigkeitSich auf synchronisierte Uhren verlassenProzesspausen
Wissen, Wahrheit und Lügen
Die Wahrheit wird von der Mehrheit definiertByzantinische FehlerSystemmodell und RealitätZusammenfassung
9 Konsistenz und Konsens
KonsistenzgarantienLinearisierbarkeitWas macht ein System linearisierbar?Auf Linearisierbarkeit setzenLinearisierbare Systeme implementierenDie Kosten der LinearisierbarkeitOrdnungsgarantienOrdnung und KausalitätOrdnung nach SequenznummernTotal geordneter BroadcastVerteilte Transaktionen und Konsens
Atomarer Commit und Zwei-Phasen-Commit (2PC)
Verteilte Transaktionen in der PraxisFehlertoleranter KonsensMitgliedschafts- und KoordinationsdiensteZusammenfassung
Teil III: Abgeleitete Daten
10 Stapelverarbeitung
Stapelverarbeitung mit Unix-ToolsEinfache ProtokollanalyseDie Unix-PhilosophieMapReduce und verteilte DateisystemeMapReduce-JobausführungReduce-seitige Verknüpfungen und GruppierungenMap-seitige VerknüpfungenDie Ausgabe von Stapel-Workflows
Hadoop im Vergleich mit verteilten Datenbanken
Jenseits von MapReduceZwischenzustände materialisierenGraphen und iterative VerarbeitungHöhere APIs und SprachenZusammenfassung
11 Stream-Verarbeitung
Ereignisströme übertragenNachrichtensystemePartitionierte ProtokolleDatenbanken und StreamsSysteme synchron haltenErfassen von DatenänderungenEvent SourcingZustand, Streams und UnveränderlichkeitStreams verarbeitenAnwendungen der Stream-Verarbeitung
Überlegungen zur Zeit
Stream-JoinsFehlertoleranzZusammenfassung
12 Die Zukunft von Datensystemen
DatenintegrationSpezialisierte Tools durch Ableiten von Daten kombinierenBatch- und Stream-VerarbeitungDie Entflechtung von DatenbankenZusammenstellung verschiedener DatenspeichertechnikenAnwendungen datenflussorientiert entwickelnAbgeleitete Zustände beobachtenAuf der Suche nach KorrektheitDas Ende-zu-Ende-Argument für Datenbanken
Durchsetzung von Einschränkungen
Zeitnähe und IntegritätVertrauen ist gut, Kontrolle ist besserDas Richtige tunPrädiktive AnalytikDatenschutz und NachverfolgungZusammenfassung
13 Glossar
Index
Fußnoten
Über den Autor
Kolophon

Overview

Daten stehen bei vielen Aufgaben des modernen Systemdesigns im Mittelpunkt. Dabei sind komplexe Fragen wie Skalierbarkeit, Konsistenz, Zuverlässigkeit, Effizienz und Wartbarkeit zu klären. Darüber hinaus gibt es eine unüberschaubare Werkzeugpalette, einschließlich relationaler Datenbanken, NoSQL-Datenspeicher, Stream- und Batchprocessing und Message Broker. Was bedeuten diese Schlagworte? Und was ist die richtige Wahl für Ihre Anwendung?Dieser praktische und umfassende Leitfaden hilft Ihnen, sich in diesem schwierigen Terrain zurechtzufinden, indem er die Vor- und Nachteile verschiedener Technologien zur Verarbeitung und Speicherung von Daten aufzeigt. Software verändert sich ständig, die Grundprinzipien bleiben aber gleich. Mit diesem Buch lernen Softwareentwickler und -architekten, wie sie die Konzepte in der Praxis umsetzen und wie sie Daten in modernen Anwendungen optimal nutzen können.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781492070153

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills