Streaming-Datenbanken

Book description

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Echtzeitanwendungen sind heute die Norm. Doch um ein funktionierendes Modell zu erstellen, müssen die Daten in Echtzeit an der Quelle ankommen, während der Verarbeitung des Datenstroms verarbeitet werden und die Analysen mit geringer Latenz bereitgestellt werden. In diesem praktischen Buch erfahren Dateningenieure, Datenarchitekten und Datenanalysten, wie sie Streaming-Datenbanken für den Aufbau von Echtzeitlösungen nutzen können.

Die Autoren Hubert Dulay und Ralph M. Debusmann führen dich durch die Grundlagen von Streaming-Datenbanken und zeigen dir, wie diese Datenbanken die Infrastruktur für Echtzeitlösungen reduzieren. Du lernst den Unterschied zwischen Streaming-Datenbanken, Stream-Processing und Echtzeit-OLAP-Datenbanken (Online Analytical Processing) kennen. Außerdem erfährst du, wann du Push-Abfragen und wann du Pull-Abfragen verwenden solltest und wie du synchrone und asynchrone Daten aus Streaming-Datenbanken verarbeiten kannst.

Dieser Leitfaden hilft dir:

  • Streaming-Verarbeitung und Streaming-Datenbanken kennenzulernen
  • lernst du, wie du eine Echtzeitlösung mit einer Streaming-Datenbank aufbaust
  • Verstehen, wie man materialisierte Ansichten aus einer beliebigen Anzahl von Streams erstellt
  • Lernen, wie man synchrone und asynchrone Daten bereitstellt
  • Wie du mit minimalem Aufwand Streaming-Lösungen erstellen kannst

Table of contents

  1. Vorwort
  2. Vorwort
    1. In diesem Buch verwendete Konventionen
    2. Code-Beispiele verwenden
    3. O'Reilly Online Learning
    4. Wie du uns kontaktierst
    5. Huberts Danksagung
    6. Ralphs Danksagungen
  3. 1. Streaming-Grundlagen
    1. Die Datenbank von innen nach außen drehen
    2. Datenbankfunktionen externalisieren
      1. Vorausschauendes Schreiben
      2. Streaming-Plattformen
      3. Materialisierte Ansichten
    3. Anwendungsfall: Clickstream-Analyse
      1. Vorgänge und Ereignisse verstehen
      2. Domänenorientiertes Design
    4. Anreicherung des Kontextes
    5. Datenerfassung ändern
    6. Steckverbinder
      1. Connector Middleware
      2. Eingebettet
      3. Sonderanfertigungen
    7. Zusammenfassung
  4. 2. Stream Processing Plattformen
    1. Zustandsbezogene Umwandlungen
    2. Daten-Pipelines
      1. ELT-Einschränkungen
      2. Stream Processing mit ELT
    3. Stream-Prozessoren
      1. Beliebte Stream-Prozessoren
      2. Neuere Stream-Prozessoren
    4. Emulation von Materialized Views in Apache Spark
    5. Zwei Arten von Strömen
      1. Stream anhängen
      2. Debezium Daten ändern
      3. Materialisierte Ansichten
    6. Zusammenfassung
  5. 3. Daten in Echtzeit bereitstellen
    1. Real-Time-Erwartungen
    2. Auswahl eines analytischen Datenspeichers
    3. Beschaffung aus einem Thema
    4. Ingestion Transformationen
    5. OLTP vs. OLAP
      1. SÄURE
      2. Zeilen- versus spaltenbasierte Optimierung
    6. Abfragen pro Sekunde und Gleichzeitigkeit
    7. Indizierung
    8. Analytische Ergebnisse servieren
      1. Synchrone Abfragen
      2. Asynchrone Abfragen
      3. Push- versus Pull-Abfragen
    9. Zusammenfassung
  6. 4. Materialisierte Ansichten
    1. Ansichten, materialisierte Ansichten und inkrementelle Updates
    2. Datenerfassung ändern
    3. Push- versus Pull-Abfragen
    4. CDC und Upsert
    5. Ströme verbinden
      1. Apache Calcit
      2. Clickstream Anwendungsfall
    6. Zusammenfassung
  7. 5. Einführung in Streaming-Datenbanken
    1. Identifizierung der Streaming-Datenbank
      1. Spaltenbasierte Streaming-Datenbank
      2. Zeilenbasierte Streaming-Datenbank
      3. Kanten-Streaming-ähnliche Datenbanken
    2. SQL-Expressivität
    3. Streaming Debuggability
      1. Vorteile der Fehlersuche in Streaming-Datenbanken
      2. SQL ist keine Silberkugel
    4. Implementierungen von Streaming-Datenbanken
    5. Architektur der Streaming-Datenbank
    6. ELT mit Streaming-Datenbanken
    7. Zusammenfassung
  8. 6. Konsistenz
    1. Ein Beispiel für Spielzeug
      1. Transaktionen
      2. Die Analyse der Transaktionen
    2. Vergleich der Konsistenz zwischen verschiedenen Stream-Processing-Systemen
      1. Flink SQL
      2. ksqlDB
      3. Proton (Timeplus)
      4. RisingWave
      5. Materialisieren
      6. Pfad
      7. Außerordentliche Meldungen
    3. Mehr als nur eventuelle Beständigkeit
      1. Warum scheitern konsistente Stream-Prozessoren am Beispiel des Spielzeugs?
      2. Wie bestehen intern konsistente Stream-Processing-Systeme das Spielzeug-Beispiel?
      3. Wie können wir konsistente Stream-Processing-Systeme so gestalten, dass sie das Spielzeugbeispiel bestehen?
    4. Konsistenz vs. Latenz
    5. Zusammenfassung
  9. 7. Aufkommen anderer hybrider Datensysteme
    1. Datenebenen
    2. Hybride transaktionale/analytische Datenbank
    3. Andere Hybrid-Datenbanken
    4. Beweggründe für hybride Systeme
    5. Der Einfluss von PostgreSQL auf Hybrid-Datenbanken
    6. Analytik am Rande des Geschehens
    7. Hybride Datenbanken der nächsten Generation
      1. Streaming-OLTP-Datenbanken der nächsten Generation
      2. Streaming RTOLAP-Datenbanken der nächsten Generation
      3. HTAP-Datenbanken der nächsten Generation
    8. Zusammenfassung
  10. 8. Null-ETL oder Fast-Zero-ETL
    1. ETL-Modell
    2. Null-ETL
    3. Near-Zero-ETL
      1. PeerDB
      2. Proton
      3. Eingebettetes OLAP
      4. Datenschwerkraft und Replikation
      5. Analytische Datenreduktion
    4. Lambda-Architektur
      1. Apache Pinot Hybrid Tische
      2. Pipeline-Konfigurationen
    5. Zusammenfassung
  11. 9. Die Streaming-Ebene
    1. Daten Schwerkraft
    2. Komponenten der Streaming-Ebene
    3. Infrastruktur der Streaming-Ebene
    4. Operative Analytik
    5. Datengeflecht
      1. Säulen eines Datennetzes
      2. Die Herausforderung eines Datennetzes
    6. Streaming Data Mesh mit Streaming Plane und Streaming Databases
      1. Daten Lokalität
      2. Datenreplikation
    7. Zusammenfassung
  12. 10. Modelle für den Einsatz
    1. Konsistente Streaming-Datenbank
    2. Konsistenter Streaming-Prozessor und RTOLAP
    3. Schließlich konsistente OLAP-Streaming-Datenbank
    4. Eventuell konsistenter Stream Processor und RTOLAP
    5. Konsistenter Stream-Prozessor und HTAP
    6. ksqlDB
    7. Inkrementelle Wartung der Ansicht
    8. Postgres Multicorn Foreign Data Wrapper
    9. Wann sollten codebasierte Stream-Prozessoren verwendet werden?
    10. Wann sollten Seehaus-/Streamhouse-Technologien eingesetzt werden?
    11. Caching-Technologien
    12. Wo kann man die Verarbeitung und Abfrage im Allgemeinen durchführen?
      1. Die vier "Wo"-Fragen
      2. Ein analytischer Anwendungsfall
      3. Konsequenzen
    13. Zusammenfassung
  13. 11. Zukünftiger Stand der Echtzeitdaten
    1. Die Konvergenz der Datenebenen
    2. Graph-Datenbanken
      1. Memgraph
      2. thatDot/Quine
    3. Vektordatenbanken
      1. Milvus 2.x: Streaming als zentrales Backbone
      2. RTOLAP-Datenbanken: Hinzufügen der Vektorsuche
    4. Inkrementelle Wartung der Ansicht
      1. pg_ivm
      2. Hydra
      3. Epsio
      4. Feldera
      5. PeerDB
    5. Data Wrapping und Postgres Multicorn
    6. Klassische Datenbanken
    7. Data Warehouses
      1. BigQuery
      2. Redshift
      3. Schneeflocke
    8. Seehaus
      1. Deltasee
      2. Apache Paimon
      3. Apache Eisberg
      4. Apache Hudi
      5. OneTable oder XTable
      6. Die Beziehung zwischen Streaming und Seehäusern
    9. Fazit
  14. Index
  15. Über die Autoren

Product information

  • Title: Streaming-Datenbanken
  • Author(s): Hubert Dulay, Ralph Matthias Debusmann
  • Release date: September 2024
  • Publisher(s): O'Reilly Media, Inc.
  • ISBN: 9781098189846