22.6
Hard- und Software für das DWH
555
Abb. 22.3: Das Snowflake-Modell
Abbildung 22.4 zeigt die Relationen bei Verwendung eines Snowflake-Designs. In
einer SQL-Anweisung müssen drei Tabellen hierarchisch vereinigt werden.
Abb. 22.4: Relationen ohne Snowflake-Modell
22.6 Hard- und Software für das DWH
Nicht zu kurz kommen sollte bei der Planung die einzusetzende Hard- und Soft-
ware. Dabei steht nicht nur die Frage von Hardware- und Lizenzkosten im Raum,
sondern auch, welche Ressourcen und Features eingesetzt werden müssen, um
den erforderlichen Durchsatz erreichen zu können.
22.6.1 Hardware
Die Optionen reichen von traditionellen Datenbank-Servern mit Solaris, Linux
oder AIX bis zu sogenannten »Engineered Systems«. Linux-Server haben sich in
den vergangenen Jahren auch für Data Warehouse-Datenbanken immer mehr
durchgesetzt. Sie verfügen über schnelle Prozessoren mit vielen Kernen.
Kapitel 22
Ein Data Warehouse planen
556
Die CPU-Ausstattung ist ein sehr wichtiger Aspekt für die Hardware-Planung.
Um mehr Durchsatz schneller bewältigen zu können, ist ein hoher Grad an Paral-
lelisierung von Datenbankprozessen erforderlich. Dies ist nur möglich, wenn die
CPU-Ausstattung es zulässt. Die Formel ist relativ einfach: Mehr Kerne mit hoher
Taktung erlauben mehr Parallelität und damit mehr Durchsatz. Wenn man die
vergangenen Jahre verfolgt, ist die CPU-Geschwindigkeit nicht mehr nach oben
gegangen, da die Technologie weitestgehend ausgereizt ist. Man musste sich eine
höhere Taktung im oberen Bereich mit nicht mehr vertretbarem Aufwand an
Stromverbrauch und Kühlung erkaufen. Die Entwicklung geht daher in die Rich-
tung von mehr Prozessoren und mehr Kernen.
Auf der anderen Seite sind die durchschnittliche Größe der Datenbank sowie der
Anspruch an Auswertungsvielfalt und Verarbeitungszeiten stark gestiegen. In eini-
gen Fällen sind diese Anforderungen mit herkömmlicher Hardware und Features
kaum noch zu erfüllen. Man ist auf die Suche nach Sonderlösungen gegangen, um
die Ansprüche erfüllen zu können. Diese Lösungen sind eine Kombination aus spe-
ziellen Hardware-Komponenten und Software-Features. Für große Data Warehouse
und BI-Lösungen sind folgende Komponenten interessant:
Oracle Database Machine (ODM oder Exadata)
SAP HANA in Memory-Datenbank (mit angeschlossener Hardware)
Oracle In Memory. Feature der 12c-Datenbank (angekündigt für die Version
12.1.0.2)
Die ODM verfügt über eine Hardware-Ausstattung, die auf große Datenbanken
und hohen Durchsatz ausgelegt ist. Disk-Kapazitäten bis zu 100 TByte pro
Maschine können mit sogenannten »Storage Extensions« sogar erweitert werden.
Hauptspeicher reichen bis zu 1 TByte pro Knoten. CPU-Kapazitäten sind reichlich
vorhanden und werden nur selten ausgelastet. Die einzelnen Komponenten sind
über ein internes Infiniband-Netzwerk verbunden, das kleine Latenzzeiten zulässt.
SAP geht mit der In-Memory-Datenbank HANA einen eigenen Weg. Die Daten-
bank ist mit SUSE-Linux-Maschinen gebundelt und liefert durch das In-Memory-
Konzept sehr gute Durchsätze und Antwortzeiten für große Data Warehouse-
Datenbanken. Für die Planung muss man berücksichtigen, dass die Datenbank
komplett in das Memory passen muss. Für die Skalierbarkeit geht SAP den Weg
eines Shared Nothing-Cluster, in den mehrere Maschinen nebeneinander gestellt
werden.
Das Oracle In Memory-Feature ist zu diesem Zeitpunkt erst angekündigt, Details
sind noch nicht bekannt.
22.6.2 Software
Software-technisch gibt es Features, die zu einer signifikanten Verbesserung von
Durchsatz und Antwortzeiten führen. In-Memory-Datenbanken pflegen neben
22.6
Hard- und Software für das DWH
557
der traditionellen zeilenweisen Verarbeitung von Tabellen einen sogenannten
»Columnar Store«. Dabei werden die Daten einer Tabelle im Spaltenformat
gespeichert und zusätzlich noch Kompressionsalgorithmen verwendet. Erfolgt
eine Abfrage, wie viele Kunden aus dem Postleitzahlgebiet neun stammen, muss
nicht Zeile für Zeile über einen Full Table Scan gelesen werden. Es wird einfach
die Spalte »PLZ« im Columnar Store verarbeitet, und die Information kann im
Millisekundenbereich aus der Spaltenkompression ermittelt werden.
Columnar Compression ist ein Feature, das auch in der Exadata integriert ist. Die-
ses Format kommt insbesondere Data Warehouse-Abfragen zugute. Zusätzlich
verwendet die Exadata Storage-Indexe. Diese werden automatisch gebildet und
verringern die Lesezugriffe. Die Storage-Zellen können mithilfe des Index ganze
Bereiche ausschließen und lesen nur die Daten, die relevant sind. Das senkt deut-
lich das I/O-Aufkommen.
Ein weiteres Feature, das die Exadata als Plattform für große DWH-Datenbanken
so interessant macht, ist das »Cell Offloading«. Für einen traditionellen Daten-
bank-Server wird ein Full Table Scan zur Mammutaufgabe. Er schickt nicht nur
die SQL-Anweisung an die Datenbank, sondern muss sich auch noch um den
gesamten I/O kümmern. I/O bedeutet dass die I/O-Server-Prozesse bedient wer-
den müssen. Diese wiederum laufen auf der CPU. Wertvolle CPU-Ressourcen
werden mit I/O-Aufgaben belegt und können nicht für die eigentlichen Aufgaben
bei der SQL-Verarbeitung verwendet werden. Im Gegensatz dazu wird auf der Exa-
data nur die Anweisung an die Zellen geschickt. Diese übernehmen mit ihrer eige-
nen Intelligenz und eigenen Ressource das Lesen der Daten und geben das
Ergebnis an den Datenbank-Server zurück. Für die I/O-Operation werden keine
CPU-Ressourcen des Datenbank-Servers verbraucht. Diese können zum Beispiel
für eine weitere Parallelisierung oder andere Aufgaben verwendet werden.

Get Oracle 12c - Das umfassende Handbuch now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.