Datenanalyse
•Präsentation, Analyse
•Applikation
OLAP
•Informationsmodellierung
•Multidimensionale Berechnungen
Data Warehouse
•Datenspeicherung
•Administration
ETL
•Selektion, Extraktion
•Transformation, Laden
Operative
Systeme
•Transaktionsabwicklung
•Anbindung externer Quellen
Abbildung 9.2: BI-Prozess nach [Ban03]
oder Kennzahlenrepräsentationen, aber auch Data-Mining-Analysen aufberei-
tet.
Zusammenfassend lässt sich das Data Warehouse als zentraler Informati-
onsspeicher unternehmensinterner Daten und Metadaten definieren, welcher
aber auch von externen Datenquellen befüllt wird. Business Intelligence stellt
dazu Methoden zur Verknüpfung von quantitativen, qualitativen, internen und
externen Informationen zur Verfügung. Aufgrund der hohen qualitativen An-
forderungen an den Data-Warehouse-Datenbestand ist das Data Warehouse
der zentrale Anlaufpunkt für unternehmenskritische Entscheidungen. Hierbei
muss jedoch die Menge der Daten des Data Warehouse geeignet gefiltert und
aggregiert werden, um für den jeweiligen Analysten bzw. Entscheider persona-
lisierte Informationen und notwendiges Wissen darzustellen. Dabei stellen die
Data Marts (siehe Abschnitt 2.4.1), oftmals den Ausgangspunkt der Daten für
domänenspezifische Analysen dar.
9.1.2 Knowledge Discovery
Aber auch das Datenvolumen innerhalb des Data Warehouse und somit der
Data Marts steigt kontinuierlich an. So wachsen die Datenbestände im OLAP-
Bereich ständig und ein Überblick über die den Daten inhärenten Strukturen
268 9 Business-Intelligence-Anwendungen
kann zumeist nur mittels explorativer Verfahren erfolgen. Natürlich können
auch hypothesengetriebene Analysen genutzt werden, jedoch stehen in einem
ersten Analyseschritt des Data-Warehouse-Datenbestandes eine Mustererken-
nung bzw. Data-Mining-Verfahren im Vordergrund.
Für den Prozess der Exploration von großen Datenbeständen hat sich in
der Literatur auch der Begriff Knowledge Discovery in Databases (KDD) ge-
festigt. Bei diesem Prozess wird, teilweise unabhängig vom Data Warehouse,
beschrieben, wie sich aus vorhandenen Datenbeständen Wissen ableiten lässt.
Im Gegensatz dazu betten Han & Kamber den Wissensfindungsprozess dabei
in den Kontext des Data Warehouse ein [HK06] (wie in Abbildung 9.3 veran-
schaulicht). Hintergrund des Prozesses ist die Idee, dass ein reines Anwenden
von Algorithmen auf Daten nicht zielführend ist. Daher stehen valide, neuar-
tige, möglichst nützliche und verständliche Muster in den Daten als Ziel des
Prozesses [FPSS96].
Wissen
Datenquellen
Data Warehouse
Data Marts
Muster
Datenbereinigung
und -integration
Selektion und
Transformation
Data Mining
Dok
Dok
Dok
Bewertung
Abbildung 9.3: Knowledge-Discovery-Prozess
Der Prozess lässt sich in die folgenden Phasen einteilen:
1. Datenauswahl: Hierzu muss ein Verständnis über die Anwendungsdomä-
ne und das notwendige Vorwissen vorhanden sein, um zu geeigneten Er-
gebnissen zu gelangen. Somit ist die Auswahl bzw. Filterung der Daten
meist nur unter Einbeziehung von Domänenexperten sinnvoll möglich. Un-
terschiedliche Datenquellen, wie operative Datenbanken oder Dokumente
9.1 Business Intelligence 269
müssen analysiert und hinsichtlich ihrer Eignung und den Analyseanfor-
derungen ausgewählt werden.
2. Datenvorverarbeitung: Diese stellt aus statistischer Sicht sicher, dass Aus-
reißer in den Daten, aber auch Rauschen (engl. noise) entfernt werden.
Ebenfalls wird hier der Umgang mit fehlenden Werten definiert. Dies kann
von Imputationsverfahren, d.h. der Bestimmung unbekannter Werte, bis
zur Eliminierung der betroffenen Daten reichen. Für Zeitreihen und ande-
re Daten werden zusätzliche Metainformationen angereichert, z.B. mittels
Tagging, die später für die jeweiligen Data-Mining-Verfahren notwendig
sind. Im Kontext des Data Warehousing ist hier insbesondere der ETL-
Prozess einzubeziehen. Die Datenbereinigung und Integration in das Data-
Warehouse-Schema stehen hier im Mittelpunkt.
3. Datentransformation: Ziel dieser Phase ist die Reduktion und Projektion
der multidimensionalen Daten. Das bedeutet, dass eine Identifikation für
den KDD-Prozess wesentlicher Eigenschaften der Daten (engl. features) er-
folgt. Aus der Gesamtzahl aller Data-Warehouse-Daten werden die benö-
tigten Daten selektiert und für das Data Mining aufbereitet. In der Praxis
führt dies im Allgemeinen zu einem für das Data Mining spezifizierten Da-
ta Mart.
4. Data Mining: Das eigentliche Data Mining kann unterschieden werden in
die Auswahl der Data-Mining-Aufgabe, die stark mit dem ersten Schritt
zusammenhängt, und dem eigentlichen Data Mining, d.h. der Anwendung
von Algorithmen. Für die Wahl der Data-Mining-Aufgabe sind insbesonde-
re auch die Wahl der Parameter der Data-Mining-Verfahren von einer ho-
hen Relevanz. Im eigentlichen Data Mining erfolgt dann die Identifikation
von Mustern. Zu den Data-Mining-Verfahren zählen beispielsweise die in
Abschnitt 9.3 erläuterten Klassifikation, Assoziationsregeln, Regressions-
modelle und Clusterverfahren.
5. Interpretation und Bewertung: Im letzten Schritt erfolgt die Interpretation
der identifizierten Muster. Genutzt werden dazu insbesondere verschiede-
ne Visualisierungstechniken, um Muster bzw. Regeln mit den Daten zu ver-
gleichen. Letztlich muss noch die Kommunikation der gefundenen Ergeb-
nisse erfolgen. Diese Verbreitung der Informationen kann über Wissens-
plattformen im Unternehmen oder über Business-Performance-Systeme
geeignet verteilt werden.
Obwohl der ursprüngliche Wissensentdeckungsprozess losgelöst vom Data
Warehouse erfolgen kann [FPSS96], ergeben sich bei vorhandenem Data Ware-
house eine Vielzahl von Potenzialen, um den zentralen Datenbestand effizient
im KDD-Prozess zu nutzen. Daher ist der unmittelbare Zugriff auf den bereits
für multidimensionale Analysen aufbereiteten Datenbestand von besonderem
Interesse.
270 9 Business-Intelligence-Anwendungen

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.