O'Reilly logo

Data Warehouse Technologien by Saake, Sattler, Köppen

Stay ahead with the world's most comprehensive technology and business learning platform.

With Safari, you learn the way you learn best. Get unlimited access to videos, live online training, learning paths, books, tutorials, and more.

Start Free Trial

No credit card required

4.1.4 Beheben von Datenkonflikten
Bei der Objektidentifikation kann es zu einem Datenkonflikt kommen, wenn
zwei Objekte als Duplikate identifiziert werden, diese aber unterschiedliche
Ausprägungen für ein semantisches Attribut aufweisen. Dieser Konflikt ist un-
vereinbar mit Integritätsbedingungen, die diesen Widerspruch nicht zulassen.
Dies kann damit begründet werden, dass Attribute oder Objekte aus unter-
schiedlichen Systemen zusammengetragen werden, ohne dass Integritätsbezie-
hungen möglich sind. Datenkonflikte können hierbei sowohl innerhalb eines
Systems (intra source) entstehen, z.B. durch unzureichend definierte Integri-
tätsbeziehungen, als auch durch die Zusammenführung bzw. Integration meh-
rerer Informationssysteme (inter source) auftreten.
Für diese Art der Behebung des Datenkonflikts ist die Objektidentifikation
als erster Schritt notwendig. Dafür ist es unabdingbar, eine Konfliktauflösung
durchzuführen. Dieser Prozess wird auch als Purging oder Reconciliation be-
zeichnet. Diese Datenkonflikte entstehen innerhalb eines Systems durch feh-
lende Integritätsbeziehungen und bei mehreren Systemen durch fehlende Kon-
sistenzprüfungen. Duplikate können aber auch durch redundante Schemata in
unterschiedlichen Systemen auftreten. Häufig liegt dies in partiellen Informa-
tionen begründet. Auch Fehler bei der Dateneingabe z.B. durch unkorrek-
te Werte, Tippfehler oder Übertragungsfehler oder falsche Rechenergebnisse
spielen hier eine Rolle.
Aufgrund unterschiedlicher Aktualisierungszeitpunkte können ebenfalls
Inkonsistenzen auftreten. Dies liegt einerseits in der unzureichenden Ak-
tualität innerhalb einer Quelle begründet oder andererseits in unterschiedli-
chen Aktualisierungsstrategien in einer heterogenen Systemlandschaft. Oft-
mals werden aber auch Datenquellen aufgrund unzureichender Zeit im ope-
rativen Geschäft nicht aktualisiert.
Theoretisch können Referenztabellen für exakte Werte genutzt werden.
Aber auch diese Tabellen müssen stetig aktualisiert werden. Sie bieten sich ins-
besondere in Drop-Down-Menüs oder Referenzen an, z.B. von Ländern, Städten
oder Produktnamen bzw. -codes. Auch können Ähnlichkeitsmaße, z.B. für Tipp-
fehler oder Sprachvarianten, genutzt werden. Ebenfalls eine Rolle spielt die
Standardisierung und Transformation vor dem Vergleich unterschiedlicher Re-
präsentationen, z.B. die einheitliche Verwendung von Klein- oder Großbuchsta-
ben. Es sind auch Hintergrundwissen bzw. Metadaten notwendig. Hierbei kann
es sich um Konventionen, wie landestypische Schreibweisen, oder Ontologien,
Thesauri und Wörterbüchern zu Homonymen und Synonymen handeln. Für die
Entscheidung hinsichtlich der Integration sind auch Präferenzordnungen über
die Datenquellen nach Aktualität oder Vertrauenswürdigkeit, Öffnungszeiten
usw. möglich. Zusätzlich bieten sich Konfliktauflösungsfunktionen im Daten-
qualitätsprozess an.
96 4 Extraktions-, Transformations- und Ladeprozess

With Safari, you learn the way you learn best. Get unlimited access to videos, live online training, learning paths, books, interactive tutorials, and more.

Start Free Trial

No credit card required