Kapitel 4. DQS-Modell Beispiel

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel wird die Verwendung des DQS-Rahmens erläutert. Dieses Rahmenwerk definiert die Datenqualitätstoleranzen für die anwendbaren Dimensionen der Daten in den Datenmengen, die von den Geschäftsfunktionen benötigt werden. Das in Abbildung 4-1 gezeigte Modell ist wie ein Fließband in der Fertigung dargestellt, wobei 11 Geschäftsfunktionen von links nach rechts gezeigt werden. Es handelt sich um ein einfaches Modell, das genügend Details enthält, um den DQS-Rahmen und das Konzept der zweckmäßigen Daten zu veranschaulichen. Dein Unternehmen ist wahrscheinlich anders organisiert, mit anderen Geschäftsfunktionen, Anwendungen und Datenanforderungen pro Funktion. Das Modell veranschaulicht die DQS für eine Teilmenge der Datenmengen, die für die Nutzung durch nachgelagerte Verbraucher bestimmt sind, und stellt nicht alle DQS-Anforderungen für jede Funktion dar.

Abbildung 4-1. DQS-Modell(Großformat, Farbversion)

Du kannst dieses Modell als Vorlage verwenden und ein ähnliches Modell erstellen, das deine Geschäftsfunktionen, Datenanforderungen und den DQS für Datenmengen widerspiegelt, die du verwendest oder die deine Geschäftsfunktionen oder Anwendungen nutzen. Du kannst dieses Modell auch allgemeiner auf Daten anwenden, die von vielen Geschäftsfunktionen und Anwendungen in deinem Unternehmen genutzt werden.

Die Geschäftsfunktionen in diesem Modell sind wie folgt definiert:

Funktion Datenmanagement
Nimmt Datenmengen von Drittanbietern auf und prüft die Datenqualität entsprechend den DQS der nachgelagerten Funktionen; behebt alle Datenanomalien
Funktion Forschung
Erhält Daten von der Datenverwaltungsfunktion und verwendet die Daten in den Investment Research Prozessen
Analysefunktion
Empfängt Daten von der Datenverwaltungsfunktion und verwendet die Daten zur Erstellung von Sicherheitsanalysedaten
Funktion Portfoliomanagement
Erhält Daten aus den Bereichen Datenmanagement, Forschung, Analyse und Investment Operations, um Portfolios zu verwalten
Handelsfunktion
Empfängt Daten von der Datenmanagementfunktion und verwendet die Daten, um die Wertpapiere für den Handel zu identifizieren
Compliance-Funktion
Erhält Daten von der Datenverwaltungsfunktion und verwendet die Daten, um die gehandelten Wertpapiere zu identifizieren; vergleicht sie mit den Listen mit Kundenbeschränkungen
Funktion Investment Operations
Empfängt Daten von der Datenverwaltungsfunktion und verwendet die Daten, um Wertpapiere und zugehörige Marktdaten für Buchhaltungszwecke zu identifizieren
Funktion Geschäftsentwicklung
Erhält Daten von der Datenverwaltungsfunktion und verwendet die Daten, um die Erstellung von Verkaufspräsentationen zu unterstützen
Funktion Kundendienste
Empfängt Daten von der Datenverwaltungsfunktion und verwendet die Daten zur Unterstützung der Kundenberichterstattung
Funktion Leistungsmessung
Empfängt Daten von der Datenmanagementfunktion und verwendet die Daten, um Leistungsrenditen und Zuteilungen zu berechnen
Marketingfunktion
Erhält Daten von der Datenmanagementfunktion und verwendet die Daten, um Marketingmaterialien zu erstellen

Jede Geschäftsfunktion wird durch eine Box dargestellt. Die Box enthält ein oder mehrere Datenvolumen, die für die Funktion erforderlich sind. Der Status der Datenqualität wird mit einem V (gültig), IV (ungültig) oder S (verdächtig) angezeigt, basierend auf den Datenqualitätsmetriken der Datenmengen.

Abbildung 4-1 zeigt, wie die Sicherheitsstammdaten den anderen nachgelagerten Verbrauchern von der Datenmanagementfunktion zur Verfügung gestellt werden. Du wirst im DQS-Modellbeispiel sehen, wie die Anwendung von DQS präzise Datenqualitätsmessungen und -metriken liefert. Die Datenqualitätsmetriken werden verwendet, um festzustellen, ob die Daten für den Zweck und die Nutzung durch die Geschäftsfunktion geeignet sind. Das Niveau der Zweckmäßigkeit, das weiter unten in diesem Kapitel erläutert wird, gibt verschiedene DQS-Toleranzen für Daten an, die von Geschäftsfunktionen und Anwendungen genutzt werden. Ein Datenvolumen, das Aktienkurse mit leeren oder veralteten Werten enthält, kann z. B. zweckdienlich sein und für die allgemeine Anlageforschung und Börsenanalyse verwendet werden, aber leere Kurse sind nicht zweckdienlich für die Verwendung durch die Geschäftsfunktionen zur Berechnung des Nettoinventarwerts eines Portfolios oder für die Leistungsmessung zur genauen Berechnung der Portfoliorenditen.

Abbildung 4-2 zeigt den nicht bereinigten Rohdatensatz, der vom Modell verwendet wird, um die Datenqualitätsmetriken für die Dimensionen Vollständigkeit, Aktualität, Genauigkeit, Präzision und Konformität zu erstellen. Diese Datenmenge wird von der Funktion Datenmanagement empfangen. Diese Funktion wendet Datenqualitätsvalidierungen auf das Datenvolumen an, die auf den DQS der nachgelagerten Verbraucher (z. B. Research-, Analyse-, Portfoliomanagement- und Handelsfunktionen) basieren. Das Datenmanagement nutzt die in den DQS festgelegten Toleranzen für die Datenqualität, um Datenanomalien zu erkennen und zu korrigieren.

Abbildung 4-2. Rohdatenvolumen der Sicherheitsstammdaten(Großformat, Farbversion)

Vollständigkeit DQS

Wie ich bereits in früheren Kapiteln erwähnt habe, musst du festlegen, ob die Existenz der Daten obligatorisch oder optional ist. Jedes Datum hat eine Vollständigkeits- oder Existenzdimension. Dies ist die grundlegendste Prüfung für jedes Datenelement. Wenn Datenelemente in physischen Datenstrukturen wie Datenbanken als nicht löschbar (nicht leer) definiert sind, erzwingt die Technologie die Vollständigkeit für diese Datenelemente in Datenmengen.

Die DQS für die Vollständigkeit aller Datenelemente im Sicherheitsstammdatenvolumen sind für jede nachgelagerte Geschäftsfunktion gleich. Tabelle 4-1 zeigt die Datenqualitätstoleranzen für jedes Datenelement, die durch die DQS definiert und von allen nachgelagerten Verbrauchern gefordert werden.

Tabelle 4-1. Vollständigkeit DQS
Datenelement Beschreibung der Datenqualität DQS Auswirkungen auf das Geschäft
Ticker Alle Ticker-Datenwerte sind obligatorisch und dürfen nicht leer sein; wenn einer davon leer ist, hat das große Auswirkungen auf das Geschäft. Ticker: Vollständigkeit = M, IV ≥ 1, H Hoch
Ausgabe Name Alle Datumswerte des Issue-Namens sind obligatorisch und dürfen nicht leer sein; wenn einer leer ist, hat das große Auswirkungen auf das Geschäft. Name der Ausgabe: Vollständigkeit = M, IV ≥ 1, H Hoch
Tausche Alle Werte der Börsensymbole sind obligatorisch und dürfen nicht leer sein; wenn sie leer sind, hat das große Auswirkungen auf das Geschäft. Austausch: Vollständigkeit = M, IV ≥ 1, H Hoch
Angebot Alle Werte für den Angebotspreis sind obligatorisch und dürfen nicht leer sein; wenn einer leer ist, hat das große Auswirkungen auf das Geschäft. Bieten: Vollständigkeit = M, IV ≥ 1, H Hoch
Frag Alle Preisdatenwerte sind obligatorisch und dürfen nicht leer sein; wenn sie leer sind, hat das große Auswirkungen auf das Geschäft. Frage: Vollständigkeit = M, IV ≥ 1, H Hoch
Streue Alle Spread-Datum-Werte sind obligatorisch und dürfen nicht leer sein; wenn einer leer ist, hat das große Auswirkungen auf das Geschäft. Verbreiten: Vollständigkeit = M, IV ≥ 1, H Hoch
Marktkapitalisierung Alle Werte der Marktkapitalisierung sind obligatorisch und dürfen nicht leer sein; wenn sie leer sind, hat das große Auswirkungen auf das Geschäft. Marktkapitalisierung: Vollständigkeit = M, IV ≥ 1, H Hoch
Marktkapitalisierung Skala Alle Werte der Marktkapitalisierungsskala sind obligatorisch und dürfen nicht leer sein; wenn einer leer ist, hat das große Auswirkungen auf das Geschäft. Market Cap Scale: Vollständigkeit = M, IV ≥ 1, H Hoch
Kurs-Gewinn-Verhältnis (KGV) Alle PE-Datenwerte sind obligatorisch und dürfen nicht leer sein; wenn einer davon leer ist, hat das große Auswirkungen auf das Geschäft. PE: Vollzähligkeit = M, IV ≥ 1, H Hoch
Konsens-Empfehlung Die Datenwerte der Konsensempfehlung können für eine Aktie eines Emittenten existieren oder auch nicht; daher ist die Existenz der Konsensempfehlung optional und die Auswirkungen auf das Geschäft sind gering. Konsens-Empfehlung: Vollständigkeit = O, S ≥ 1, L Niedrig
Konsens Datum Es kann sein, dass für eine Aktie eines Emittenten Konsensdatenwerte existieren oder auch nicht; daher ist die Existenz des Konsensdatums optional und die Auswirkungen auf das Geschäft sind gering. Konsensdatum: Vollständigkeit = O, S ≥ 1, L Niedrig

Das Modell wendet die Vollständigkeits-DQS auf jedes Datenelement im Sicherheitsstammdatenvolumen an. Abbildung 4-3 veranschaulicht die Ergebnisse und zeigt die Metrik für gültige, ungültige oder verdächtige Datenqualität für jedes Datum. Die DQS zeigen an, dass die Datenwerte Ticker, Issue Name, Exchange, Bid, Ask, Spread, Market Cap, Market Cap Scale und PE obligatorisch sind und die Daten vorhanden sein müssen. Die DQS geben an, dass das Vorhandensein der Datenwerte Consensus Recommendation und Consensus Date optional ist. Das Modell generiert dann die Datenqualitätsmetriken, indem es Datenwerte mit V (gültig) zuweist, wenn die Daten vorhanden sind, IV (ungültig), wenn die Daten leer sind, und S (verdächtig), wenn die Daten nicht vorhanden sind, aber das Vorhandensein der Daten optional und nicht zwingend ist.

Abbildung 4-3. Metriken zur Datenqualität der Vollständigkeit(Großformat, Farbversion)

Die Anwendung der DQS für die Datendimension "Vollständigkeit" auf das Sicherheitsstammdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Sicherheitsstammdatenvolumen in Abbildung 4-3 lauten wie folgt:

  • 25 Datensätze

  • 11 Datenelemente oder Spalten (Ticker, Emissionsname)

  • 275 Bezugswerte, die existieren können oder auch nicht

Tabelle 4-2 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Metriken für das Sicherheitsstammdatenvolumen.

Tabelle 4-2. Zusammenfassung der Qualitätskennzahlen für die Vollständigkeit der Daten
Datenelement Gültig Ungültig Verdächtiger
Ticker 22 3 0
Ausgabe Name 22 3 0
Tausche 20 5 0
Angebot 23 2 0
Frag 21 4 0
Streue 25 0 0
Marktkapitalisierung 25 0 0
Marktkapitalisierung Skala 23 2 0
Kurs-Gewinn-Verhältnis (KGV) 22 3 0
Konsens-Empfehlung 21 0 4
Konsens Datum 24 0 1
Metrik-Gesamtwerte 248 22 5

Rechtzeitigkeit DQS

Die DQS für die Aktualität sind für jede nachgelagerte Geschäftsfunktion gleich und werden in diesem Modell für das Datenelement Consensus Date im Stammdatenvolumen Sicherheit definiert. In Tabelle 4-3 sind die Datenqualitätstoleranzen für die Aktualitätsdimensionen des Datenelements Konsensdatum aufgeführt.

Tabelle 4-3. Rechtzeitigkeit DQS
Datenelement Beschreibung der Datenqualität DQS Auswirkungen auf das Geschäft
Konsens Datum Es kann sein, dass es für eine Aktie eines Emittenten Konsensdatenwerte gibt oder nicht. Wenn das Datum existiert, dann ist das Konsensdatum gültig, wenn die Anzahl der Tage zwischen dem Konsensdatum und dem Verarbeitungsdatum weniger als 30 beträgt, verdächtig, wenn die Anzahl der Tage zwischen dem Konsensdatum und dem Verarbeitungsdatum größer oder gleich 30, aber kleiner als 90 ist, und ungültig, wenn die Anzahl der Tage größer oder gleich 90 ist. In allen Fällen sind die Auswirkungen auf das Geschäft gering. Konsensdatum: Rechtzeitigkeit = V < 30 Tage, 30 Tage ≤ S < 90, IV ≥ 90, L Niedrig

Das Modell wendet die Aktualitäts-DQS auf das Datenelement Consensus Date für jedes Consensus Date-Datum im Sicherheitsstammdatenvolumen an. Abbildung 4-4 veranschaulicht die Ergebnisse und zeigt die Metrik für gültige, ungültige oder verdächtige Datenqualität für jedes Konsensdatum.

Die DQS geben an, dass das Konsensdatum weniger als 30 Tage vom Bearbeitungsdatum entfernt sein muss, um gültig zu sein, 30 bis 90 Tage vom Bearbeitungsdatum entfernt, um verdächtig zu sein, und größer oder gleich 90 Tage vom Bearbeitungsdatum entfernt, um ungültig zu sein. Abbildung 4-4 enthält zur Veranschaulichung zwei neue Spalten: eine Kopie der Werte des Konsensdatums in der Spalte "Konsensdatum2" und eine Spalte mit der Bezeichnung "Anzahl der Tage", die das Konsensdatum abzüglich des Bearbeitungsdatums darstellt. Das Modell wendet die DQS auf das Datenvolumen an und erstellt die Datenqualitätsmetriken, die die Werte des Konsensdatums mit V (gültig) darstellen, wenn das Konsensdatum weniger als 30 Tage vom Verarbeitungsdatum entfernt ist, IV (ungültig), wenn das Konsensdatum mehr als oder gleich 90 Tage vom Verarbeitungsdatum entfernt ist, und S (verdächtig), wenn das Konsensdatum weniger als 90, aber mehr als oder gleich 30 Tage vom Verarbeitungsdatum entfernt ist.

Abbildung 4-4. Metriken zur Datenqualität der Aktualität(Großformat, Farbversion)

Die Anwendung der DQS für die Datendimension Aktualität auf das Konsensdatum im Sicherheitsstammdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Sicherheitsstammdatenvolumen in Abbildung 4-4 lauten wie folgt:

  • 25 Datensätze

  • 1 Datenelement (Konsensdatum)

  • 25 Bezugswerte

Tabelle 4-4 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Datumswerte des Konsensdatums im Sicherheitsstammdatenvolumen.

Tabelle 4-4. Zusammenfassung der Metriken zur Datenqualität bei der Aktualität
Datenelement Gültig Ungültig Verdächtiger
Konsens Datum 15 6 4

Genauigkeit DQS

Die Genauigkeits-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden in diesem Modell für die Datenelemente Ticker, Issue Name und Exchange im Wertpapierstammdatenvolumen definiert. Tabelle 4-5 zeigt die durch die DQS definierten Datenqualitätstoleranzen für die Datenelemente Ticker, Emissionsname und Börse. Die offiziellen NYSE- und NASDAQ-Datensätze für Wertpapiernotierungen werden vom Modell als maßgebliche Quellen verwendet, um die Richtigkeit der Ticker-, Emissionsnamen- und Börsenwerte im Wertpapierstammdatenvolumen zu bestätigen.

Tabelle 4-5. Genauigkeit DQS
Datenelement Beschreibung der Datenqualität DQS Auswirkungen auf das Geschäft
Ticker Für eine bestimmte Emission müssen Ticker-Datenwerte vorhanden sein. Wähle über das Börsendatum entweder den NYSE- oder den NASDAQ-Datensatz für die offizielle Notierung aus und passe den Ticker an. Wenn der Ticker mit einem Ticker im entsprechenden NYSE- oder NASDAQ-Datensatz übereinstimmt, ist der Ticker gültig. Wenn der Ticker nicht mit einem Ticker in den offiziellen Listen übereinstimmt, ist der Ticker ungültig und die Auswirkungen auf das Geschäft sind hoch. Ticker: Genauigkeit - maßgebend = V, Ticker = Ticker, IV, Ticker ≠ Ticker, H Hoch
Ausgabe Name Die Datenwerte für den Emissionsnamen müssen für eine bestimmte Emission existieren. Wähle über das Datum Börse entweder den Datensatz für die offizielle Notierung an der NYSE oder NASDAQ aus und vergleiche den Emissionsnamen. Wenn der Emissionsname mit einem Emissionsnamen im entsprechenden NYSE- oder NASDAQ-Datensatz übereinstimmt, ist der Emissionsname gültig. Wenn der Emissionsname nicht mit einem Emissionsnamen in den offiziellen Listen übereinstimmt, ist der Emissionsname ungültig und die Auswirkungen auf das Geschäft sind hoch. Issue Name: Genauigkeit - maßgebend = V, Ausgabename = Ausgabename, IV, Ausgabename ≠ Ausgabename, H Hoch
Tausche Börsenwerte müssen für eine bestimmte Emission vorhanden sein. Die Börse wird verwendet, um die spezifische Börsenwertliste auszuwählen, um den Ticker und den Emissionsnamen zu validieren. Wenn die Börse leer ist, sind die Börse, der Ticker und der Name der Emission ungültig. Wenn der Börsenwert entweder mit der NYSE oder der NASDAQ übereinstimmt, ist die Börse gültig. Stimmt der Börsenwert weder mit der NYSE noch mit der NASDAQ überein, ist die Börse ungültig und die Auswirkungen auf das Geschäft sind hoch. Börse: Genauigkeit - maßgebend = V, Börse = NYSE oder NASDAQ, IV, Börse ≠ NYSE oder NASDAQ, H Hoch

Das Modell wendet die DQS auf die Datenelemente "Ticker", "Issue Name" und "Exchange" für jedes Datenelement im Wertpapierstammdatenvolumen an. Das Modell verwendet die in Tabelle 4-6 dargestellten Daten. Dieser Datensatz ist ein Beispiel für eine maßgebliche Quelle, die bei der Genauigkeitsprüfung verwendet wird.

Tabelle 4-6. Beispiel für die offizielle Wertpapierliste der NYSE und NASDAQ
Tausche Ticker Ausgabe Name
NASDAQ AAPL Apple Inc.
NYSE IBM International Business Machines Corporation
NASDAQ AMGN Amgen Inc.
NYSE WMT Walmart Inc.
NYSE KO Coca-Cola Gesellschaft (Die)

Das Modell wendet die DQS auf die Datenelemente "Ticker", "Issue Name" und "Exchange" für jedes Datenelement im Wertpapierstammdatenvolumen an. Abbildung 4-5 veranschaulicht die Ergebnisse und zeigt die Metrik für gültige, ungültige oder verdächtige Datenqualität für jedes Datum. Die DQS gibt an, dass der Ticker, der Emissionsname und die Börse mit dem Ticker, dem Emissionsnamen und der Börse in der offiziellen Wertpapierliste übereinstimmen müssen, um gültig zu sein. Die Börse wird verwendet, um die offizielle Börsenliste für die Validierung des Tickers und des Emissionsnamens auszuwählen. Wenn das Datum Börse leer ist, sind Börse, Ticker und Emissionsname ungültig. Wenn einer der Datenwerte nicht mit dem entsprechenden Datenelement in der offiziellen Wertpapierliste übereinstimmt, sind die Daten ungültig.

Abbildung 4-5 enthält zur Veranschaulichung drei neue Spalten: eine Kopie der Ticker-Datenwerte in der Spalte "Ticker2", Emissionsname-Datenwerte in der Spalte "Emissionsname2" und Börsen-Datenwerte in der Spalte "Börse2". Das Modell wendet die DQS auf das Datenvolumen an und erstellt die Datenqualitätskennzahlen, indem es die Ticker-, Emissionsnamen- und Börsendatenwerte mit V (gültig) bewertet, wenn sie mit der offiziellen Wertpapierliste übereinstimmen, oder mit IV (ungültig), wenn sie nicht mit der offiziellen Wertpapierliste übereinstimmen.

Abbildung 4-5. Metriken zur Datenqualität der Genauigkeit(Großformat, Farbversion)

Die Anwendung der DQS für die Dimension der Genauigkeitsdaten auf den Ticker, den Emissionsnamen und die Börse im Wertpapierstammdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Wertpapierstammdatenvolumen in Abbildung 4-5 sehen wie folgt aus:

  • 25 Datensätze

  • 3 Datenelemente (Ticker, Emissionsname und Börse)

  • 75 Bezugswerte

Tabelle 4-7 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Ticker-, Emissionsnamen- und Börsendatenwerte im Wertpapierstammdatenvolumen.

Tabelle 4-7. Zusammenfassung der Metriken zur Qualität der Genauigkeitsdaten
Datenelement Gültig Ungültig Verdächtiger
Ticker 16 9 0
Ausgabe Name 11 14 0
Tausche 20 5 0
Metrik-Gesamtwerte 47 28 0

Mithilfe der Überprüfung der Genauigkeit der Daten können mehrere Datenanomalien im Wertpapierstammdatenvolumen identifiziert werden, darunter leere Börsendaten, fehlerhafte Emissionsnamen und leere oder fehlerhafte Tickerdaten.

Präzision DQS

Die Dimension der Genauigkeit der Daten in diesem Rahmen bezieht sich auf die Skala der Zahl, die angibt, wie genau sie ist. Datentypen wie Ganzzahlen sind ganze Zahlen und haben keine Dezimalstellen. Datentypen wie Dezimalzahlen und Gleitkommazahlen sind Zahlen mit Nachkommastellen. Wenn Zahlen mit Dezimalstellen für Datenelemente in physischen Datenstrukturen, wie z. B. Datenbanken, definiert werden, dann ermöglicht die Technologie, dass sie in den Datenmengen gespeichert und ausgedrückt werden können. Die Definition von Dezimal- oder Fließkommazahlen in physischen Datenelementen schreibt jedoch keine explizite Anzahl von Dezimalstellen vor. Stattdessen erlauben die Datentypdefinitionen für diese numerischen Datentypen in der physischen Technologie eine maximale Anzahl von Dezimalstellen, die gespeichert werden können. Dezimale Datentypen definieren eine bestimmte, maximale Anzahl von Dezimalstellen. Wenn die DQS also fünf Dezimalstellen verlangen und der Datentyp mit zwei Dezimalstellen definiert ist, verlierst du an Präzision (wegfallende Dezimalwerte), wenn du eine fünfstellige Zahl in einer zweistelligen physikalischen Datentypstruktur speicherst. Fließkommadatentypen stellen eine andere Herausforderung dar. Zahlen mit Dezimalstellen aus Berechnungen, die in Fließkomma-Datenstrukturen gespeichert werden, haben keine exakte binäre Darstellung auf der Berechnungsebene. Die Folgen können eine ungenaue Darstellung der Zahl als gespeicherter Wert und damit ein potenzieller Verlust an Genauigkeit sein, eine potenzielle Nichtübereinstimmung von Fließkommazahlen mit anderen numerischen Datentypen, und die Ergebnisse von Berechnungen können überflüssige Dezimalstellen ergeben (was bei kombinatorischen oder zusammengesetzten Berechnungen zu sehr ungenauen Ergebnissen führen kann). Das heißt, wenn deine DQS eine bestimmte Anzahl von Dezimalstellen erfordern, musst du die Genauigkeit mit einer Validierungsprüfung überprüfen.

Warnung

Wie in Kapitel 3 erwähnt, werden Genauigkeit und Genauigkeitsabweichungen oft übersehen, weil die Speicherung und Verarbeitung von Zahlen mit verschiedenen Datenstrukturen in Datenbanken mit datentypisierten Spalten und Datentypobjekten in Programmiersprachen sehr komplex ist. Du musst sicherstellen, dass die in der DQS für einen Verbraucher oder eine Anwendung geforderte Genauigkeit in allen Datenstrukturen und Datenverarbeitungsanwendungen einheitlich ist.

Die Präzisions-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden für die Datenelemente Bid, Ask, Spread und PE im Wertpapierstammdatenvolumen in diesem Modell definiert. In Tabelle 4-8 sind die Datenqualitätstoleranzen für die Datenelemente Bid, Ask, Spread und PE aufgeführt.

Tabelle 4-8. Präzision DQS
Datenelement Beschreibung der Datenqualität DQS Auswirkungen auf das Geschäft
Angebot Alle Werte für das Datum Bid price sind obligatorisch. Wenn die Angabe zum Geldkurs leer oder eine negative Zahl ist, ist sie ungültig. Fehlt die Dezimalstelle, ist sie verdächtig. Wenn die Anzahl der Nachkommastellen größer oder gleich eins ist, ist der Wert gültig und die Auswirkungen auf das Geschäft sind hoch. Bieten: Präzisionsdezimal = V ≥ 1, S = 0, IV = negativ, H Hoch
Frag Alle Werte für die Preisangabe Ask sind obligatorisch. Wenn die Preisangabe "Ask" leer oder eine negative Zahl ist, ist sie ungültig. Fehlt die Dezimalstelle, ist der Wert verdächtig. Wenn die Anzahl der Dezimalstellen größer oder gleich eins ist, ist der Wert gültig und die Auswirkungen auf das Geschäft sind hoch. Frage: Präzisionsdezimal = V ≥ 1, S = 0, IV = negativ, H Hoch
Streue Alle Werte des Spread-Datums sind obligatorisch. Wenn das Spread-Datum leer oder eine negative Zahl ist, ist es ungültig. Fehlt die Dezimalstelle, ist sie verdächtig. Wenn die Anzahl der Dezimalstellen größer oder gleich eins ist, ist sie gültig und die Auswirkungen auf das Geschäft sind hoch. Spanne: Präzisions- Dezimal = V ≥ 1, S = 0, IV = negativ, H Hoch
Kurs-Gewinn-Verhältnis (KGV) Alle PE-Datenwerte sind obligatorisch. Wenn das PE-Datum leer oder eine negative Zahl ist, ist es ungültig. Fehlt die Dezimalstelle, ist sie verdächtig. Wenn die Anzahl der Nachkommastellen größer oder gleich eins ist, ist sie gültig und die Auswirkungen auf das Geschäft sind hoch. PE: Präzisionsdezimal = V ≥ 1, S = 0, IV = negativ, H Hoch

Das Modell wendet die Präzisions-DQS auf die Datenelemente Bid, Ask, Spread und PE für jedes Datum im Wertpapierstammdatenvolumen an. Abbildung 4-6 veranschaulicht die Ergebnisse und zeigt die Metrik für gültige, ungültige oder verdächtige Datenqualität für jedes Bid-, Ask-, Spread- und PE-Datum.

Die DQS geben die Genauigkeit der Bid-, Ask-, Spread- und PE-Datenwerte wie folgt an: Datenwerte müssen eine oder mehrere Nachkommastellen haben, um gültig zu sein, fehlende Nachkommastellen sind verdächtig und negative Zahlen sind ungültig. Abbildung 4-6 enthält zur Veranschaulichung vier neue Spalten: je eine Kopie der Bid-, Ask-, Spread- und PE-Datenwerte in den Spalten "Bid2", "Ask2", "Spread2" und "PE2". Das Modell wendet die DQS auf das Datenvolumen an und erzeugt die Datenqualitätsmetriken, die die Datenwerte mit V (gültig) darstellen, wenn die Zahlen existieren, nicht negativ sind und eine oder mehrere Dezimalstellen haben; S (verdächtig), wenn die Zahlen existieren, nicht negativ sind und eine Dezimalstelle fehlt; und IV (ungültig), wenn die Zahlen entweder nicht existieren oder negative Zahlen sind.

Die Anwendung des DQS für die Dimension der Präzisionsdaten auf Bid, Ask, Spread und PE im Wertpapierstammdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Wertpapierstammdatenvolumen in Abbildung 4-6 lauten wie folgt:

  • 25 Datensätze

  • 4 Datenelemente (Bid, Ask, Spread und PE)

  • 100 Bezugswerte

Abbildung 4-6. Metriken zur Qualität der Präzisionsdaten(Großformat, Farbversion)

Tabelle 4-9 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Bid-, Ask-, Spread- und PE-Datenwerte im Wertpapierstammdatenvolumen.

Tabelle 4-9. Zusammenfassung der Metriken zur Qualität der Präzisionsdaten
Datenelement Gültig Ungültig Verdächtiger
Angebot 17 2 6
Frag 17 4 4
Streue 17 3 5
PE 20 3 2
Metrik-Gesamtwerte 71 12 17

Die Präzisionsdaten-Dimension für die Bid-, Ask-, Spread- und PE-Datenwerte prüft, ob die Daten existieren und keine negative Zahl sind, und zählt die Anzahl der Dezimalstellen gemäß der DQS. Mit Hilfe der Präzisionsprüfung können verschiedene Datenanomalien - wie leere Bid-, Ask- und PE-Datenwerte, fehlende Dezimalstellen und negative Spread-Datenwerte - im Wertpapierstammdatenvolumen identifiziert werden.

Konformität DQS

Die Konformitäts-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden für die Datenelemente Issue Name, Market Cap Scale und Consensus Recommendation im Wertpapierstammdatenvolumen in diesem Modell definiert. Datentypen wie Datumsangaben, Zeitstempel und Datumszeiten haben bestimmte Formate. Wenn diese Datentypen für Datenelemente in physischen Datenstrukturen, wie z. B. Datenbanken, definiert sind, erzwingt die Technologie die Konformität dieser Datenelemente in den Datenvolumen. In Tabelle 4-10 sind die Datenqualitätstoleranzen für die Datenelemente Emissionsname, Market Cap Scale und Konsensempfehlung aufgeführt.

Tabelle 4-10. Konformität DQS
Datenelement Beschreibung der Datenqualität DQS Auswirkungen auf das Geschäft
Ausgabe Name Alle Datumswerte für den Issue Name sind obligatorisch und müssen in Großbuchstaben angegeben werden. Wenn der Issue Name leer ist oder nur aus Groß- oder Kleinbuchstaben besteht, ist er ungültig und die Auswirkungen auf das Geschäft sind hoch. Name der Ausgabe: Konformitätsbuchstaben = V = Eigene Großschreibung, IV = Leer oder Groß- oder Kleinschreibung, H Hoch
Marktkapitalisierung Skala Alle Werte der Marktkapitalisierungsskala sind obligatorisch und müssen entweder in Großbuchstaben (B) oder in Großbuchstaben (M) angegeben werden. Wenn die Marktkapitalisierungsskala leer ist oder einen anderen Wert als Großbuchstaben B oder Großbuchstaben M hat, ist sie ungültig und die Auswirkungen auf das Geschäft sind hoch. Marktkapitalisierungsskala: Konformität = V = B oder M, IV ≠ B oder M, H Hoch
Konsens-Empfehlung Die Werte der Konsensempfehlung sind optional und müssen eine Zahl zwischen minus drei und drei sein. Wenn die Consensus Recommendation leer ist, ist sie verdächtig. Wenn die Konsensempfehlung eine Zahl kleiner als minus drei oder größer als drei ist, ist sie ungültig und die Auswirkungen auf das Geschäft sind gering. Konsens-Empfehlung: Konformität = V ≥ -3 und ≤ 3, S = leer, IV < -3 und > 3, L Niedrig

Das Modell wendet die Konformitäts-DQS auf die Datenelemente "Emissionsname", "Market Cap" und "Consensus Recommendation" für jedes Datenelement im Wertpapierstammdatenvolumen an. Abbildung 4-7 veranschaulicht die Ergebnisse und zeigt die Metrik für gültige, ungültige oder verdächtige Datenqualität für jedes Issue Name-, Market Cap- und Consensus Recommendation-Datum.

Die Konformitäts-DQS für den Ausgabenamen geben an, dass die Datumswerte für den Ausgabenamen in Großbuchstaben angegeben werden müssen, um gültig zu sein. Andernfalls sind die Werte ungültig, wenn sie leer sind oder in Klein- oder Großbuchstaben angegeben werden. Die Konformitäts-DQS für die Marktkapitalisierungsskala zeigen an, dass die Werte der Marktkapitalisierungsskala entweder B (Milliarde) oder M (Million) sein müssen, um gültig zu sein. Andernfalls sind sie ungültig, wenn die Werte leer sind oder einen anderen Wert haben. Die Konformitäts-DQS für die Konsensempfehlung geben an, dass die Werte für die Konsensempfehlung optional sind und eine Zahl größer oder gleich -3 und kleiner oder gleich 3 sein müssen, um gültig zu sein. Andernfalls sind sie ungültig, wenn die Werte leer sind oder eine Zahl kleiner als -3 oder größer als 3 sind. Abbildung 4-7 enthält drei neue Spalten zur Veranschaulichung: jeweils eine Kopie der Werte für den Emissionsnamen, die Marktkapitalisierung und die Konsensempfehlung in den Spalten "Emissionsname2", "Marktkapitalisierung2" und " Konsensempfehlung2".

Abbildung 4-7. Metriken zur Konformitätsdatenqualität(Großformat, Farbversion)

Das Modell wendet das DQS auf das Datenvolumen an und erzeugt die Datenqualitätsmetriken, indem es einige Datenwerte mit V (gültig) versieht, was bedeutet:

  • Das Datum "Issue Name" existiert und ist richtig geschrieben

  • Die Marktkapitalisierungsskala existiert und ist entweder ein Großbuchstabe B oder ein Großbuchstabe M

  • Wenn der Bezugspunkt der Konsensempfehlung existiert, ist der Bezugspunktwert eine Zahl, die größer oder gleich -3 und kleiner oder gleich 3 ist.

Das Modell ordnet S (suspekt) nur den Datenwerten der Konsensempfehlung zu und zeigt an, wenn der Datenwert nicht existiert.

Das Modell vergibt einige Datenwerte mit IV (ungültig), was bedeutet:

  • Das Datum "Issue Name" existiert nicht oder ist nicht in der richtigen Größe

  • Die Marktkapitalisierungsskala existiert nicht oder ist nicht ein großes B oder ein großes M

  • Wenn der Bezugspunkt der Konsensempfehlung existiert, dann ist der Bezugspunktwert keine Zahl, die größer oder gleich -3 und kleiner oder gleich 3 ist.

Die Anwendung des DQS für die Dimension der Konformitätsdaten auf den Emissionsnamen, die Marktkapitalisierungsskala und die Konsensempfehlung im Wertpapierstammdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Wertpapierstammdatenvolumen in Abbildung 4-7 lauten wie folgt:

  • 25 Datensätze

  • 3 Datenelemente (Issue Name, Market Cap Scale und Consensus Recommendation)

  • 75 Bezugswerte

Tabelle 4-11 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Werte für den Emissionsnamen, die Marktkapitalisierungsskala und die Konsensempfehlung im Wertpapierstammdatenvolumen.

Tabelle 4-11. Zusammenfassung der Metriken zur Qualität der Konformitätsdaten
Datenelement Gültig Ungültig Verdächtiger
Ausgabe Name 19 6 0
Marktkapitalisierung Skala 22 3 0
Konsens-Empfehlung 19 2 4
Metrik-Gesamtwerte 60 11 4

Die Dimension der Konformitätsdaten für die Datenwerte Issue Name, Market Cap Scale und Consensus Recommendation ist für jedes Datenelement spezifisch. Daher ist auch die Validierungslogik für jedes in der DQS definierte Datenelement spezifisch für dieses Datenelement.

Durch die Überprüfung der Konformitätsdaten werden mehrere Datenanomalien - darunter leere Werte für den Emissionsnamen und die Marktkapitalisierungsskala, fehlerhafte Werte für den Emissionsnamen (z. B. Werte, die nur in Großbuchstaben erscheinen) und ungültige Werte für die Marktkapitalisierungsskala und die Konsensempfehlung - in den Wertpapierstammdaten festgestellt.

Kongruenz DQS

In Kapitel 3 wurden drei Arten von Qualitätsprüfungen für kongruente Daten vorgestellt: der Vergleich mit früheren Werten, der Vergleich mit dem Durchschnitt und der Vergleich mit der Standardabweichung z-score. Wie bereits erwähnt, möchte ich dich ermutigen, deine eigenen Kongruenzprüfungen zu entwickeln und dabei eine ausgefeiltere Logik zu verwenden, die für die von dir verwendeten Daten besser geeignet ist.

Abbildung 4-8 zeigt die bereinigten Bid-, Ask- und Spread-Daten von 10 Geschäftstagen. Das Datenvolumen wurde mithilfe der DQS validiert und die Datenelemente wurden auf Vollständigkeit, Aktualität, Genauigkeit, Präzision und Konformität geprüft. Das Modell nutzt diese Daten, um die DQS-Kongruenz zu demonstrieren.

Abbildung 4-8. Erweitertes Sicherheitsstammdatenvolumen(Großformat, Farbversion)

Das Modell wendet das in Tabelle 4-12 dargestellte Kongruenz-DQS auf die in Abbildung 4-9 dargestellten unbereinigten Rohmarktdaten an.

Abbildung 4-9. Rohe Marktdaten

Die Kongruenz-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden für die Datenelemente Bid, Ask und Spread im Wertpapierstammdatenvolumen definiert. In Tabelle 4-12 sind die Datenqualitätstoleranzen für die Datenelemente Geldkurs, Briefkurs und Spread aufgeführt - diese Elemente sind alle spezifisch für eine bestimmte Aktie. Der rohe Geldkurs für Apple (AAPL) in Abbildung 4-9 mit dem Verarbeitungsdatum 2.11.2015 beträgt zum Beispiel 117,49 $, und die historischen Geldkurse für Apple (in Abbildung 4-8 dargestellt) liegen bei 118,45 $, 118,35 $ usw. Die historischen Geldkurse für Apple werden verwendet, um den rohen Apple Geldkurs in der Kongruenz-Z-Score-Datenqualitätsprüfung zu validieren.

Tabelle 4-12. Kongruenz z-Score DQS
Datenelement Beschreibung der Datenqualität DQS Auswirkungen auf das Geschäft
Angebot Alle Geldkursdaten sind obligatorisch und die Stichprobe für den historischen Geldkurs beträgt 10 Geschäftstage. Wenn der Z-Score des Geldkurses gleich oder kleiner als drei ist, ist er gültig. Wenn der z-score des Geldkurses größer als drei, aber kleiner als vier ist, ist er verdächtig. Wenn der z-score des Geldkurses gleich oder größer als vier ist, ist er ungültig. In allen Fällen sind die Auswirkungen auf das Geschäft hoch. Angebot: Kongruenz z-score = Bereich 10 Arbeitstage, V ≤ 3, S > 3 und < 4, H, IV ≥ 4, H Hoch
Frag Alle Werte für den Briefkurs sind obligatorisch und die Stichprobe für den historischen Briefkurs beträgt 10 Geschäftstage. Wenn der Z-Score des Briefkurses gleich oder kleiner als drei ist, ist er gültig. Wenn der Z-Score des Ask-Preises größer als drei, aber kleiner als vier ist, ist er verdächtig. Wenn der Z-Score des Briefkurses gleich oder größer als vier ist, ist er ungültig. In allen Fällen ist die Auswirkung auf das Geschäft hoch. Frage: Kongruenz z-score = Bereich 10 Arbeitstage, V ≤ 3, S > 3 und < 4, H, IV ≥ 4, H Hoch
Streue Alle Spread-Stichtagswerte sind obligatorisch und der historische Spread-Stichprobenbereich beträgt 10 Arbeitstage. Wenn der Z-Score des Spreads gleich oder kleiner als drei ist, ist er gültig. Wenn der Z-Score des Spreads größer als drei, aber kleiner als vier ist, dann ist er verdächtig. Wenn der Spread z-score gleich oder größer als vier ist, ist er ungültig. In allen Fällen ist die Auswirkung auf das Geschäft hoch. Spanne: Kongruenz z-score = Spanne 10 Geschäftstage, V ≤ 3, S > 3 und < 4, H, IV ≥ 4, H Hoch

Das Modell wendet die Kongruenz-DQS auf die rohen Bid-, Ask- und Spread-Datenelemente für jedes Datum im rohen Marktdatenvolumen an. Die Tabellen 4-13 bis 4-15 zeigen die Berechnungsstatistiken der Kongruenz-Z-Score-Berechnungen.

Tabelle 4-13. Ergebnisse der Bietpreiskongruenz z-score
Bearbeitungsdatum Ticker Angebot Mittleres Gebot (vor 10 Tagen) Standardabweichung der Gebote Angebot z-score
11/2/2015 AAPL 117.49 118.32 0.5646 1.48
11/2/2015 AMGN 159.99 159.38 0.5329 1.15
11/2/2015 IBM 133.31 139.13 0.3695 15.75
11/2/2015 KO 39.55 41.88 0.7014 3.31
11/2/2015 WMT 57.29 57.48 0.5260 0.37
Tabelle 4-14. Ergebnisse der Preiskongruenz z-score
Bearbeitungsdatum Ticker Frag Mittlere Nachfrage (vor 10 Tagen) Standardabweichung fragen Z-Score fragen
11/2/2015 AAPL 124.88 120.74 1.6289 2.54
11/2/2015 AMGN 163.25 164.74 1.1178 1.34
11/2/2015 IBM 134.22 141.08 1.0511 6.53
11/2/2015 KO 41.88 42.74 0.4692 1.84
11/2/2015 WMT 57.61 58.50 0.5668 1.57
Tabelle 4-15. Ergebnisse der Spreizungskongruenz z-score
Bearbeitungsdatum Ticker Streue Mittlere Spanne (vor 10 Tagen) Standardabweichung der Streuung Spread z-score
11/2/2015 AAPL 7.39 2.41 1.9030 2.62
11/2/2015 AMGN 3.26 5.37 1.3561 1.55
11/2/2015 IBM 0.91 1.95 1.1270 0.93
11/2/2015 KO 2.33 0.87 0.4620 3.16
11/2/2015 WMT 0.32 1.01 0.7230 0.96

Abbildung 4-10 veranschaulicht die Ergebnisse und zeigt die gültige, ungültige oder verdächtige Datenqualitätsmetrik für jedes rohe Bid-Preis-, Ask-Preis- und Spread-Datum.

Abbildung 4-10. Kongruenz z-Score Datenqualitätsmetriken(Großformat, Farbversion)

Das Modell wendet die DQS auf das Rohdatenvolumen an, wobei es das historische Datenvolumen als Referenz verwendet, und generiert die Datenqualitätsmetriken, indem es die Datenwerte mit V (gültig) versieht, wenn der Z-Score für das Bid-, Ask- oder Spread-Datum gleich oder kleiner als drei Standardabweichungen vom Mittelwert ist; S (suspekt), wenn der z-Score für das Bid-, Ask- oder Spread-Datum größer als drei, aber kleiner als vier Standardabweichungen vom Mittelwert ist; und IV (ungültig), wenn der z-Score für das Bid-, Ask- oder Spread-Datum gleich oder größer als vier Standardabweichungen vom Mittelwert ist. Abbildung 4-10 enthält zur Veranschaulichung die Z-Scores für die rohen Bid-, Ask- und Spread-Datenwerte.

Die gültigen Datenqualitätskennzahlen, die in Abbildung 4-10 dargestellt sind, lauten wie folgt:

  • Der rohe Geldkurs von $159,99 für Amgen (AMGN) am 2.11.2015 mit einem Z-Score von 1,15 liegt 1,15 Standardabweichungen vom mittleren Geldkurs von $159,38 entfernt, der der durchschnittliche Geldkurs von Amgen für die letzten 10 Tage ist.

  • Der rohe Geldkurs von 117,49 $ für Apple (AAPL) am 2.11.2015 mit einem Z-Score von 1,48 liegt 1,48 Standardabweichungen vom mittleren Geldkurs von 118,32 $ entfernt, der der durchschnittliche Geldkurs von Apple für die letzten 10 Tage ist.

  • Der rohe Geldkurs von $57,29 für Walmart (WMT) am 2.11.2015 mit einem Z-Score von 0,37 liegt 0,37 Standardabweichungen vom mittleren Geldkurs von $57,48 entfernt, der der durchschnittliche Geldkurs von Walmart für die letzten 10 Tage ist.

  • Der rohe Briefkurs von 163,25 $ für Amgen (AMGN) am 2.11.2015 mit einem Z-Score von 1,34 liegt 1,34 Standardabweichungen vom mittleren Briefkurs von 164,74 $ entfernt, der der durchschnittliche Briefkurs von Amgen für die letzten 10 Tage ist.

  • Der rohe Briefkurs von 124,88 $ für Apple (AAPL) am 2.11.2015 mit einem Z-Score von 2,54 liegt 2,54 Standardabweichungen vom mittleren Briefkurs von 120,74 $ entfernt, der der durchschnittliche Apple-Briefkurs der letzten zehn Tage ist.

  • Der rohe Briefkurs von 57,61 $ für Walmart (WMT) am 2.11.2015 mit einem Z-Score von 1,57 liegt 1,57 Standardabweichungen vom mittleren Briefkurs von 58,50 $ entfernt, der der durchschnittliche Briefkurs von Walmart für die letzten 10 Tage ist.

  • Der rohe Briefkurs von $41,88 für Coca-Cola (KO) am 2.11.2015 mit einem Z-Score von 1,84 liegt 1,84 Standardabweichungen vom mittleren Briefkurs von $42,74, dem durchschnittlichen Coca-Cola-Briefkurs der letzten 10 Tage.

  • Der rohe Spread von $0,91 für International Business Machines (IBM) am 2.11.2015 mit einem Z-Score von 0,93 ist 0,93 Standardabweichungen vom mittleren Spread von $1,95 entfernt, der der durchschnittliche IBM Spread für die letzten 10 Tage ist.

  • Der rohe Spread von $3,26 für Amgen (AMGN) am 2.11.2015 mit einem Z-Score von 1,55 liegt 1,55 Standardabweichungen vom mittleren Spread von $5,37 entfernt, der den durchschnittlichen Amgen-Spread der letzten 10 Tage darstellt.

  • Der rohe Spread von $7,39 für Apple (AAPL) am 2.11.2015 mit einem Z-Score von 2,62 liegt 2,62 Standardabweichungen vom mittleren Spread von $2,41 entfernt, der der durchschnittliche Apple Spread der letzten 10 Tage ist.

  • Der rohe Spread von $0,32 für Walmart (WMT) am 2.11.2015 mit einem Z-Score von 0,96 liegt 0,96 Standardabweichungen vom mittleren Spread von $1,01, dem durchschnittlichen Walmart Spread der letzten 10 Tage.

Die verdächtigen Datenqualitätsmetriken, die in Abbildung 4-10 dargestellt sind, lauten wie folgt:

  • Der rohe Geldkurs von $39,55 für Coca-Cola (KO) am 2.11.2015 mit einem Z-Score von 3,31 liegt 3,31 Standardabweichungen vom mittleren Geldkurs von $41,88 entfernt, der der durchschnittliche Geldkurs von Coca-Cola für die letzten 10 Tage ist.

  • Der rohe Spread von $2,33 für Coca-Cola (KO) am 2.11.2015 mit einem Z-Score von 3,16 liegt 3,16 Standardabweichungen vom mittleren Spread von $0,87 entfernt, der der durchschnittliche Coca-Cola Spread der letzten 10 Tage ist.

Die ungültigen Datenqualitätsmetriken, die in Abbildung 4-10 dargestellt sind, lauten wie folgt:

  • Der rohe Geldkurs von $133,31 für International Business Machines (IBM) am 2.11.2015 mit einem z-Score von 15,75 liegt 15,75 Standardabweichungen vom mittleren Geldkurs von $139,13 entfernt, dem durchschnittlichen IBM-Geldkurs der letzten 10 Tage.

  • Der rohe Briefkurs von $134,22 für International Business Machines (IBM) am 2.11.2015 mit einem z-Score von 6,53 liegt 6,53 Standardabweichungen vom mittleren Briefkurs von $141,08 entfernt, dem durchschnittlichen IBM-Briefkurs der letzten 10 Tage.

Die Anwendung des DQS für die Datendimension Kongruenz auf die Bid-, Ask- und Spread-Datenwerte im Rohmarktdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das rohe Marktdatenvolumen in Abbildung 4-10 lauten wie folgt:

  • 5 Datensätze

  • 3 Datenelemente (Bid, Ask und Spread)

  • 15 Bezugswerte

Tabelle 4-16 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Bid-, Ask- und Spread-Datenwerte im Marktrohdatenvolumen.

Tabelle 4-16. Zusammenfassung der Kongruenz-Z-Score-Datenqualitätsmetriken
Datenelement Gültig Ungültig Verdächtiger
Angebot 3 1 1
Frag 4 1 0
Streue 4 0 1
Metrik-Gesamtwerte 11 2 2

Die DQS für die Kongruenzdimension der Bid-, Ask- und Spread-Datenwerte sind aktienspezifisch (z. B. Apple, Walmart) und beziehen sich auf historische Bid-, Ask- und Spread-Datenbeobachtungen. Daher kannst du den Vergleich mit früheren Werten, den Vergleich mit dem Durchschnitt oder, wie in diesem Beispiel, den Z-Score verwenden, um die Methode der Anomalieerkennung zu standardisieren. Dies ist ein einfaches Beispiel, um die statistische Mechanik der Kongruenz-Z-Score-Datenqualitätsprüfung zu veranschaulichen. Ich möchte dich ermutigen, deine eigenen Kongruenzprüfungen und die entsprechenden Toleranzen für die Datenqualität zu entwickeln und dabei eine ausgefeiltere Logik zu verwenden, die für die Erkennung von Datenanomalien in Bezug auf die Art der Daten besser geeignet ist.

Elf Datenwerte liegen innerhalb der gültigen Toleranz; allerdings wurden mit Hilfe der in der DQS definierten Kongruenz-Z-Score-Datenqualitätsprüfung mehrere Datenanomalien identifiziert, die die gültige Toleranzbedingung nicht erfüllen. Dieser statistische Ansatz zur Datenvalidierung für Zeitreihenwerte ist nützlich, um Anomalien oder Ausreißer zu erkennen. Diese Datenwerte können gültig sein oder auch nicht, aber da ihre jeweiligen z-Scores nicht innerhalb der erwarteten gültigen Toleranz liegen, müssen sie weiter untersucht und überprüft werden.

Das Modell verwendet das bereinigte Stammdatenvolumen, das in Abbildung 4-11 dargestellt ist, um die Datenanomalien zu beseitigen.

Abbildung 4-11. Bereinigter Sicherheitsstammdatenbestand(Großformat, Farbversion)

Nachdem die Datenanomalien korrigiert wurden, wird eine Zusammenfassung der Datenqualitätsmetriken in Abbildung 4-12 dargestellt. Sie zeigt, dass sich der Datenqualitätsstatus für das Wertpapierdatenvolumen von IV (ungültig) auf V (gültig) geändert hat. Dieses Beispiel zeigt, dass die Datenqualität der Wertpapier-, Fundamental- und Kursdaten im Stammdatenvolumen dem DQS für alle nachgelagerten Verbraucher entspricht. Es gibt jedoch noch weitere Datenanomalien, die korrigiert werden müssen.

Abbildung 4-12. Modell zur Spezifikation der Datenqualität (Wertpapiere, Fundamentaldaten, Preise)(Großformat, Farbversion)

Kollektion DQS

Wie wir bereits besprochen haben, ist eine Datensammlung eine diskrete und eindeutige Menge von Daten, in der Regel Datensätze, die als Sammlung organisiert sind. Alle Datensätze müssen vorhanden sein, damit eine Datensammlung ein vollständiger Datensatz ist. Die Datensätze in einer Datensammlung bestehen aus einer Reihe von Datenelementen (z. B. Kennung, Konto, Ticker, Menge, Währung, Gewicht). Indizes, Benchmarks, börsengehandelte Fonds (ETF) und Portfoliobestände sind Sammlungen von Datensätzen, die jeweils in ihrer Gesamtheit Datensammlungen darstellen. Bei der Validierung von Datensammlungen wird geprüft, ob alle erforderlichen Datensätze zu einem bestimmten Zeitpunkt vorhanden und für eine bestimmte Sammlung (z. B. Portfolio, Index, ETF) identifizierbar sind. Es gibt viele Methoden (von einfach bis ausgeklügelt), die zur Validierung einer Datensammlung verwendet werden können, z. B. die Zählung von Datensätzen, die Aggregation und der Vergleich von Marktwerten oder die Aggregation und der Vergleich von Gewichten. Wie ich bereits erwähnt habe, kannst du deine eigenen Validierungsprüfungen für die Datensammlung entwickeln, indem du zusätzliche Toleranzbereiche und eine ausgefeiltere Logik verwendest, die für die von dir verwendeten Daten besser geeignet ist.

Abbildung 4-13 zeigt fünf Geschäftstage mit bereinigten Daten zu Konto, Kontoname, Ticker und Menge. Dieses Datenvolumen enthält auch die validierten Geldkurse und den berechneten Marktwert für jeden Portfoliobestand. Dieses Datenvolumen wurde bereits mithilfe der DQS und der Toleranzen für Vollständigkeit (in Bezug auf alle Datenelemente), Aktualität (für das Verarbeitungsdatum), Konformität (für das Konto, den Kontonamen und den Ticker) und Genauigkeit (für das Gebot und die Menge) validiert. Außerdem wurden die Portfoliosammlungen (Voyager und Ping) für jeden Tag mit Hilfe der DQS-Sammlungen validiert, um zu bestätigen, dass die historischen Portfoliobestände vollständige und gültige Sammlungen sind.

Abbildung 4-13. Historisches Datenvolumen der Portfoliobestände(Großformat, Farbversion)

Das Modell verwendet die in Abbildung 4-14 dargestellten Kontrollwerte, um die Anzahl der Datensätze und den Marktwert der in Abbildung 4-15 dargestellten Rohdaten der Portfoliobestände zu überprüfen. Die Kontrollwerte werden von der Buchhaltungsplattform in einer separaten Datendatei bereitgestellt und zur Validierung der Rohdaten der Portfoliobestände verwendet.

Abbildung 4-14. Daten zur Kontrolle der Portfoliobestände
Abbildung 4-15. Rohdaten der Portfoliobestände

Das Modell wendet die Erhebungs-DQS auf die in Abbildung 4-15 dargestellten unbereinigten Rohdaten der Portfoliobestände an. Die Erhebungs-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden in diesem Modell für die Portfoliobestandsdaten definiert. In Tabelle 4-17 sind die Toleranzen für die Datenqualität der Portfoliobestandsdaten aufgeführt. Das Modell verwendet gültige und ungültige Toleranzen; du könntest jedoch eine oder mehrere verdächtige Toleranzen oder eine andere ausgefeilte Logik hinzufügen, wenn dies für deine Daten besser geeignet ist.

Tabelle 4-17. Sammlung DQS
Datenvolumen Beschreibung der Datenqualität DQS Auswirkungen auf das Geschäft
Portfolio-Beteiligungen

Alle Bestandsaufzeichnungen und Datenelemente sind obligatorisch und müssen vorhanden sein. Verwende die Vollständigkeits-DQS.


Das Konto und die Portfoliobestände müssen über das Konto und den Ticker identifizierbar sein. Verwende die Kohäsions-DQS.


Die Anzahl der Datensätze in den Kontrolldaten für die Portfoliobestände muss mit der Anzahl der Datensätze in den Rohdaten für die Portfoliobestände übereinstimmen, um gültig zu sein; andernfalls ist sie ungültig, und die Auswirkungen auf das Geschäft sind hoch.


Die prozentuale Differenz zwischen der Summe der Marktwerte der rohen Portfoliobestandsdaten für ein Konto muss weniger als 3% des offiziellen Marktwerts des Portfolios in den Portfoliobestands-Kontrolldaten betragen, um gültig zu sein; andernfalls ist sie ungültig und die geschäftlichen Auswirkungen sind hoch.

Portfolio-Bestände: Sammlung-Datensatzanzahl = V, Rohdatensatzanzahl = Kontrolldatensatzanzahl, IV, Rohdatensatzanzahl ≠ Kontrolldatensatzanzahl, H


Portfoliobestände: Sammelmarktwert Prozentuale Differenz = V, Rohmarktwert < 3% Kontrollmarktwert, IV, Rohmarktwert ≥ 3% Kontrollmarktwert, H

Hoch






Hoch

Die Erhebungs-DQS für die Portfoliobestände geben an, dass alle Datensätze und Datenelemente obligatorisch sind und vorhanden sein müssen und dass das Konto und die Portfoliobestände identifizierbar sein müssen. Die Anwendung der DQS für Vollständigkeit und Kohäsion wurde aus Gründen der Kürze bewusst weggelassen. Die DQS für die Erfassung verlangen, dass die Anzahl der Rohdatensätze für die Portfoliobestände für jedes Konto mit der Anzahl der entsprechenden Datensätze für die Kontrolle der Portfoliobestände übereinstimmt. Das heißt, wenn die Anzahl der Datensätze übereinstimmt, ist die Sammlung gültig; andernfalls, wenn die Anzahl der Datensätze nicht übereinstimmt, ist die Sammlung ungültig. Außerdem muss laut DQS die Differenz zwischen dem Marktwert des Rohbestands für jedes Konto und dem entsprechenden Kontrollmarktwert weniger als 3 % betragen, um gültig zu sein; andernfalls ist die Sammlung ungültig.

Abbildung 4-16 veranschaulicht die Ergebnisse und zeigt die gültige oder ungültige Record Count Datenqualitätsmetrik für jede Sammlung. Abbildung 4-16 enthält eine Kopie der Rohdatenwerte in der Spalte "Raw Record Count2".

Abbildung 4-16. Metriken zur Datenqualität der Sammelaufzeichnung(Großformat, Farbversion)

Abbildung 4-17 veranschaulicht die Ergebnisse und zeigt die gültige oder ungültige Marktwert-Datenqualitätskennzahl für jede Sammlung. In Abbildung 4-17 ist in der Spalte "Roher Marktwert2" eine Kopie der Werte für den rohen Marktwert als Referenz enthalten. Die Differenz zwischen dem rohen Marktwert und dem Kontrollmarktwert wird zur Veranschaulichung in Prozent angegeben.

Abbildung 4-17. Prozentuale Differenz der Datenqualitätsmetriken zum Sammelmarktwert(Großformat, Farbversion)

Die Anwendung des DQS für die Dimension der Erhebungsdaten auf das Rohdatenvolumen der Portfoliobestände erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Rohdatenvolumen der Portfoliobestände in den Abbildungen 4-16 und 4-17 sehen wie folgt aus:

  • 4 Datumssätze

  • 2 Datenelemente (Marktwert und Anzahl der Datensätze)

  • 4 Bezugswerte

Tabelle 4-18 zeigt die Gesamtzahl der gültigen und ungültigen Datenwerte in der Rohdatenmenge der Portfoliobestände.

Tabelle 4-18. Zusammenfassung der Metriken zur Qualität der Erhebungsdaten
Datenelement Gültig Ungültig
Rekordzahl 1 1
Marktwert 1 1
Metrik-Gesamtwerte 2 2

Die Dimension der Sammlungsdaten ist spezifisch für die Art der Sammlung (z. B. Portfoliobestände, ETF, Index). Eine gültige Sammlung bedeutet, dass alle erforderlichen Datensätze existieren und identifizierbar sind. Eine gültige Sammlung kann ungültige Datenwerte enthalten, solange die ungültigen Daten nicht für die Validierung der Sammlung selbst erforderlich sind. Kontrollsummen, wie z. B. die Anzahl der Datensätze und die Marktwerte der Portfoliobestände, sind nützlich, um Sammlungen zu validieren. Wenn jedoch keine Kontrollsummen für die Validierung zur Verfügung stehen, kannst du (wie bei der Marktwerttoleranz) stattdessen einen Kongruenzvorwertvergleich oder einen Kongruenz-Z-Score verwenden. Die Sammelvalidierung garantiert, wie alle anderen Toleranzvalidierungen außer der Genauigkeit, nicht, dass die Daten gültig und korrekt sind. Stattdessen werden, wie in Kapitel 3 erwähnt, mit der Sammelvalidierung Anomalien festgestellt.

Beispiel

Dies ist ein einfaches Beispiel, um die Besonderheiten von Datensammlungen und die Mechanismen der Validierungsprüfungen zur Bestätigung der Gültigkeit einer Sammlung zu veranschaulichen. Wir ermutigen dich, deine eigenen Validierungsprüfungen für Datensammlungen und die entsprechenden Toleranzen für die Datenqualität zu entwickeln und dabei eine ausgefeiltere Logik zu verwenden, die für die Identifizierung von Datenanomalien in Bezug auf die Art der Daten besser geeignet und nützlich ist.

Angenommen, zwei Datenwerte liegen innerhalb der gültigen Toleranz. Mit der im DQS definierten Prüfung der Erhebungsdatenqualität werden jedoch zwei Datenanomalien festgestellt. Diese beiden Anomalien erfüllen die Bedingung der gültigen Toleranz nicht. Kontrollsummen (wie z. B. der Marktwert für Portfoliobestände, Gewichte und Gesamtgewichte für Indizes und ETFs sowie die allgemeine Anzahl der Datensätze) sind nützlich, um Anomalien oder Ausreißer zu erkennen. Während die prozentuale Abweichung des Marktwerts für das Konto 12345 bei 2,5 % liegt und damit innerhalb unserer DQS-Toleranz, wissen wir auch, dass am 2.11.2015 80 Aktien von Apple verkauft wurden, was einer Menge von 920 Aktien entspricht. Der Verkauf spiegelt sich im Marktwert des Rohportfolios wider, der 442.873 USD beträgt. Der Verkauf wurde jedoch nicht in den Marktwert der Kontrolldaten des Portfolios aufgenommen, der 453.995 USD beträgt. Die Anzahl der Datensätze weist eindeutig darauf hin, dass für das Konto 987654 ein Portfoliobestandsdatensatz fehlt, und die prozentuale Differenz zwischen dem rohen Marktwert und dem Kontrollmarktwert von 138,1 % ist ein Ausreißer. Es ist unklar, was mit den Portfoliobeständen für das Konto 987654 passiert ist. Möglicherweise wurde der Datensatz für die Portfoliobeteiligung versehentlich ausgelassen, oder die Beteiligung wurde vollständig verkauft, aber nicht erfasst. Da sowohl die Datensatzanzahl als auch der Marktwert nicht innerhalb der erwarteten gültigen Toleranz liegen, müssen sie weiter untersucht und überprüft werden.

Kohäsion DQS

Wie in Kapitel 3 erwähnt, bezieht sich die Datendimension Kohäsion auf die Beziehung zwischen Datenwerten, die normalerweise als logische Datensätze organisiert sind. In der Regel haben alle Datenwerte eine Beziehung zu einem anderen Datenwert. Das bedeutet, dass die Datenwerte organisiert und zumindest mit einer Art Kennung versehen sein müssen, die ein Datum oder einen Satz von Datenwerten mit einem anderen verbindet und die Verknüpfung von zwei oder mehr Datensätzen mit Hilfe der Kennung erleichtert. Der Bezeichner wird oft als Primärschlüssel oder Fremdschlüssel bezeichnet. Der Bezeichner kann ein einzelner Datenwert oder eine Kombination von Datenwerten sein. In jedem Fall geht es darum, eine genaue Beziehung herzustellen, die es dir ermöglicht, Daten miteinander zu verbinden.

Das in Abbildung 4-18 dargestellte Wertpapierstammdatenvolumen enthält das Verarbeitungsdatum und den Ticker. Zusammen identifizieren diese beiden Datenelemente den Datensatz für ein bestimmtes Datum eindeutig. Der Datensatz enthält den Emissionsnamen, die Börse, den Geldkurs, den Briefkurs, den Spread und so weiter.

Das in Abbildung 4-18 dargestellte bereinigte und validierte Datenvolumen der historischen Portfoliobestände enthält das Verarbeitungsdatum und das Konto als primäre Datenschlüssel. Zusammen identifizieren diese beiden Datenelemente den Datensatz für ein bestimmtes Datum eindeutig. Der Datensatz enthält den Kontonamen, den Ticker, die Menge, den Geldkurs und den Marktwert. Das Datenelement Ticker in den Bestandsdaten wird zusammen mit dem Datenelement Verarbeitungsdatum als Fremddatenschlüssel bezeichnet. Diese Schlüssel sind mit dem Datenelement Verarbeitungsdatum und dem Datenelement Ticker verknüpft, die Teil des primären Datenschlüssels im Wertpapierstammdatenvolumen sind. Die Kohäsionsdaten-Dimension für dieses Datenvolumen ist gültig, wenn diese Beziehung besteht und die Beziehung zwischen Fremdschlüssel und Primärschlüssel gültig ist.

Du verwendest die DQS Vollständigkeit, Konformität und, wenn möglich, Genauigkeit, um die Schlüsselelemente der Primär- und Fremddaten zu überprüfen. Die DQS für die Aktualität verwendest du, um das Datum, die Uhrzeit oder die Datumszeit zu überprüfen, wenn es sich bei der Datenmenge um eine Zeitreihe handelt. Die primären und fremden Datenschlüssel sind obligatorisch, um die Datensätze eindeutig zu identifizieren und den Zusammenhalt in datenvolumenübergreifenden Verknüpfungen zu ermöglichen. Abbildung 4-18 veranschaulicht die Beziehung zwischen Primär- und Fremddatenschlüssel zwischen dem Wertpapierstammdatenvolumen und dem Portfolio-Bestandsdatenvolumen.

Abbildung 4-18. Kohäsionssicherheitsstamm und Portfoliobestände

Das Modell verwendet die in Abbildung 4-19 dargestellten Rohdaten der Portfoliobestände.

Abbildung 4-19. Unbekanntes Ticker-Rohdatenvolumen der Portfoliobestände

Der Ticker ist ein obligatorisches Feld als Teil des Fremddatenschlüssels, um den Datensatz des Portfoliobestands zusammen mit dem Verarbeitungsdatum und dem Konto eindeutig zu identifizieren. Die Anwendung der DQS für Vollständigkeit, Konformität und Genauigkeit auf das Datenelement "Ticker" im Rohdatenvolumen der Portfoliobestände mit unbekanntem "Ticker" zeigt, dass alle Werte der "Ticker"-Daten gültig sind. Das Modell wendet die in Tabelle 4-19 aufgeführten Kohäsions-DQS auf das unbekannte Ticker-Rohdatenvolumen an. Die Kohäsions-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden in diesem Modell für das Portfolio-Bestandsdatenvolumen definiert. In Tabelle 4-19 sind die Datenqualitätstoleranzen für das Datenvolumen der Portfoliobestände aufgeführt. Das Modell weist gültige und ungültige Metriken zu, indem es den Fremddatenschlüssel (Verarbeitungsdatum, Ticker) in den unbekannten Ticker-Rohdaten der Portfoliobestände mit dem Primärdatenschlüssel (Verarbeitungsdatum, Ticker) im Wertpapierstammdatenvolumen abgleicht.

Tabelle 4-19. Kohäsion DQS
Datenvolumen Beschreibung der Datenqualität DQS Auswirkungen auf das Geschäft
Portfolio-Beteiligungen Alle Bestandsaufzeichnungen und Datenelemente sind obligatorisch und müssen vorhanden sein. Verwende die Vollständigkeits-DQS.
Der Aktien-Ticker der Portfoliobestände für ein bestimmtes Verarbeitungsdatum muss mit demselben Aktien-Ticker und Verarbeitungsdatum im Wertpapierstammdatenvolumen übereinstimmen und verknüpft sein, um gültig zu sein; andernfalls ist er ungültig, und die geschäftlichen Auswirkungen sind hoch.
Portfoliobestände: Kohäsion = V, Rohbestände (Verarbeitungsdatum + Ticker) = Wertpapierstamm (Verarbeitungsdatum + Ticker), IV, Rohbestände (Verarbeitungsdatum + Ticker) ≠ Wertpapierstamm (Verarbeitungsdatum + Ticker), H Hoch

Wenn diese Beziehungen zwischen Primär- und Fremdschlüsseln in physischen Datenstrukturen, wie z. B. Datenbanken, gut definiert und durchgesetzt werden, kann die Technologie den Zusammenhalt zwischen den Datenmengen mithilfe von Primär- und Fremdschlüsselbeziehungen erzwingen. In der Finanzbranche werden jedoch viele unterschiedliche Datenmengen und Technologien verwendet, die sich im Laufe der Zeit weiterentwickelt haben. Es kann sein, dass du dich nicht darauf verlassen kannst, dass die Datenverwaltungstechnologie die Kohäsion durchsetzt. Daher musst du möglicherweise spezielle Kohäsionsdatenprüfungen durchführen, um sicherzustellen, dass die Datenmengen miteinander verknüpft werden können.

Die Kohäsions-DQS für die Rohportfoliobestände geben an, dass die Datenelemente Verarbeitungsdatum und Ticker obligatorisch sind und vorhanden sein müssen und dass das Konto und die Portfoliobestände identifizierbar sein müssen. Der Ticker und das Verarbeitungsdatum für jeden Portfoliobestand müssen mit dem Ticker und dem Verarbeitungsdatum im Wertpapierstammdatenbestand übereinstimmen. Die Anwendung der DQS für Vollständigkeit, Konformität, Richtigkeit und Kohäsion für das Konto ist gültig und wurde der Kürze halber absichtlich weggelassen. Die DQS für Kohäsion verlangen, dass der Ticker und das Verarbeitungsdatum des Rohportfolios mit dem Ticker und dem Verarbeitungsdatum für jeden Portfoliodatensatz im Wertpapierstammdatenvolumen übereinstimmen. Das heißt, wenn der Fremddatenschlüssel (Verarbeitungsdatum, Ticker) für jeden Datensatz im Rohportfolio-Bestandsvolumen mit dem Primärdatenschlüssel (Verarbeitungsdatum, Ticker) im Wertpapierstammdatenvolumen übereinstimmt, ist der Zusammenhalt des Datensatzes gültig; andernfalls, wenn der Fremddatenschlüssel und der Primärdatenschlüssel für jeden Datensatz nicht übereinstimmen, ist der Zusammenhalt des Datensatzes ungültig.

Abbildung 4-20 veranschaulicht die Ergebnisse und zeigt die gültigen bzw. ungültigen Portfolio-Bestandsdatensätze anhand der Datenqualitätsmetriken Verarbeitungsdatum und Ticker. Abbildung 4-20 enthält eine Kopie der Werte für das Verarbeitungsdatum und den Ticker in den Spalten "Verarbeitungsdatum2" und "Ticker2", die als Referenz dienen.

Abbildung 4-20. Metriken zur Kohäsionsdatenqualität(Großformat, Farbversion)

Die Anwendung der DQS für die Kohäsionsdimension auf das Rohdatenvolumen der Portfoliobestände erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Rohdatenvolumen der Portfoliobestände in Abbildung 4-20 lauten wie folgt:

  • 5 Datensätze

  • 2 Datenelemente (Verarbeitungsdatum und Ticker)

  • 10 Bezugswerte

Tabelle 4-20 zeigt die Gesamtzahl der gültigen und ungültigen Datenwerte in der Rohdatenmenge der Portfoliobestände.

Tabelle 4-20. Zusammenfassung der Metriken zur Kohäsionsdatenqualität
Datenelement Gültig Ungültig
Bearbeitungsdatum 4 1
Ticker 4 1
Metrik-Gesamtwerte 8 2

Die Datendimension Kohäsion spiegelt die Fähigkeit der Datenmengen wider, miteinander verknüpft zu werden. Die Kohäsion zwischen Datenmengen hängt von der Art der Daten und den Datenelementen oder der Kombination von Datenelementen ab, die die primären Datenschlüssel in einer Datenmenge und die fremden Datenschlüssel in einer anderen Datenmenge bilden (z. B. Verarbeitungsdatum, Ticker). Ein Datenvolumen mit gültiger Kohäsion bedeutet, dass die Fremddatenschlüssel, die Datensätze in einem Datenvolumen identifizieren, mit den Primärdatenschlüsseln übereinstimmen, die Datensätze in einem anderen Datenvolumen identifizieren.

Jedes Datenvolumen kann eine gültige Kohäsion haben und ungültige Datenwerte enthalten, solange die ungültigen Datenwerte nicht die Datenwerte sind, die zur Validierung der Beziehung zu einem anderen Datenvolumen erforderlich sind. Die Kohäsionsvalidierung garantiert nicht, dass die Daten gültig und korrekt sind. Stattdessen werden, wie in Kapitel 3 erwähnt, durch die Validierungsprüfung Anomalien festgestellt.

Beispiel

Dies ist ein einfaches Beispiel, um die Beziehung oder Kohäsion zwischen Datenvolumina und die Mechanismen der Anwendung von Validierungsprüfungen zur Bestätigung der Gültigkeit der Beziehung zu veranschaulichen. Ich möchte dich ermutigen, deine eigenen Kohäsionsprüfungen und die entsprechenden Toleranzen für die Datenqualität zu entwickeln und dabei eine ausgefeiltere Logik zu verwenden, die möglicherweise besser geeignet ist, um Datenanomalien in Bezug auf die Art der Daten zu erkennen.

Vier Fremddatenschlüsselwerte (Verarbeitungsdatum, Ticker) in den Rohportfoliobeständen liegen innerhalb der gültigen Toleranz. Eine Anomalie bei den Fremddatenschlüsseln wurde jedoch bei der Überprüfung der Kohäsionsdatenqualität festgestellt - sie entspricht nicht der gültigen Toleranzbedingung. Das Rohdatenvolumen der Portfoliobestände enthält einen Datensatz mit dem Verarbeitungsdatum 11/3/2015 und dem Ticker DELL, aber dieser Ticker existiert nicht im Wertpapierstammdatenvolumen. Es ist unklar, warum das DELL-Aktienpapier für das Konto 12345 im Rohdatenbestand des Portfolios enthalten ist, obwohl es keinen Datensatz des DELL-Aktienpapiers im Wertpapierstammdatenvolumen gibt. Sowohl die Portfoliobestände für das Konto 12345 als auch der Prozess der Wertpapierstammdatenpflege bedürfen einer weiteren Untersuchung und Überprüfung.

Abbildung 4-21 zeigt eine Zusammenfassung der Datenqualitätsmetriken, nachdem das Datenvolumen der Bestände, Wertpapiere, Fundamentaldaten, Konsensempfehlungen und Kurse korrigiert wurde. Abbildung 4-21 zeigt, dass der Datenqualitätsstatus für die Datenmengen der Bestände, Wertpapiere, Fundamentaldaten, Konsensempfehlungen und Preise von IV (ungültig) auf V (gültig) oder S (verdächtig) geändert wurde. Die Qualität dieser Datenmengen entspricht nun dem DQS für alle nachgelagerten Verbraucher.

Abbildung 4-21. DQS-Modell mit Wertpapieren, Fundamentaldaten, Konsensempfehlungen, Preisen und Beständen(Großformat, Farbversion)

Fit für den Zweck

Fit for purpose bedeutet, dass die Qualität der Datenmengen, die von den Geschäftsfunktionen, Anwendungen und Datenkonsumenten benötigt werden, den DQS für die Funktion, die Anwendung und den Konsumenten entspricht. Die DQS für die einzelnen Datendimensionen, die in diesem Beispiel vorgestellt werden, sind in der Regel für alle Geschäftsfunktionen und Verbraucher gleich. In der realen Welt ist dies jedoch in der Regel nicht der Fall. Datenqualität und DQS sind sehr spezifisch für die Datenanforderungen der Geschäftsfunktion, der Anwendung und des Datenkonsumenten. Es ist möglich, dass sich die DQS für Datendimensionen einer Geschäftsfunktion von der DQS einer anderen Geschäftsfunktion unterscheidet.

Forscher, Datenwissenschaftler und Datenanalysten, die neue Datensätze erforschen und testen, die noch nicht in die Produktionsdatenmanagement-Pipelines integriert wurden, können zum Beispiel geringere Toleranzen für die Datenqualität haben als andere, kritischere Datenmengen, die in den Produktionspipelines verwendet werden.

Das Modell in Abbildung 4-21 veranschaulicht sechs Stufen der Zweckmäßigkeit. Du solltest die Datenprozesse in deiner Geschäftsfunktion und die verschiedenen Geschäftsfunktionen in deinem Unternehmen unter Berücksichtigung der definierten geschäftlichen Auswirkungen betrachten. Die Abgrenzung der verschiedenen Fit-for-Purpose-Stufen in diesem Modell dient der Veranschaulichung; die Definitionen der Geschäftsauswirkungen sind jedoch in hohem Maße auf alle Datenprozesse und Geschäftsfunktionen anwendbar. Je nach DQS kann es mehr oder weniger Fit-for-Purpose-Stufen geben, aber fast immer hat die Verwendung von Daten schlechter Qualität (oder von Daten, die nicht fit-for-purpose sind) negative Auswirkungen auf das Geschäft. In Tabelle 4-21 sind die Eignungsstufen für die Geschäftsfunktionen in diesem Modell aufgeführt. Sie gibt auch das erforderliche Datenqualitätsniveau und die geschäftlichen Auswirkungen von Daten schlechter Qualität für jede Geschäftsfunktion an.

Tabelle 4-21. Geschäftliche Auswirkungen und Zweckmäßigkeit
Ebene der Gebrauchstauglichkeit Geschäftsfunktion(en) Erforderliches Datenqualitätsniveau Auswirkungen auf das Geschäft
0 Datenmanagement Niedrig Keine
1 Forschung Medium Verschwendung hochwertiger Ressourcen, Zeit
2 Analytik Medium Verschwendung von wertvollen Ressourcen und Zeit
Schlechte Analytik
3 Portfolio Management,
Handel, Compliance
Hoch Schaden auf finanzieller, regulatorischer und rufschädigender Ebene
4 Investitionstätigkeit Hoch Schaden auf finanzieller, regulatorischer und rufschädigender Ebene
5 Geschäftsentwicklung, Kundendienste, Marketing, Leistungsmessung Hoch Schaden auf finanzieller, regulatorischer und rufschädigender Ebene

Stufe 0 ist die niedrigste Stufe der Zweckmäßigkeit und stellt die anfängliche Rohdatenaufnahme durch einen Anbieter dar, die in der Regel von einer Datenmanagement-, Data Stewardship- oder Enterprise Data Management-Funktion verwaltet wird. Auf dieser Ebene sind die Daten unbearbeitet und nicht bereinigt, und die Funktion wendet verschiedene DQS auf die Daten an, um ihre Qualität in Bezug auf die DQS der nachgelagerten Verbraucher zu überprüfen.

Die Stufen 1 und 2 stellen die Zweckmäßigkeitsebenen auf der Grundlage der DQS und der akzeptablen Datenqualitätsniveaus für die Geschäftsfunktion Forschung und die Nutzung der Datenmengen zur Erstellung interner Analysen dar. Das erforderliche Datenqualitätsniveau ist mittel, was bedeutet, dass die Geschäftsfunktion auch mit Daten geringerer Qualität funktionsfähig ist. Die Auswirkungen auf das Geschäft sind jedoch mittelschwer - die Zeit hochwertiger Ressourcen wird verschwendet und die Analysen können ungenau oder von schlechter Qualität sein, aber es gibt wahrscheinlich keine finanziellen, regulatorischen oder kundenbezogenen Auswirkungen. Mittlere Auswirkungen auf das Geschäft erfordern in der Regel eine Triage, um die Datenanomalien zu identifizieren und die notwendigen Abhilfemaßnahmen zur Verbesserung der Datenqualität zu bestimmen.

Die Stufen 3, 4 und 5 stellen die Zweckmäßigkeitsebenen auf der Grundlage der DQS und der akzeptablen Datenqualitätsniveaus für die Geschäftsfunktionen Portfoliomanagement, Handel, Compliance, Investment Operations, Business Development, Client Services, Performance Measurement und Marketing dar. Das geforderte Datenqualitätsniveau ist hoch, was bedeutet, dass die Geschäftsfunktion bei einer geringeren Datenqualität in einen operativen Fehlerzustand gerät. Die geschäftlichen Auswirkungen unvollständiger oder ungenauer Daten können finanzielle Strafen, den Verlust des Kundenvertrauens, Verstöße gegen aufsichtsrechtliche Bestimmungen und Reputationsschäden umfassen. Die Auswirkungen auf das Geschäft erfordern eine sofortige Reaktion, um die Datenanomalien zu identifizieren und die notwendigen Abhilfemaßnahmen zur Verbesserung der Datenqualität zu bestimmen.

Zusammenfassung

Das Modell und die Beispiele in diesem Kapitel sind bewusst einfach gehalten, um die Funktionsweise und den Wert von DQS in der Datenverarbeitungspipeline eines Unternehmens zu verdeutlichen. Datendimensionen wie Vollständigkeit, Genauigkeit und Konformität können als allgemeiner auf Daten anwendbar betrachtet werden. Vollständigkeit gilt für alle Daten aller Datentypen. Konformität gilt für alle Daten, die einem bestimmten Format entsprechen müssen, und Präzision gilt vor allem für Zahlen. Die Dimension Kongruenz wird in der Regel zur Validierung von Zeitreihenzahlen verwendet, kann aber auch zur Validierung von Zeitreihen alphanumerischer Daten eingesetzt werden. Die Validierung der Kongruenz und die Toleranzen hängen von der Art der Daten ab. Aktualitätsprüfungen beziehen sich ebenfalls auf die Art der Daten und werden in der Regel verwendet, um das Datum, die Uhrzeit oder die Datumszeit von Zeitreihendaten zu überprüfen. Die Kohäsion bezieht sich auf die Beziehung zwischen Datenmengen und ist somit spezifisch für die Art der Daten. Sammlung ist eine spezielle Dimension für Datenmengen, die alle Komponenten der Mitgliedsdaten enthalten müssen, um als Sammlung zu gelten. Die Genauigkeit schließlich ist spezifisch und oft einzigartig für die untersuchten Daten.

Die Anwendung der DQS auf jede dieser Datendimensionen, von allgemein bis speziell, ist in Tabelle 4-22 dargestellt.

Tabelle 4-22. DQS-Anwendung auf Datenmaße
DQS-Antrag Dimension
Spezifische Genauigkeit
Sammlung
Zusammenhalt
Kongruenz
Pünktlichkeit
Konformität
Präzision
Allgemein Vollständigkeit

Herzlichen Glückwunsch! Du weißt jetzt viel mehr über Datendimensionen und die Werkzeuge, die du brauchst, um die Form deiner Daten mithilfe der definierten gültigen, verdächtigen und ungültigen Toleranzen in der DQS quantitativ zu messen. Die Anwendung und Nutzung des DQS-Rahmenwerks erzeugt große Mengen an Datenqualitätsmetriken. Im nächsten Kapitel werden Datenqualitätsvisualisierungen vorgestellt, mit denen du deine Analysen abbilden und darstellen kannst. Diese Visualisierungen sollen es dir ermöglichen, das Spektrum und die Dichte der gültigen, verdächtigen und ungültigen Daten in deinen Datenmengen schnell zu verstehen. Du solltest dich vor allem für die verdächtigen und ungültigen Daten interessieren, die nicht den DQS-Anforderungen der Verbraucher entsprechen und die eine weitere Prüfung, Untersuchung und wahrscheinlich auch Abhilfeerfordern .

Get Datenqualitätstechnik in Finanzdienstleistungen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.