Kapitel 4. DQS-Modell Beispiel
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel wird die Verwendung des DQS-Rahmens erläutert. Dieses Rahmenwerk definiert die Datenqualitätstoleranzen für die anwendbaren Dimensionen der Daten in den Datenmengen, die von den Geschäftsfunktionen benötigt werden. Das in Abbildung 4-1 gezeigte Modell ist wie ein Fließband in der Fertigung dargestellt, wobei 11 Geschäftsfunktionen von links nach rechts gezeigt werden. Es handelt sich um ein einfaches Modell, das genügend Details enthält, um den DQS-Rahmen und das Konzept der zweckmäßigen Daten zu veranschaulichen. Dein Unternehmen ist wahrscheinlich anders organisiert, mit anderen Geschäftsfunktionen, Anwendungen und Datenanforderungen pro Funktion. Das Modell veranschaulicht die DQS für eine Teilmenge der Datenmengen, die für die Nutzung durch nachgelagerte Verbraucher bestimmt sind, und stellt nicht alle DQS-Anforderungen für jede Funktion dar.
Du kannst dieses Modell als Vorlage verwenden und ein ähnliches Modell erstellen, das deine Geschäftsfunktionen, Datenanforderungen und den DQS für Datenmengen widerspiegelt, die du verwendest oder die deine Geschäftsfunktionen oder Anwendungen nutzen. Du kannst dieses Modell auch allgemeiner auf Daten anwenden, die von vielen Geschäftsfunktionen und Anwendungen in deinem Unternehmen genutzt werden.
Die Geschäftsfunktionen in diesem Modell sind wie folgt definiert:
- Funktion Datenmanagement
- Nimmt Datenmengen von Drittanbietern auf und prüft die Datenqualität entsprechend den DQS der nachgelagerten Funktionen; behebt alle Datenanomalien
- Funktion Forschung
- Erhält Daten von der Datenverwaltungsfunktion und verwendet die Daten in den Investment Research Prozessen
- Analysefunktion
- Empfängt Daten von der Datenverwaltungsfunktion und verwendet die Daten zur Erstellung von Sicherheitsanalysedaten
- Funktion Portfoliomanagement
- Erhält Daten aus den Bereichen Datenmanagement, Forschung, Analyse und Investment Operations, um Portfolios zu verwalten
- Handelsfunktion
- Empfängt Daten von der Datenmanagementfunktion und verwendet die Daten, um die Wertpapiere für den Handel zu identifizieren
- Compliance-Funktion
- Erhält Daten von der Datenverwaltungsfunktion und verwendet die Daten, um die gehandelten Wertpapiere zu identifizieren; vergleicht sie mit den Listen mit Kundenbeschränkungen
- Funktion Investment Operations
- Empfängt Daten von der Datenverwaltungsfunktion und verwendet die Daten, um Wertpapiere und zugehörige Marktdaten für Buchhaltungszwecke zu identifizieren
- Funktion Geschäftsentwicklung
- Erhält Daten von der Datenverwaltungsfunktion und verwendet die Daten, um die Erstellung von Verkaufspräsentationen zu unterstützen
- Funktion Kundendienste
- Empfängt Daten von der Datenverwaltungsfunktion und verwendet die Daten zur Unterstützung der Kundenberichterstattung
- Funktion Leistungsmessung
- Empfängt Daten von der Datenmanagementfunktion und verwendet die Daten, um Leistungsrenditen und Zuteilungen zu berechnen
- Marketingfunktion
- Erhält Daten von der Datenmanagementfunktion und verwendet die Daten, um Marketingmaterialien zu erstellen
Jede Geschäftsfunktion wird durch eine Box dargestellt. Die Box enthält ein oder mehrere Datenvolumen, die für die Funktion erforderlich sind. Der Status der Datenqualität wird mit einem V (gültig), IV (ungültig) oder S (verdächtig) angezeigt, basierend auf den Datenqualitätsmetriken der Datenmengen.
Abbildung 4-1 zeigt, wie die Sicherheitsstammdaten den anderen nachgelagerten Verbrauchern von der Datenmanagementfunktion zur Verfügung gestellt werden. Du wirst im DQS-Modellbeispiel sehen, wie die Anwendung von DQS präzise Datenqualitätsmessungen und -metriken liefert. Die Datenqualitätsmetriken werden verwendet, um festzustellen, ob die Daten für den Zweck und die Nutzung durch die Geschäftsfunktion geeignet sind. Das Niveau der Zweckmäßigkeit, das weiter unten in diesem Kapitel erläutert wird, gibt verschiedene DQS-Toleranzen für Daten an, die von Geschäftsfunktionen und Anwendungen genutzt werden. Ein Datenvolumen, das Aktienkurse mit leeren oder veralteten Werten enthält, kann z. B. zweckdienlich sein und für die allgemeine Anlageforschung und Börsenanalyse verwendet werden, aber leere Kurse sind nicht zweckdienlich für die Verwendung durch die Geschäftsfunktionen zur Berechnung des Nettoinventarwerts eines Portfolios oder für die Leistungsmessung zur genauen Berechnung der Portfoliorenditen.
Abbildung 4-2 zeigt den nicht bereinigten Rohdatensatz, der vom Modell verwendet wird, um die Datenqualitätsmetriken für die Dimensionen Vollständigkeit, Aktualität, Genauigkeit, Präzision und Konformität zu erstellen. Diese Datenmenge wird von der Funktion Datenmanagement empfangen. Diese Funktion wendet Datenqualitätsvalidierungen auf das Datenvolumen an, die auf den DQS der nachgelagerten Verbraucher (z. B. Research-, Analyse-, Portfoliomanagement- und Handelsfunktionen) basieren. Das Datenmanagement nutzt die in den DQS festgelegten Toleranzen für die Datenqualität, um Datenanomalien zu erkennen und zu korrigieren.
Vollständigkeit DQS
Wie ich bereits in früheren Kapiteln erwähnt habe, musst du festlegen, ob die Existenz der Daten obligatorisch oder optional ist. Jedes Datum hat eine Vollständigkeits- oder Existenzdimension. Dies ist die grundlegendste Prüfung für jedes Datenelement. Wenn Datenelemente in physischen Datenstrukturen wie Datenbanken als nicht löschbar (nicht leer) definiert sind, erzwingt die Technologie die Vollständigkeit für diese Datenelemente in Datenmengen.
Die DQS für die Vollständigkeit aller Datenelemente im Sicherheitsstammdatenvolumen sind für jede nachgelagerte Geschäftsfunktion gleich. Tabelle 4-1 zeigt die Datenqualitätstoleranzen für jedes Datenelement, die durch die DQS definiert und von allen nachgelagerten Verbrauchern gefordert werden.
Datenelement | Beschreibung der Datenqualität | DQS | Auswirkungen auf das Geschäft |
---|---|---|---|
Ticker | Alle Ticker-Datenwerte sind obligatorisch und dürfen nicht leer sein; wenn einer davon leer ist, hat das große Auswirkungen auf das Geschäft. | Ticker: Vollständigkeit = M, IV ≥ 1, H | Hoch |
Ausgabe Name | Alle Datumswerte des Issue-Namens sind obligatorisch und dürfen nicht leer sein; wenn einer leer ist, hat das große Auswirkungen auf das Geschäft. | Name der Ausgabe: Vollständigkeit = M, IV ≥ 1, H | Hoch |
Tausche | Alle Werte der Börsensymbole sind obligatorisch und dürfen nicht leer sein; wenn sie leer sind, hat das große Auswirkungen auf das Geschäft. | Austausch: Vollständigkeit = M, IV ≥ 1, H | Hoch |
Angebot | Alle Werte für den Angebotspreis sind obligatorisch und dürfen nicht leer sein; wenn einer leer ist, hat das große Auswirkungen auf das Geschäft. | Bieten: Vollständigkeit = M, IV ≥ 1, H | Hoch |
Frag | Alle Preisdatenwerte sind obligatorisch und dürfen nicht leer sein; wenn sie leer sind, hat das große Auswirkungen auf das Geschäft. | Frage: Vollständigkeit = M, IV ≥ 1, H | Hoch |
Streue | Alle Spread-Datum-Werte sind obligatorisch und dürfen nicht leer sein; wenn einer leer ist, hat das große Auswirkungen auf das Geschäft. | Verbreiten: Vollständigkeit = M, IV ≥ 1, H | Hoch |
Marktkapitalisierung | Alle Werte der Marktkapitalisierung sind obligatorisch und dürfen nicht leer sein; wenn sie leer sind, hat das große Auswirkungen auf das Geschäft. | Marktkapitalisierung: Vollständigkeit = M, IV ≥ 1, H | Hoch |
Marktkapitalisierung Skala | Alle Werte der Marktkapitalisierungsskala sind obligatorisch und dürfen nicht leer sein; wenn einer leer ist, hat das große Auswirkungen auf das Geschäft. | Market Cap Scale: Vollständigkeit = M, IV ≥ 1, H | Hoch |
Kurs-Gewinn-Verhältnis (KGV) | Alle PE-Datenwerte sind obligatorisch und dürfen nicht leer sein; wenn einer davon leer ist, hat das große Auswirkungen auf das Geschäft. | PE: Vollzähligkeit = M, IV ≥ 1, H | Hoch |
Konsens-Empfehlung | Die Datenwerte der Konsensempfehlung können für eine Aktie eines Emittenten existieren oder auch nicht; daher ist die Existenz der Konsensempfehlung optional und die Auswirkungen auf das Geschäft sind gering. | Konsens-Empfehlung: Vollständigkeit = O, S ≥ 1, L | Niedrig |
Konsens Datum | Es kann sein, dass für eine Aktie eines Emittenten Konsensdatenwerte existieren oder auch nicht; daher ist die Existenz des Konsensdatums optional und die Auswirkungen auf das Geschäft sind gering. | Konsensdatum: Vollständigkeit = O, S ≥ 1, L | Niedrig |
Das Modell wendet die Vollständigkeits-DQS auf jedes Datenelement im Sicherheitsstammdatenvolumen an. Abbildung 4-3 veranschaulicht die Ergebnisse und zeigt die Metrik für gültige, ungültige oder verdächtige Datenqualität für jedes Datum. Die DQS zeigen an, dass die Datenwerte Ticker, Issue Name, Exchange, Bid, Ask, Spread, Market Cap, Market Cap Scale und PE obligatorisch sind und die Daten vorhanden sein müssen. Die DQS geben an, dass das Vorhandensein der Datenwerte Consensus Recommendation und Consensus Date optional ist. Das Modell generiert dann die Datenqualitätsmetriken, indem es Datenwerte mit V (gültig) zuweist, wenn die Daten vorhanden sind, IV (ungültig), wenn die Daten leer sind, und S (verdächtig), wenn die Daten nicht vorhanden sind, aber das Vorhandensein der Daten optional und nicht zwingend ist.
Die Anwendung der DQS für die Datendimension "Vollständigkeit" auf das Sicherheitsstammdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Sicherheitsstammdatenvolumen in Abbildung 4-3 lauten wie folgt:
25 Datensätze
11 Datenelemente oder Spalten (Ticker, Emissionsname)
275 Bezugswerte, die existieren können oder auch nicht
Tabelle 4-2 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Metriken für das Sicherheitsstammdatenvolumen.
Datenelement | Gültig | Ungültig | Verdächtiger |
---|---|---|---|
Ticker | 22 | 3 | 0 |
Ausgabe Name | 22 | 3 | 0 |
Tausche | 20 | 5 | 0 |
Angebot | 23 | 2 | 0 |
Frag | 21 | 4 | 0 |
Streue | 25 | 0 | 0 |
Marktkapitalisierung | 25 | 0 | 0 |
Marktkapitalisierung Skala | 23 | 2 | 0 |
Kurs-Gewinn-Verhältnis (KGV) | 22 | 3 | 0 |
Konsens-Empfehlung | 21 | 0 | 4 |
Konsens Datum | 24 | 0 | 1 |
Metrik-Gesamtwerte | 248 | 22 | 5 |
Rechtzeitigkeit DQS
Die DQS für die Aktualität sind für jede nachgelagerte Geschäftsfunktion gleich und werden in diesem Modell für das Datenelement Consensus Date im Stammdatenvolumen Sicherheit definiert. In Tabelle 4-3 sind die Datenqualitätstoleranzen für die Aktualitätsdimensionen des Datenelements Konsensdatum aufgeführt.
Datenelement | Beschreibung der Datenqualität | DQS | Auswirkungen auf das Geschäft |
---|---|---|---|
Konsens Datum | Es kann sein, dass es für eine Aktie eines Emittenten Konsensdatenwerte gibt oder nicht. Wenn das Datum existiert, dann ist das Konsensdatum gültig, wenn die Anzahl der Tage zwischen dem Konsensdatum und dem Verarbeitungsdatum weniger als 30 beträgt, verdächtig, wenn die Anzahl der Tage zwischen dem Konsensdatum und dem Verarbeitungsdatum größer oder gleich 30, aber kleiner als 90 ist, und ungültig, wenn die Anzahl der Tage größer oder gleich 90 ist. In allen Fällen sind die Auswirkungen auf das Geschäft gering. | Konsensdatum: Rechtzeitigkeit = V < 30 Tage, 30 Tage ≤ S < 90, IV ≥ 90, L | Niedrig |
Das Modell wendet die Aktualitäts-DQS auf das Datenelement Consensus Date für jedes Consensus Date-Datum im Sicherheitsstammdatenvolumen an. Abbildung 4-4 veranschaulicht die Ergebnisse und zeigt die Metrik für gültige, ungültige oder verdächtige Datenqualität für jedes Konsensdatum.
Die DQS geben an, dass das Konsensdatum weniger als 30 Tage vom Bearbeitungsdatum entfernt sein muss, um gültig zu sein, 30 bis 90 Tage vom Bearbeitungsdatum entfernt, um verdächtig zu sein, und größer oder gleich 90 Tage vom Bearbeitungsdatum entfernt, um ungültig zu sein. Abbildung 4-4 enthält zur Veranschaulichung zwei neue Spalten: eine Kopie der Werte des Konsensdatums in der Spalte "Konsensdatum2" und eine Spalte mit der Bezeichnung "Anzahl der Tage", die das Konsensdatum abzüglich des Bearbeitungsdatums darstellt. Das Modell wendet die DQS auf das Datenvolumen an und erstellt die Datenqualitätsmetriken, die die Werte des Konsensdatums mit V (gültig) darstellen, wenn das Konsensdatum weniger als 30 Tage vom Verarbeitungsdatum entfernt ist, IV (ungültig), wenn das Konsensdatum mehr als oder gleich 90 Tage vom Verarbeitungsdatum entfernt ist, und S (verdächtig), wenn das Konsensdatum weniger als 90, aber mehr als oder gleich 30 Tage vom Verarbeitungsdatum entfernt ist.
Die Anwendung der DQS für die Datendimension Aktualität auf das Konsensdatum im Sicherheitsstammdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Sicherheitsstammdatenvolumen in Abbildung 4-4 lauten wie folgt:
25 Datensätze
1 Datenelement (Konsensdatum)
25 Bezugswerte
Tabelle 4-4 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Datumswerte des Konsensdatums im Sicherheitsstammdatenvolumen.
Datenelement | Gültig | Ungültig | Verdächtiger |
---|---|---|---|
Konsens Datum | 15 | 6 | 4 |
Genauigkeit DQS
Die Genauigkeits-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden in diesem Modell für die Datenelemente Ticker, Issue Name und Exchange im Wertpapierstammdatenvolumen definiert. Tabelle 4-5 zeigt die durch die DQS definierten Datenqualitätstoleranzen für die Datenelemente Ticker, Emissionsname und Börse. Die offiziellen NYSE- und NASDAQ-Datensätze für Wertpapiernotierungen werden vom Modell als maßgebliche Quellen verwendet, um die Richtigkeit der Ticker-, Emissionsnamen- und Börsenwerte im Wertpapierstammdatenvolumen zu bestätigen.
Datenelement | Beschreibung der Datenqualität | DQS | Auswirkungen auf das Geschäft |
---|---|---|---|
Ticker | Für eine bestimmte Emission müssen Ticker-Datenwerte vorhanden sein. Wähle über das Börsendatum entweder den NYSE- oder den NASDAQ-Datensatz für die offizielle Notierung aus und passe den Ticker an. Wenn der Ticker mit einem Ticker im entsprechenden NYSE- oder NASDAQ-Datensatz übereinstimmt, ist der Ticker gültig. Wenn der Ticker nicht mit einem Ticker in den offiziellen Listen übereinstimmt, ist der Ticker ungültig und die Auswirkungen auf das Geschäft sind hoch. | Ticker: Genauigkeit - maßgebend = V, Ticker = Ticker, IV, Ticker ≠ Ticker, H | Hoch |
Ausgabe Name | Die Datenwerte für den Emissionsnamen müssen für eine bestimmte Emission existieren. Wähle über das Datum Börse entweder den Datensatz für die offizielle Notierung an der NYSE oder NASDAQ aus und vergleiche den Emissionsnamen. Wenn der Emissionsname mit einem Emissionsnamen im entsprechenden NYSE- oder NASDAQ-Datensatz übereinstimmt, ist der Emissionsname gültig. Wenn der Emissionsname nicht mit einem Emissionsnamen in den offiziellen Listen übereinstimmt, ist der Emissionsname ungültig und die Auswirkungen auf das Geschäft sind hoch. | Issue Name: Genauigkeit - maßgebend = V, Ausgabename = Ausgabename, IV, Ausgabename ≠ Ausgabename, H | Hoch |
Tausche | Börsenwerte müssen für eine bestimmte Emission vorhanden sein. Die Börse wird verwendet, um die spezifische Börsenwertliste auszuwählen, um den Ticker und den Emissionsnamen zu validieren. Wenn die Börse leer ist, sind die Börse, der Ticker und der Name der Emission ungültig. Wenn der Börsenwert entweder mit der NYSE oder der NASDAQ übereinstimmt, ist die Börse gültig. Stimmt der Börsenwert weder mit der NYSE noch mit der NASDAQ überein, ist die Börse ungültig und die Auswirkungen auf das Geschäft sind hoch. | Börse: Genauigkeit - maßgebend = V, Börse = NYSE oder NASDAQ, IV, Börse ≠ NYSE oder NASDAQ, H | Hoch |
Das Modell wendet die DQS auf die Datenelemente "Ticker", "Issue Name" und "Exchange" für jedes Datenelement im Wertpapierstammdatenvolumen an. Das Modell verwendet die in Tabelle 4-6 dargestellten Daten. Dieser Datensatz ist ein Beispiel für eine maßgebliche Quelle, die bei der Genauigkeitsprüfung verwendet wird.
Tausche | Ticker | Ausgabe Name |
---|---|---|
NASDAQ | AAPL | Apple Inc. |
NYSE | IBM | International Business Machines Corporation |
NASDAQ | AMGN | Amgen Inc. |
NYSE | WMT | Walmart Inc. |
NYSE | KO | Coca-Cola Gesellschaft (Die) |
Das Modell wendet die DQS auf die Datenelemente "Ticker", "Issue Name" und "Exchange" für jedes Datenelement im Wertpapierstammdatenvolumen an. Abbildung 4-5 veranschaulicht die Ergebnisse und zeigt die Metrik für gültige, ungültige oder verdächtige Datenqualität für jedes Datum. Die DQS gibt an, dass der Ticker, der Emissionsname und die Börse mit dem Ticker, dem Emissionsnamen und der Börse in der offiziellen Wertpapierliste übereinstimmen müssen, um gültig zu sein. Die Börse wird verwendet, um die offizielle Börsenliste für die Validierung des Tickers und des Emissionsnamens auszuwählen. Wenn das Datum Börse leer ist, sind Börse, Ticker und Emissionsname ungültig. Wenn einer der Datenwerte nicht mit dem entsprechenden Datenelement in der offiziellen Wertpapierliste übereinstimmt, sind die Daten ungültig.
Abbildung 4-5 enthält zur Veranschaulichung drei neue Spalten: eine Kopie der Ticker-Datenwerte in der Spalte "Ticker2", Emissionsname-Datenwerte in der Spalte "Emissionsname2" und Börsen-Datenwerte in der Spalte "Börse2". Das Modell wendet die DQS auf das Datenvolumen an und erstellt die Datenqualitätskennzahlen, indem es die Ticker-, Emissionsnamen- und Börsendatenwerte mit V (gültig) bewertet, wenn sie mit der offiziellen Wertpapierliste übereinstimmen, oder mit IV (ungültig), wenn sie nicht mit der offiziellen Wertpapierliste übereinstimmen.
Die Anwendung der DQS für die Dimension der Genauigkeitsdaten auf den Ticker, den Emissionsnamen und die Börse im Wertpapierstammdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Wertpapierstammdatenvolumen in Abbildung 4-5 sehen wie folgt aus:
25 Datensätze
3 Datenelemente (Ticker, Emissionsname und Börse)
75 Bezugswerte
Tabelle 4-7 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Ticker-, Emissionsnamen- und Börsendatenwerte im Wertpapierstammdatenvolumen.
Datenelement | Gültig | Ungültig | Verdächtiger |
---|---|---|---|
Ticker | 16 | 9 | 0 |
Ausgabe Name | 11 | 14 | 0 |
Tausche | 20 | 5 | 0 |
Metrik-Gesamtwerte | 47 | 28 | 0 |
Mithilfe der Überprüfung der Genauigkeit der Daten können mehrere Datenanomalien im Wertpapierstammdatenvolumen identifiziert werden, darunter leere Börsendaten, fehlerhafte Emissionsnamen und leere oder fehlerhafte Tickerdaten.
Präzision DQS
Die Dimension der Genauigkeit der Daten in diesem Rahmen bezieht sich auf die Skala der Zahl, die angibt, wie genau sie ist. Datentypen wie Ganzzahlen sind ganze Zahlen und haben keine Dezimalstellen. Datentypen wie Dezimalzahlen und Gleitkommazahlen sind Zahlen mit Nachkommastellen. Wenn Zahlen mit Dezimalstellen für Datenelemente in physischen Datenstrukturen, wie z. B. Datenbanken, definiert werden, dann ermöglicht die Technologie, dass sie in den Datenmengen gespeichert und ausgedrückt werden können. Die Definition von Dezimal- oder Fließkommazahlen in physischen Datenelementen schreibt jedoch keine explizite Anzahl von Dezimalstellen vor. Stattdessen erlauben die Datentypdefinitionen für diese numerischen Datentypen in der physischen Technologie eine maximale Anzahl von Dezimalstellen, die gespeichert werden können. Dezimale Datentypen definieren eine bestimmte, maximale Anzahl von Dezimalstellen. Wenn die DQS also fünf Dezimalstellen verlangen und der Datentyp mit zwei Dezimalstellen definiert ist, verlierst du an Präzision (wegfallende Dezimalwerte), wenn du eine fünfstellige Zahl in einer zweistelligen physikalischen Datentypstruktur speicherst. Fließkommadatentypen stellen eine andere Herausforderung dar. Zahlen mit Dezimalstellen aus Berechnungen, die in Fließkomma-Datenstrukturen gespeichert werden, haben keine exakte binäre Darstellung auf der Berechnungsebene. Die Folgen können eine ungenaue Darstellung der Zahl als gespeicherter Wert und damit ein potenzieller Verlust an Genauigkeit sein, eine potenzielle Nichtübereinstimmung von Fließkommazahlen mit anderen numerischen Datentypen, und die Ergebnisse von Berechnungen können überflüssige Dezimalstellen ergeben (was bei kombinatorischen oder zusammengesetzten Berechnungen zu sehr ungenauen Ergebnissen führen kann). Das heißt, wenn deine DQS eine bestimmte Anzahl von Dezimalstellen erfordern, musst du die Genauigkeit mit einer Validierungsprüfung überprüfen.
Warnung
Wie in Kapitel 3 erwähnt, werden Genauigkeit und Genauigkeitsabweichungen oft übersehen, weil die Speicherung und Verarbeitung von Zahlen mit verschiedenen Datenstrukturen in Datenbanken mit datentypisierten Spalten und Datentypobjekten in Programmiersprachen sehr komplex ist. Du musst sicherstellen, dass die in der DQS für einen Verbraucher oder eine Anwendung geforderte Genauigkeit in allen Datenstrukturen und Datenverarbeitungsanwendungen einheitlich ist.
Die Präzisions-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden für die Datenelemente Bid, Ask, Spread und PE im Wertpapierstammdatenvolumen in diesem Modell definiert. In Tabelle 4-8 sind die Datenqualitätstoleranzen für die Datenelemente Bid, Ask, Spread und PE aufgeführt.
Datenelement | Beschreibung der Datenqualität | DQS | Auswirkungen auf das Geschäft |
---|---|---|---|
Angebot | Alle Werte für das Datum Bid price sind obligatorisch. Wenn die Angabe zum Geldkurs leer oder eine negative Zahl ist, ist sie ungültig. Fehlt die Dezimalstelle, ist sie verdächtig. Wenn die Anzahl der Nachkommastellen größer oder gleich eins ist, ist der Wert gültig und die Auswirkungen auf das Geschäft sind hoch. | Bieten: Präzisionsdezimal = V ≥ 1, S = 0, IV = negativ, H | Hoch |
Frag | Alle Werte für die Preisangabe Ask sind obligatorisch. Wenn die Preisangabe "Ask" leer oder eine negative Zahl ist, ist sie ungültig. Fehlt die Dezimalstelle, ist der Wert verdächtig. Wenn die Anzahl der Dezimalstellen größer oder gleich eins ist, ist der Wert gültig und die Auswirkungen auf das Geschäft sind hoch. | Frage: Präzisionsdezimal = V ≥ 1, S = 0, IV = negativ, H | Hoch |
Streue | Alle Werte des Spread-Datums sind obligatorisch. Wenn das Spread-Datum leer oder eine negative Zahl ist, ist es ungültig. Fehlt die Dezimalstelle, ist sie verdächtig. Wenn die Anzahl der Dezimalstellen größer oder gleich eins ist, ist sie gültig und die Auswirkungen auf das Geschäft sind hoch. | Spanne: Präzisions- Dezimal = V ≥ 1, S = 0, IV = negativ, H | Hoch |
Kurs-Gewinn-Verhältnis (KGV) | Alle PE-Datenwerte sind obligatorisch. Wenn das PE-Datum leer oder eine negative Zahl ist, ist es ungültig. Fehlt die Dezimalstelle, ist sie verdächtig. Wenn die Anzahl der Nachkommastellen größer oder gleich eins ist, ist sie gültig und die Auswirkungen auf das Geschäft sind hoch. | PE: Präzisionsdezimal = V ≥ 1, S = 0, IV = negativ, H | Hoch |
Das Modell wendet die Präzisions-DQS auf die Datenelemente Bid, Ask, Spread und PE für jedes Datum im Wertpapierstammdatenvolumen an. Abbildung 4-6 veranschaulicht die Ergebnisse und zeigt die Metrik für gültige, ungültige oder verdächtige Datenqualität für jedes Bid-, Ask-, Spread- und PE-Datum.
Die DQS geben die Genauigkeit der Bid-, Ask-, Spread- und PE-Datenwerte wie folgt an: Datenwerte müssen eine oder mehrere Nachkommastellen haben, um gültig zu sein, fehlende Nachkommastellen sind verdächtig und negative Zahlen sind ungültig. Abbildung 4-6 enthält zur Veranschaulichung vier neue Spalten: je eine Kopie der Bid-, Ask-, Spread- und PE-Datenwerte in den Spalten "Bid2", "Ask2", "Spread2" und "PE2". Das Modell wendet die DQS auf das Datenvolumen an und erzeugt die Datenqualitätsmetriken, die die Datenwerte mit V (gültig) darstellen, wenn die Zahlen existieren, nicht negativ sind und eine oder mehrere Dezimalstellen haben; S (verdächtig), wenn die Zahlen existieren, nicht negativ sind und eine Dezimalstelle fehlt; und IV (ungültig), wenn die Zahlen entweder nicht existieren oder negative Zahlen sind.
Die Anwendung des DQS für die Dimension der Präzisionsdaten auf Bid, Ask, Spread und PE im Wertpapierstammdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Wertpapierstammdatenvolumen in Abbildung 4-6 lauten wie folgt:
25 Datensätze
4 Datenelemente (Bid, Ask, Spread und PE)
100 Bezugswerte
Tabelle 4-9 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Bid-, Ask-, Spread- und PE-Datenwerte im Wertpapierstammdatenvolumen.
Datenelement | Gültig | Ungültig | Verdächtiger |
---|---|---|---|
Angebot | 17 | 2 | 6 |
Frag | 17 | 4 | 4 |
Streue | 17 | 3 | 5 |
PE | 20 | 3 | 2 |
Metrik-Gesamtwerte | 71 | 12 | 17 |
Die Präzisionsdaten-Dimension für die Bid-, Ask-, Spread- und PE-Datenwerte prüft, ob die Daten existieren und keine negative Zahl sind, und zählt die Anzahl der Dezimalstellen gemäß der DQS. Mit Hilfe der Präzisionsprüfung können verschiedene Datenanomalien - wie leere Bid-, Ask- und PE-Datenwerte, fehlende Dezimalstellen und negative Spread-Datenwerte - im Wertpapierstammdatenvolumen identifiziert werden.
Konformität DQS
Die Konformitäts-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden für die Datenelemente Issue Name, Market Cap Scale und Consensus Recommendation im Wertpapierstammdatenvolumen in diesem Modell definiert. Datentypen wie Datumsangaben, Zeitstempel und Datumszeiten haben bestimmte Formate. Wenn diese Datentypen für Datenelemente in physischen Datenstrukturen, wie z. B. Datenbanken, definiert sind, erzwingt die Technologie die Konformität dieser Datenelemente in den Datenvolumen. In Tabelle 4-10 sind die Datenqualitätstoleranzen für die Datenelemente Emissionsname, Market Cap Scale und Konsensempfehlung aufgeführt.
Datenelement | Beschreibung der Datenqualität | DQS | Auswirkungen auf das Geschäft |
---|---|---|---|
Ausgabe Name | Alle Datumswerte für den Issue Name sind obligatorisch und müssen in Großbuchstaben angegeben werden. Wenn der Issue Name leer ist oder nur aus Groß- oder Kleinbuchstaben besteht, ist er ungültig und die Auswirkungen auf das Geschäft sind hoch. | Name der Ausgabe: Konformitätsbuchstaben = V = Eigene Großschreibung, IV = Leer oder Groß- oder Kleinschreibung, H | Hoch |
Marktkapitalisierung Skala | Alle Werte der Marktkapitalisierungsskala sind obligatorisch und müssen entweder in Großbuchstaben (B) oder in Großbuchstaben (M) angegeben werden. Wenn die Marktkapitalisierungsskala leer ist oder einen anderen Wert als Großbuchstaben B oder Großbuchstaben M hat, ist sie ungültig und die Auswirkungen auf das Geschäft sind hoch. | Marktkapitalisierungsskala: Konformität = V = B oder M, IV ≠ B oder M, H | Hoch |
Konsens-Empfehlung | Die Werte der Konsensempfehlung sind optional und müssen eine Zahl zwischen minus drei und drei sein. Wenn die Consensus Recommendation leer ist, ist sie verdächtig. Wenn die Konsensempfehlung eine Zahl kleiner als minus drei oder größer als drei ist, ist sie ungültig und die Auswirkungen auf das Geschäft sind gering. | Konsens-Empfehlung: Konformität = V ≥ -3 und ≤ 3, S = leer, IV < -3 und > 3, L | Niedrig |
Das Modell wendet die Konformitäts-DQS auf die Datenelemente "Emissionsname", "Market Cap" und "Consensus Recommendation" für jedes Datenelement im Wertpapierstammdatenvolumen an. Abbildung 4-7 veranschaulicht die Ergebnisse und zeigt die Metrik für gültige, ungültige oder verdächtige Datenqualität für jedes Issue Name-, Market Cap- und Consensus Recommendation-Datum.
Die Konformitäts-DQS für den Ausgabenamen geben an, dass die Datumswerte für den Ausgabenamen in Großbuchstaben angegeben werden müssen, um gültig zu sein. Andernfalls sind die Werte ungültig, wenn sie leer sind oder in Klein- oder Großbuchstaben angegeben werden. Die Konformitäts-DQS für die Marktkapitalisierungsskala zeigen an, dass die Werte der Marktkapitalisierungsskala entweder B (Milliarde) oder M (Million) sein müssen, um gültig zu sein. Andernfalls sind sie ungültig, wenn die Werte leer sind oder einen anderen Wert haben. Die Konformitäts-DQS für die Konsensempfehlung geben an, dass die Werte für die Konsensempfehlung optional sind und eine Zahl größer oder gleich -3 und kleiner oder gleich 3 sein müssen, um gültig zu sein. Andernfalls sind sie ungültig, wenn die Werte leer sind oder eine Zahl kleiner als -3 oder größer als 3 sind. Abbildung 4-7 enthält drei neue Spalten zur Veranschaulichung: jeweils eine Kopie der Werte für den Emissionsnamen, die Marktkapitalisierung und die Konsensempfehlung in den Spalten "Emissionsname2", "Marktkapitalisierung2" und " Konsensempfehlung2".
Das Modell wendet das DQS auf das Datenvolumen an und erzeugt die Datenqualitätsmetriken, indem es einige Datenwerte mit V (gültig) versieht, was bedeutet:
Das Datum "Issue Name" existiert und ist richtig geschrieben
Die Marktkapitalisierungsskala existiert und ist entweder ein Großbuchstabe B oder ein Großbuchstabe M
Wenn der Bezugspunkt der Konsensempfehlung existiert, ist der Bezugspunktwert eine Zahl, die größer oder gleich -3 und kleiner oder gleich 3 ist.
Das Modell ordnet S (suspekt) nur den Datenwerten der Konsensempfehlung zu und zeigt an, wenn der Datenwert nicht existiert.
Das Modell vergibt einige Datenwerte mit IV (ungültig), was bedeutet:
Das Datum "Issue Name" existiert nicht oder ist nicht in der richtigen Größe
Die Marktkapitalisierungsskala existiert nicht oder ist nicht ein großes B oder ein großes M
Wenn der Bezugspunkt der Konsensempfehlung existiert, dann ist der Bezugspunktwert keine Zahl, die größer oder gleich -3 und kleiner oder gleich 3 ist.
Die Anwendung des DQS für die Dimension der Konformitätsdaten auf den Emissionsnamen, die Marktkapitalisierungsskala und die Konsensempfehlung im Wertpapierstammdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Wertpapierstammdatenvolumen in Abbildung 4-7 lauten wie folgt:
25 Datensätze
3 Datenelemente (Issue Name, Market Cap Scale und Consensus Recommendation)
75 Bezugswerte
Tabelle 4-11 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Werte für den Emissionsnamen, die Marktkapitalisierungsskala und die Konsensempfehlung im Wertpapierstammdatenvolumen.
Datenelement | Gültig | Ungültig | Verdächtiger |
---|---|---|---|
Ausgabe Name | 19 | 6 | 0 |
Marktkapitalisierung Skala | 22 | 3 | 0 |
Konsens-Empfehlung | 19 | 2 | 4 |
Metrik-Gesamtwerte | 60 | 11 | 4 |
Die Dimension der Konformitätsdaten für die Datenwerte Issue Name, Market Cap Scale und Consensus Recommendation ist für jedes Datenelement spezifisch. Daher ist auch die Validierungslogik für jedes in der DQS definierte Datenelement spezifisch für dieses Datenelement.
Durch die Überprüfung der Konformitätsdaten werden mehrere Datenanomalien - darunter leere Werte für den Emissionsnamen und die Marktkapitalisierungsskala, fehlerhafte Werte für den Emissionsnamen (z. B. Werte, die nur in Großbuchstaben erscheinen) und ungültige Werte für die Marktkapitalisierungsskala und die Konsensempfehlung - in den Wertpapierstammdaten festgestellt.
Kongruenz DQS
In Kapitel 3 wurden drei Arten von Qualitätsprüfungen für kongruente Daten vorgestellt: der Vergleich mit früheren Werten, der Vergleich mit dem Durchschnitt und der Vergleich mit der Standardabweichung z-score. Wie bereits erwähnt, möchte ich dich ermutigen, deine eigenen Kongruenzprüfungen zu entwickeln und dabei eine ausgefeiltere Logik zu verwenden, die für die von dir verwendeten Daten besser geeignet ist.
Abbildung 4-8 zeigt die bereinigten Bid-, Ask- und Spread-Daten von 10 Geschäftstagen. Das Datenvolumen wurde mithilfe der DQS validiert und die Datenelemente wurden auf Vollständigkeit, Aktualität, Genauigkeit, Präzision und Konformität geprüft. Das Modell nutzt diese Daten, um die DQS-Kongruenz zu demonstrieren.
Das Modell wendet das in Tabelle 4-12 dargestellte Kongruenz-DQS auf die in Abbildung 4-9 dargestellten unbereinigten Rohmarktdaten an.
Die Kongruenz-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden für die Datenelemente Bid, Ask und Spread im Wertpapierstammdatenvolumen definiert. In Tabelle 4-12 sind die Datenqualitätstoleranzen für die Datenelemente Geldkurs, Briefkurs und Spread aufgeführt - diese Elemente sind alle spezifisch für eine bestimmte Aktie. Der rohe Geldkurs für Apple (AAPL) in Abbildung 4-9 mit dem Verarbeitungsdatum 2.11.2015 beträgt zum Beispiel 117,49 $, und die historischen Geldkurse für Apple (in Abbildung 4-8 dargestellt) liegen bei 118,45 $, 118,35 $ usw. Die historischen Geldkurse für Apple werden verwendet, um den rohen Apple Geldkurs in der Kongruenz-Z-Score-Datenqualitätsprüfung zu validieren.
Datenelement | Beschreibung der Datenqualität | DQS | Auswirkungen auf das Geschäft |
---|---|---|---|
Angebot | Alle Geldkursdaten sind obligatorisch und die Stichprobe für den historischen Geldkurs beträgt 10 Geschäftstage. Wenn der Z-Score des Geldkurses gleich oder kleiner als drei ist, ist er gültig. Wenn der z-score des Geldkurses größer als drei, aber kleiner als vier ist, ist er verdächtig. Wenn der z-score des Geldkurses gleich oder größer als vier ist, ist er ungültig. In allen Fällen sind die Auswirkungen auf das Geschäft hoch. | Angebot: Kongruenz z-score = Bereich 10 Arbeitstage, V ≤ 3, S > 3 und < 4, H, IV ≥ 4, H | Hoch |
Frag | Alle Werte für den Briefkurs sind obligatorisch und die Stichprobe für den historischen Briefkurs beträgt 10 Geschäftstage. Wenn der Z-Score des Briefkurses gleich oder kleiner als drei ist, ist er gültig. Wenn der Z-Score des Ask-Preises größer als drei, aber kleiner als vier ist, ist er verdächtig. Wenn der Z-Score des Briefkurses gleich oder größer als vier ist, ist er ungültig. In allen Fällen ist die Auswirkung auf das Geschäft hoch. | Frage: Kongruenz z-score = Bereich 10 Arbeitstage, V ≤ 3, S > 3 und < 4, H, IV ≥ 4, H | Hoch |
Streue | Alle Spread-Stichtagswerte sind obligatorisch und der historische Spread-Stichprobenbereich beträgt 10 Arbeitstage. Wenn der Z-Score des Spreads gleich oder kleiner als drei ist, ist er gültig. Wenn der Z-Score des Spreads größer als drei, aber kleiner als vier ist, dann ist er verdächtig. Wenn der Spread z-score gleich oder größer als vier ist, ist er ungültig. In allen Fällen ist die Auswirkung auf das Geschäft hoch. | Spanne: Kongruenz z-score = Spanne 10 Geschäftstage, V ≤ 3, S > 3 und < 4, H, IV ≥ 4, H | Hoch |
Das Modell wendet die Kongruenz-DQS auf die rohen Bid-, Ask- und Spread-Datenelemente für jedes Datum im rohen Marktdatenvolumen an. Die Tabellen 4-13 bis 4-15 zeigen die Berechnungsstatistiken der Kongruenz-Z-Score-Berechnungen.
Bearbeitungsdatum | Ticker | Angebot | Mittleres Gebot (vor 10 Tagen) | Standardabweichung der Gebote | Angebot z-score |
---|---|---|---|---|---|
11/2/2015 | AAPL | 117.49 | 118.32 | 0.5646 | 1.48 |
11/2/2015 | AMGN | 159.99 | 159.38 | 0.5329 | 1.15 |
11/2/2015 | IBM | 133.31 | 139.13 | 0.3695 | 15.75 |
11/2/2015 | KO | 39.55 | 41.88 | 0.7014 | 3.31 |
11/2/2015 | WMT | 57.29 | 57.48 | 0.5260 | 0.37 |
Bearbeitungsdatum | Ticker | Frag | Mittlere Nachfrage (vor 10 Tagen) | Standardabweichung fragen | Z-Score fragen |
---|---|---|---|---|---|
11/2/2015 | AAPL | 124.88 | 120.74 | 1.6289 | 2.54 |
11/2/2015 | AMGN | 163.25 | 164.74 | 1.1178 | 1.34 |
11/2/2015 | IBM | 134.22 | 141.08 | 1.0511 | 6.53 |
11/2/2015 | KO | 41.88 | 42.74 | 0.4692 | 1.84 |
11/2/2015 | WMT | 57.61 | 58.50 | 0.5668 | 1.57 |
Bearbeitungsdatum | Ticker | Streue | Mittlere Spanne (vor 10 Tagen) | Standardabweichung der Streuung | Spread z-score |
---|---|---|---|---|---|
11/2/2015 | AAPL | 7.39 | 2.41 | 1.9030 | 2.62 |
11/2/2015 | AMGN | 3.26 | 5.37 | 1.3561 | 1.55 |
11/2/2015 | IBM | 0.91 | 1.95 | 1.1270 | 0.93 |
11/2/2015 | KO | 2.33 | 0.87 | 0.4620 | 3.16 |
11/2/2015 | WMT | 0.32 | 1.01 | 0.7230 | 0.96 |
Abbildung 4-10 veranschaulicht die Ergebnisse und zeigt die gültige, ungültige oder verdächtige Datenqualitätsmetrik für jedes rohe Bid-Preis-, Ask-Preis- und Spread-Datum.
Das Modell wendet die DQS auf das Rohdatenvolumen an, wobei es das historische Datenvolumen als Referenz verwendet, und generiert die Datenqualitätsmetriken, indem es die Datenwerte mit V (gültig) versieht, wenn der Z-Score für das Bid-, Ask- oder Spread-Datum gleich oder kleiner als drei Standardabweichungen vom Mittelwert ist; S (suspekt), wenn der z-Score für das Bid-, Ask- oder Spread-Datum größer als drei, aber kleiner als vier Standardabweichungen vom Mittelwert ist; und IV (ungültig), wenn der z-Score für das Bid-, Ask- oder Spread-Datum gleich oder größer als vier Standardabweichungen vom Mittelwert ist. Abbildung 4-10 enthält zur Veranschaulichung die Z-Scores für die rohen Bid-, Ask- und Spread-Datenwerte.
Die gültigen Datenqualitätskennzahlen, die in Abbildung 4-10 dargestellt sind, lauten wie folgt:
Der rohe Geldkurs von $159,99 für Amgen (AMGN) am 2.11.2015 mit einem Z-Score von 1,15 liegt 1,15 Standardabweichungen vom mittleren Geldkurs von $159,38 entfernt, der der durchschnittliche Geldkurs von Amgen für die letzten 10 Tage ist.
Der rohe Geldkurs von 117,49 $ für Apple (AAPL) am 2.11.2015 mit einem Z-Score von 1,48 liegt 1,48 Standardabweichungen vom mittleren Geldkurs von 118,32 $ entfernt, der der durchschnittliche Geldkurs von Apple für die letzten 10 Tage ist.
Der rohe Geldkurs von $57,29 für Walmart (WMT) am 2.11.2015 mit einem Z-Score von 0,37 liegt 0,37 Standardabweichungen vom mittleren Geldkurs von $57,48 entfernt, der der durchschnittliche Geldkurs von Walmart für die letzten 10 Tage ist.
Der rohe Briefkurs von 163,25 $ für Amgen (AMGN) am 2.11.2015 mit einem Z-Score von 1,34 liegt 1,34 Standardabweichungen vom mittleren Briefkurs von 164,74 $ entfernt, der der durchschnittliche Briefkurs von Amgen für die letzten 10 Tage ist.
Der rohe Briefkurs von 124,88 $ für Apple (AAPL) am 2.11.2015 mit einem Z-Score von 2,54 liegt 2,54 Standardabweichungen vom mittleren Briefkurs von 120,74 $ entfernt, der der durchschnittliche Apple-Briefkurs der letzten zehn Tage ist.
Der rohe Briefkurs von 57,61 $ für Walmart (WMT) am 2.11.2015 mit einem Z-Score von 1,57 liegt 1,57 Standardabweichungen vom mittleren Briefkurs von 58,50 $ entfernt, der der durchschnittliche Briefkurs von Walmart für die letzten 10 Tage ist.
Der rohe Briefkurs von $41,88 für Coca-Cola (KO) am 2.11.2015 mit einem Z-Score von 1,84 liegt 1,84 Standardabweichungen vom mittleren Briefkurs von $42,74, dem durchschnittlichen Coca-Cola-Briefkurs der letzten 10 Tage.
Der rohe Spread von $0,91 für International Business Machines (IBM) am 2.11.2015 mit einem Z-Score von 0,93 ist 0,93 Standardabweichungen vom mittleren Spread von $1,95 entfernt, der der durchschnittliche IBM Spread für die letzten 10 Tage ist.
Der rohe Spread von $3,26 für Amgen (AMGN) am 2.11.2015 mit einem Z-Score von 1,55 liegt 1,55 Standardabweichungen vom mittleren Spread von $5,37 entfernt, der den durchschnittlichen Amgen-Spread der letzten 10 Tage darstellt.
Der rohe Spread von $7,39 für Apple (AAPL) am 2.11.2015 mit einem Z-Score von 2,62 liegt 2,62 Standardabweichungen vom mittleren Spread von $2,41 entfernt, der der durchschnittliche Apple Spread der letzten 10 Tage ist.
Der rohe Spread von $0,32 für Walmart (WMT) am 2.11.2015 mit einem Z-Score von 0,96 liegt 0,96 Standardabweichungen vom mittleren Spread von $1,01, dem durchschnittlichen Walmart Spread der letzten 10 Tage.
Die verdächtigen Datenqualitätsmetriken, die in Abbildung 4-10 dargestellt sind, lauten wie folgt:
Der rohe Geldkurs von $39,55 für Coca-Cola (KO) am 2.11.2015 mit einem Z-Score von 3,31 liegt 3,31 Standardabweichungen vom mittleren Geldkurs von $41,88 entfernt, der der durchschnittliche Geldkurs von Coca-Cola für die letzten 10 Tage ist.
Der rohe Spread von $2,33 für Coca-Cola (KO) am 2.11.2015 mit einem Z-Score von 3,16 liegt 3,16 Standardabweichungen vom mittleren Spread von $0,87 entfernt, der der durchschnittliche Coca-Cola Spread der letzten 10 Tage ist.
Die ungültigen Datenqualitätsmetriken, die in Abbildung 4-10 dargestellt sind, lauten wie folgt:
Der rohe Geldkurs von $133,31 für International Business Machines (IBM) am 2.11.2015 mit einem z-Score von 15,75 liegt 15,75 Standardabweichungen vom mittleren Geldkurs von $139,13 entfernt, dem durchschnittlichen IBM-Geldkurs der letzten 10 Tage.
Der rohe Briefkurs von $134,22 für International Business Machines (IBM) am 2.11.2015 mit einem z-Score von 6,53 liegt 6,53 Standardabweichungen vom mittleren Briefkurs von $141,08 entfernt, dem durchschnittlichen IBM-Briefkurs der letzten 10 Tage.
Die Anwendung des DQS für die Datendimension Kongruenz auf die Bid-, Ask- und Spread-Datenwerte im Rohmarktdatenvolumen erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das rohe Marktdatenvolumen in Abbildung 4-10 lauten wie folgt:
5 Datensätze
3 Datenelemente (Bid, Ask und Spread)
15 Bezugswerte
Tabelle 4-16 zeigt die Gesamtzahl der gültigen, ungültigen und verdächtigen Bid-, Ask- und Spread-Datenwerte im Marktrohdatenvolumen.
Datenelement | Gültig | Ungültig | Verdächtiger |
---|---|---|---|
Angebot | 3 | 1 | 1 |
Frag | 4 | 1 | 0 |
Streue | 4 | 0 | 1 |
Metrik-Gesamtwerte | 11 | 2 | 2 |
Die DQS für die Kongruenzdimension der Bid-, Ask- und Spread-Datenwerte sind aktienspezifisch (z. B. Apple, Walmart) und beziehen sich auf historische Bid-, Ask- und Spread-Datenbeobachtungen. Daher kannst du den Vergleich mit früheren Werten, den Vergleich mit dem Durchschnitt oder, wie in diesem Beispiel, den Z-Score verwenden, um die Methode der Anomalieerkennung zu standardisieren. Dies ist ein einfaches Beispiel, um die statistische Mechanik der Kongruenz-Z-Score-Datenqualitätsprüfung zu veranschaulichen. Ich möchte dich ermutigen, deine eigenen Kongruenzprüfungen und die entsprechenden Toleranzen für die Datenqualität zu entwickeln und dabei eine ausgefeiltere Logik zu verwenden, die für die Erkennung von Datenanomalien in Bezug auf die Art der Daten besser geeignet ist.
Elf Datenwerte liegen innerhalb der gültigen Toleranz; allerdings wurden mit Hilfe der in der DQS definierten Kongruenz-Z-Score-Datenqualitätsprüfung mehrere Datenanomalien identifiziert, die die gültige Toleranzbedingung nicht erfüllen. Dieser statistische Ansatz zur Datenvalidierung für Zeitreihenwerte ist nützlich, um Anomalien oder Ausreißer zu erkennen. Diese Datenwerte können gültig sein oder auch nicht, aber da ihre jeweiligen z-Scores nicht innerhalb der erwarteten gültigen Toleranz liegen, müssen sie weiter untersucht und überprüft werden.
Das Modell verwendet das bereinigte Stammdatenvolumen, das in Abbildung 4-11 dargestellt ist, um die Datenanomalien zu beseitigen.
Nachdem die Datenanomalien korrigiert wurden, wird eine Zusammenfassung der Datenqualitätsmetriken in Abbildung 4-12 dargestellt. Sie zeigt, dass sich der Datenqualitätsstatus für das Wertpapierdatenvolumen von IV (ungültig) auf V (gültig) geändert hat. Dieses Beispiel zeigt, dass die Datenqualität der Wertpapier-, Fundamental- und Kursdaten im Stammdatenvolumen dem DQS für alle nachgelagerten Verbraucher entspricht. Es gibt jedoch noch weitere Datenanomalien, die korrigiert werden müssen.
Kollektion DQS
Wie wir bereits besprochen haben, ist eine Datensammlung eine diskrete und eindeutige Menge von Daten, in der Regel Datensätze, die als Sammlung organisiert sind. Alle Datensätze müssen vorhanden sein, damit eine Datensammlung ein vollständiger Datensatz ist. Die Datensätze in einer Datensammlung bestehen aus einer Reihe von Datenelementen (z. B. Kennung, Konto, Ticker, Menge, Währung, Gewicht). Indizes, Benchmarks, börsengehandelte Fonds (ETF) und Portfoliobestände sind Sammlungen von Datensätzen, die jeweils in ihrer Gesamtheit Datensammlungen darstellen. Bei der Validierung von Datensammlungen wird geprüft, ob alle erforderlichen Datensätze zu einem bestimmten Zeitpunkt vorhanden und für eine bestimmte Sammlung (z. B. Portfolio, Index, ETF) identifizierbar sind. Es gibt viele Methoden (von einfach bis ausgeklügelt), die zur Validierung einer Datensammlung verwendet werden können, z. B. die Zählung von Datensätzen, die Aggregation und der Vergleich von Marktwerten oder die Aggregation und der Vergleich von Gewichten. Wie ich bereits erwähnt habe, kannst du deine eigenen Validierungsprüfungen für die Datensammlung entwickeln, indem du zusätzliche Toleranzbereiche und eine ausgefeiltere Logik verwendest, die für die von dir verwendeten Daten besser geeignet ist.
Abbildung 4-13 zeigt fünf Geschäftstage mit bereinigten Daten zu Konto, Kontoname, Ticker und Menge. Dieses Datenvolumen enthält auch die validierten Geldkurse und den berechneten Marktwert für jeden Portfoliobestand. Dieses Datenvolumen wurde bereits mithilfe der DQS und der Toleranzen für Vollständigkeit (in Bezug auf alle Datenelemente), Aktualität (für das Verarbeitungsdatum), Konformität (für das Konto, den Kontonamen und den Ticker) und Genauigkeit (für das Gebot und die Menge) validiert. Außerdem wurden die Portfoliosammlungen (Voyager und Ping) für jeden Tag mit Hilfe der DQS-Sammlungen validiert, um zu bestätigen, dass die historischen Portfoliobestände vollständige und gültige Sammlungen sind.
Das Modell verwendet die in Abbildung 4-14 dargestellten Kontrollwerte, um die Anzahl der Datensätze und den Marktwert der in Abbildung 4-15 dargestellten Rohdaten der Portfoliobestände zu überprüfen. Die Kontrollwerte werden von der Buchhaltungsplattform in einer separaten Datendatei bereitgestellt und zur Validierung der Rohdaten der Portfoliobestände verwendet.
Das Modell wendet die Erhebungs-DQS auf die in Abbildung 4-15 dargestellten unbereinigten Rohdaten der Portfoliobestände an. Die Erhebungs-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden in diesem Modell für die Portfoliobestandsdaten definiert. In Tabelle 4-17 sind die Toleranzen für die Datenqualität der Portfoliobestandsdaten aufgeführt. Das Modell verwendet gültige und ungültige Toleranzen; du könntest jedoch eine oder mehrere verdächtige Toleranzen oder eine andere ausgefeilte Logik hinzufügen, wenn dies für deine Daten besser geeignet ist.
Datenvolumen | Beschreibung der Datenqualität | DQS | Auswirkungen auf das Geschäft |
---|---|---|---|
Portfolio-Beteiligungen | Alle Bestandsaufzeichnungen und Datenelemente sind obligatorisch und müssen vorhanden sein. Verwende die Vollständigkeits-DQS. Das Konto und die Portfoliobestände müssen über das Konto und den Ticker identifizierbar sein. Verwende die Kohäsions-DQS. Die Anzahl der Datensätze in den Kontrolldaten für die Portfoliobestände muss mit der Anzahl der Datensätze in den Rohdaten für die Portfoliobestände übereinstimmen, um gültig zu sein; andernfalls ist sie ungültig, und die Auswirkungen auf das Geschäft sind hoch. Die prozentuale Differenz zwischen der Summe der Marktwerte der rohen Portfoliobestandsdaten für ein Konto muss weniger als 3% des offiziellen Marktwerts des Portfolios in den Portfoliobestands-Kontrolldaten betragen, um gültig zu sein; andernfalls ist sie ungültig und die geschäftlichen Auswirkungen sind hoch. |
Portfolio-Bestände: Sammlung-Datensatzanzahl = V, Rohdatensatzanzahl = Kontrolldatensatzanzahl, IV, Rohdatensatzanzahl ≠ Kontrolldatensatzanzahl, H Portfoliobestände: Sammelmarktwert Prozentuale Differenz = V, Rohmarktwert < 3% Kontrollmarktwert, IV, Rohmarktwert ≥ 3% Kontrollmarktwert, H |
Hoch Hoch |
Die Erhebungs-DQS für die Portfoliobestände geben an, dass alle Datensätze und Datenelemente obligatorisch sind und vorhanden sein müssen und dass das Konto und die Portfoliobestände identifizierbar sein müssen. Die Anwendung der DQS für Vollständigkeit und Kohäsion wurde aus Gründen der Kürze bewusst weggelassen. Die DQS für die Erfassung verlangen, dass die Anzahl der Rohdatensätze für die Portfoliobestände für jedes Konto mit der Anzahl der entsprechenden Datensätze für die Kontrolle der Portfoliobestände übereinstimmt. Das heißt, wenn die Anzahl der Datensätze übereinstimmt, ist die Sammlung gültig; andernfalls, wenn die Anzahl der Datensätze nicht übereinstimmt, ist die Sammlung ungültig. Außerdem muss laut DQS die Differenz zwischen dem Marktwert des Rohbestands für jedes Konto und dem entsprechenden Kontrollmarktwert weniger als 3 % betragen, um gültig zu sein; andernfalls ist die Sammlung ungültig.
Abbildung 4-16 veranschaulicht die Ergebnisse und zeigt die gültige oder ungültige Record Count Datenqualitätsmetrik für jede Sammlung. Abbildung 4-16 enthält eine Kopie der Rohdatenwerte in der Spalte "Raw Record Count2".
Abbildung 4-17 veranschaulicht die Ergebnisse und zeigt die gültige oder ungültige Marktwert-Datenqualitätskennzahl für jede Sammlung. In Abbildung 4-17 ist in der Spalte "Roher Marktwert2" eine Kopie der Werte für den rohen Marktwert als Referenz enthalten. Die Differenz zwischen dem rohen Marktwert und dem Kontrollmarktwert wird zur Veranschaulichung in Prozent angegeben.
Die Anwendung des DQS für die Dimension der Erhebungsdaten auf das Rohdatenvolumen der Portfoliobestände erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Rohdatenvolumen der Portfoliobestände in den Abbildungen 4-16 und 4-17 sehen wie folgt aus:
4 Datumssätze
2 Datenelemente (Marktwert und Anzahl der Datensätze)
4 Bezugswerte
Tabelle 4-18 zeigt die Gesamtzahl der gültigen und ungültigen Datenwerte in der Rohdatenmenge der Portfoliobestände.
Datenelement | Gültig | Ungültig |
---|---|---|
Rekordzahl | 1 | 1 |
Marktwert | 1 | 1 |
Metrik-Gesamtwerte | 2 | 2 |
Die Dimension der Sammlungsdaten ist spezifisch für die Art der Sammlung (z. B. Portfoliobestände, ETF, Index). Eine gültige Sammlung bedeutet, dass alle erforderlichen Datensätze existieren und identifizierbar sind. Eine gültige Sammlung kann ungültige Datenwerte enthalten, solange die ungültigen Daten nicht für die Validierung der Sammlung selbst erforderlich sind. Kontrollsummen, wie z. B. die Anzahl der Datensätze und die Marktwerte der Portfoliobestände, sind nützlich, um Sammlungen zu validieren. Wenn jedoch keine Kontrollsummen für die Validierung zur Verfügung stehen, kannst du (wie bei der Marktwerttoleranz) stattdessen einen Kongruenzvorwertvergleich oder einen Kongruenz-Z-Score verwenden. Die Sammelvalidierung garantiert, wie alle anderen Toleranzvalidierungen außer der Genauigkeit, nicht, dass die Daten gültig und korrekt sind. Stattdessen werden, wie in Kapitel 3 erwähnt, mit der Sammelvalidierung Anomalien festgestellt.
Beispiel
Dies ist ein einfaches Beispiel, um die Besonderheiten von Datensammlungen und die Mechanismen der Validierungsprüfungen zur Bestätigung der Gültigkeit einer Sammlung zu veranschaulichen. Wir ermutigen dich, deine eigenen Validierungsprüfungen für Datensammlungen und die entsprechenden Toleranzen für die Datenqualität zu entwickeln und dabei eine ausgefeiltere Logik zu verwenden, die für die Identifizierung von Datenanomalien in Bezug auf die Art der Daten besser geeignet und nützlich ist.
Angenommen, zwei Datenwerte liegen innerhalb der gültigen Toleranz. Mit der im DQS definierten Prüfung der Erhebungsdatenqualität werden jedoch zwei Datenanomalien festgestellt. Diese beiden Anomalien erfüllen die Bedingung der gültigen Toleranz nicht. Kontrollsummen (wie z. B. der Marktwert für Portfoliobestände, Gewichte und Gesamtgewichte für Indizes und ETFs sowie die allgemeine Anzahl der Datensätze) sind nützlich, um Anomalien oder Ausreißer zu erkennen. Während die prozentuale Abweichung des Marktwerts für das Konto 12345 bei 2,5 % liegt und damit innerhalb unserer DQS-Toleranz, wissen wir auch, dass am 2.11.2015 80 Aktien von Apple verkauft wurden, was einer Menge von 920 Aktien entspricht. Der Verkauf spiegelt sich im Marktwert des Rohportfolios wider, der 442.873 USD beträgt. Der Verkauf wurde jedoch nicht in den Marktwert der Kontrolldaten des Portfolios aufgenommen, der 453.995 USD beträgt. Die Anzahl der Datensätze weist eindeutig darauf hin, dass für das Konto 987654 ein Portfoliobestandsdatensatz fehlt, und die prozentuale Differenz zwischen dem rohen Marktwert und dem Kontrollmarktwert von 138,1 % ist ein Ausreißer. Es ist unklar, was mit den Portfoliobeständen für das Konto 987654 passiert ist. Möglicherweise wurde der Datensatz für die Portfoliobeteiligung versehentlich ausgelassen, oder die Beteiligung wurde vollständig verkauft, aber nicht erfasst. Da sowohl die Datensatzanzahl als auch der Marktwert nicht innerhalb der erwarteten gültigen Toleranz liegen, müssen sie weiter untersucht und überprüft werden.
Kohäsion DQS
Wie in Kapitel 3 erwähnt, bezieht sich die Datendimension Kohäsion auf die Beziehung zwischen Datenwerten, die normalerweise als logische Datensätze organisiert sind. In der Regel haben alle Datenwerte eine Beziehung zu einem anderen Datenwert. Das bedeutet, dass die Datenwerte organisiert und zumindest mit einer Art Kennung versehen sein müssen, die ein Datum oder einen Satz von Datenwerten mit einem anderen verbindet und die Verknüpfung von zwei oder mehr Datensätzen mit Hilfe der Kennung erleichtert. Der Bezeichner wird oft als Primärschlüssel oder Fremdschlüssel bezeichnet. Der Bezeichner kann ein einzelner Datenwert oder eine Kombination von Datenwerten sein. In jedem Fall geht es darum, eine genaue Beziehung herzustellen, die es dir ermöglicht, Daten miteinander zu verbinden.
Das in Abbildung 4-18 dargestellte Wertpapierstammdatenvolumen enthält das Verarbeitungsdatum und den Ticker. Zusammen identifizieren diese beiden Datenelemente den Datensatz für ein bestimmtes Datum eindeutig. Der Datensatz enthält den Emissionsnamen, die Börse, den Geldkurs, den Briefkurs, den Spread und so weiter.
Das in Abbildung 4-18 dargestellte bereinigte und validierte Datenvolumen der historischen Portfoliobestände enthält das Verarbeitungsdatum und das Konto als primäre Datenschlüssel. Zusammen identifizieren diese beiden Datenelemente den Datensatz für ein bestimmtes Datum eindeutig. Der Datensatz enthält den Kontonamen, den Ticker, die Menge, den Geldkurs und den Marktwert. Das Datenelement Ticker in den Bestandsdaten wird zusammen mit dem Datenelement Verarbeitungsdatum als Fremddatenschlüssel bezeichnet. Diese Schlüssel sind mit dem Datenelement Verarbeitungsdatum und dem Datenelement Ticker verknüpft, die Teil des primären Datenschlüssels im Wertpapierstammdatenvolumen sind. Die Kohäsionsdaten-Dimension für dieses Datenvolumen ist gültig, wenn diese Beziehung besteht und die Beziehung zwischen Fremdschlüssel und Primärschlüssel gültig ist.
Du verwendest die DQS Vollständigkeit, Konformität und, wenn möglich, Genauigkeit, um die Schlüsselelemente der Primär- und Fremddaten zu überprüfen. Die DQS für die Aktualität verwendest du, um das Datum, die Uhrzeit oder die Datumszeit zu überprüfen, wenn es sich bei der Datenmenge um eine Zeitreihe handelt. Die primären und fremden Datenschlüssel sind obligatorisch, um die Datensätze eindeutig zu identifizieren und den Zusammenhalt in datenvolumenübergreifenden Verknüpfungen zu ermöglichen. Abbildung 4-18 veranschaulicht die Beziehung zwischen Primär- und Fremddatenschlüssel zwischen dem Wertpapierstammdatenvolumen und dem Portfolio-Bestandsdatenvolumen.
Das Modell verwendet die in Abbildung 4-19 dargestellten Rohdaten der Portfoliobestände.
Der Ticker ist ein obligatorisches Feld als Teil des Fremddatenschlüssels, um den Datensatz des Portfoliobestands zusammen mit dem Verarbeitungsdatum und dem Konto eindeutig zu identifizieren. Die Anwendung der DQS für Vollständigkeit, Konformität und Genauigkeit auf das Datenelement "Ticker" im Rohdatenvolumen der Portfoliobestände mit unbekanntem "Ticker" zeigt, dass alle Werte der "Ticker"-Daten gültig sind. Das Modell wendet die in Tabelle 4-19 aufgeführten Kohäsions-DQS auf das unbekannte Ticker-Rohdatenvolumen an. Die Kohäsions-DQS sind für jede nachgelagerte Geschäftsfunktion gleich und werden in diesem Modell für das Portfolio-Bestandsdatenvolumen definiert. In Tabelle 4-19 sind die Datenqualitätstoleranzen für das Datenvolumen der Portfoliobestände aufgeführt. Das Modell weist gültige und ungültige Metriken zu, indem es den Fremddatenschlüssel (Verarbeitungsdatum, Ticker) in den unbekannten Ticker-Rohdaten der Portfoliobestände mit dem Primärdatenschlüssel (Verarbeitungsdatum, Ticker) im Wertpapierstammdatenvolumen abgleicht.
Datenvolumen | Beschreibung der Datenqualität | DQS | Auswirkungen auf das Geschäft |
---|---|---|---|
Portfolio-Beteiligungen | Alle Bestandsaufzeichnungen und Datenelemente sind obligatorisch und müssen vorhanden sein. Verwende die Vollständigkeits-DQS. Der Aktien-Ticker der Portfoliobestände für ein bestimmtes Verarbeitungsdatum muss mit demselben Aktien-Ticker und Verarbeitungsdatum im Wertpapierstammdatenvolumen übereinstimmen und verknüpft sein, um gültig zu sein; andernfalls ist er ungültig, und die geschäftlichen Auswirkungen sind hoch. |
Portfoliobestände: Kohäsion = V, Rohbestände (Verarbeitungsdatum + Ticker) = Wertpapierstamm (Verarbeitungsdatum + Ticker), IV, Rohbestände (Verarbeitungsdatum + Ticker) ≠ Wertpapierstamm (Verarbeitungsdatum + Ticker), H | Hoch |
Wenn diese Beziehungen zwischen Primär- und Fremdschlüsseln in physischen Datenstrukturen, wie z. B. Datenbanken, gut definiert und durchgesetzt werden, kann die Technologie den Zusammenhalt zwischen den Datenmengen mithilfe von Primär- und Fremdschlüsselbeziehungen erzwingen. In der Finanzbranche werden jedoch viele unterschiedliche Datenmengen und Technologien verwendet, die sich im Laufe der Zeit weiterentwickelt haben. Es kann sein, dass du dich nicht darauf verlassen kannst, dass die Datenverwaltungstechnologie die Kohäsion durchsetzt. Daher musst du möglicherweise spezielle Kohäsionsdatenprüfungen durchführen, um sicherzustellen, dass die Datenmengen miteinander verknüpft werden können.
Die Kohäsions-DQS für die Rohportfoliobestände geben an, dass die Datenelemente Verarbeitungsdatum und Ticker obligatorisch sind und vorhanden sein müssen und dass das Konto und die Portfoliobestände identifizierbar sein müssen. Der Ticker und das Verarbeitungsdatum für jeden Portfoliobestand müssen mit dem Ticker und dem Verarbeitungsdatum im Wertpapierstammdatenbestand übereinstimmen. Die Anwendung der DQS für Vollständigkeit, Konformität, Richtigkeit und Kohäsion für das Konto ist gültig und wurde der Kürze halber absichtlich weggelassen. Die DQS für Kohäsion verlangen, dass der Ticker und das Verarbeitungsdatum des Rohportfolios mit dem Ticker und dem Verarbeitungsdatum für jeden Portfoliodatensatz im Wertpapierstammdatenvolumen übereinstimmen. Das heißt, wenn der Fremddatenschlüssel (Verarbeitungsdatum, Ticker) für jeden Datensatz im Rohportfolio-Bestandsvolumen mit dem Primärdatenschlüssel (Verarbeitungsdatum, Ticker) im Wertpapierstammdatenvolumen übereinstimmt, ist der Zusammenhalt des Datensatzes gültig; andernfalls, wenn der Fremddatenschlüssel und der Primärdatenschlüssel für jeden Datensatz nicht übereinstimmen, ist der Zusammenhalt des Datensatzes ungültig.
Abbildung 4-20 veranschaulicht die Ergebnisse und zeigt die gültigen bzw. ungültigen Portfolio-Bestandsdatensätze anhand der Datenqualitätsmetriken Verarbeitungsdatum und Ticker. Abbildung 4-20 enthält eine Kopie der Werte für das Verarbeitungsdatum und den Ticker in den Spalten "Verarbeitungsdatum2" und "Ticker2", die als Referenz dienen.
Die Anwendung der DQS für die Kohäsionsdimension auf das Rohdatenvolumen der Portfoliobestände erzeugt sowohl Statistiken als auch Datenqualitätsmetriken. Die Statistiken für das Rohdatenvolumen der Portfoliobestände in Abbildung 4-20 lauten wie folgt:
5 Datensätze
2 Datenelemente (Verarbeitungsdatum und Ticker)
10 Bezugswerte
Tabelle 4-20 zeigt die Gesamtzahl der gültigen und ungültigen Datenwerte in der Rohdatenmenge der Portfoliobestände.
Datenelement | Gültig | Ungültig |
---|---|---|
Bearbeitungsdatum | 4 | 1 |
Ticker | 4 | 1 |
Metrik-Gesamtwerte | 8 | 2 |
Die Datendimension Kohäsion spiegelt die Fähigkeit der Datenmengen wider, miteinander verknüpft zu werden. Die Kohäsion zwischen Datenmengen hängt von der Art der Daten und den Datenelementen oder der Kombination von Datenelementen ab, die die primären Datenschlüssel in einer Datenmenge und die fremden Datenschlüssel in einer anderen Datenmenge bilden (z. B. Verarbeitungsdatum, Ticker). Ein Datenvolumen mit gültiger Kohäsion bedeutet, dass die Fremddatenschlüssel, die Datensätze in einem Datenvolumen identifizieren, mit den Primärdatenschlüsseln übereinstimmen, die Datensätze in einem anderen Datenvolumen identifizieren.
Jedes Datenvolumen kann eine gültige Kohäsion haben und ungültige Datenwerte enthalten, solange die ungültigen Datenwerte nicht die Datenwerte sind, die zur Validierung der Beziehung zu einem anderen Datenvolumen erforderlich sind. Die Kohäsionsvalidierung garantiert nicht, dass die Daten gültig und korrekt sind. Stattdessen werden, wie in Kapitel 3 erwähnt, durch die Validierungsprüfung Anomalien festgestellt.
Beispiel
Dies ist ein einfaches Beispiel, um die Beziehung oder Kohäsion zwischen Datenvolumina und die Mechanismen der Anwendung von Validierungsprüfungen zur Bestätigung der Gültigkeit der Beziehung zu veranschaulichen. Ich möchte dich ermutigen, deine eigenen Kohäsionsprüfungen und die entsprechenden Toleranzen für die Datenqualität zu entwickeln und dabei eine ausgefeiltere Logik zu verwenden, die möglicherweise besser geeignet ist, um Datenanomalien in Bezug auf die Art der Daten zu erkennen.
Vier Fremddatenschlüsselwerte (Verarbeitungsdatum, Ticker) in den Rohportfoliobeständen liegen innerhalb der gültigen Toleranz. Eine Anomalie bei den Fremddatenschlüsseln wurde jedoch bei der Überprüfung der Kohäsionsdatenqualität festgestellt - sie entspricht nicht der gültigen Toleranzbedingung. Das Rohdatenvolumen der Portfoliobestände enthält einen Datensatz mit dem Verarbeitungsdatum 11/3/2015 und dem Ticker DELL, aber dieser Ticker existiert nicht im Wertpapierstammdatenvolumen. Es ist unklar, warum das DELL-Aktienpapier für das Konto 12345 im Rohdatenbestand des Portfolios enthalten ist, obwohl es keinen Datensatz des DELL-Aktienpapiers im Wertpapierstammdatenvolumen gibt. Sowohl die Portfoliobestände für das Konto 12345 als auch der Prozess der Wertpapierstammdatenpflege bedürfen einer weiteren Untersuchung und Überprüfung.
Abbildung 4-21 zeigt eine Zusammenfassung der Datenqualitätsmetriken, nachdem das Datenvolumen der Bestände, Wertpapiere, Fundamentaldaten, Konsensempfehlungen und Kurse korrigiert wurde. Abbildung 4-21 zeigt, dass der Datenqualitätsstatus für die Datenmengen der Bestände, Wertpapiere, Fundamentaldaten, Konsensempfehlungen und Preise von IV (ungültig) auf V (gültig) oder S (verdächtig) geändert wurde. Die Qualität dieser Datenmengen entspricht nun dem DQS für alle nachgelagerten Verbraucher.
Fit für den Zweck
Fit for purpose bedeutet, dass die Qualität der Datenmengen, die von den Geschäftsfunktionen, Anwendungen und Datenkonsumenten benötigt werden, den DQS für die Funktion, die Anwendung und den Konsumenten entspricht. Die DQS für die einzelnen Datendimensionen, die in diesem Beispiel vorgestellt werden, sind in der Regel für alle Geschäftsfunktionen und Verbraucher gleich. In der realen Welt ist dies jedoch in der Regel nicht der Fall. Datenqualität und DQS sind sehr spezifisch für die Datenanforderungen der Geschäftsfunktion, der Anwendung und des Datenkonsumenten. Es ist möglich, dass sich die DQS für Datendimensionen einer Geschäftsfunktion von der DQS einer anderen Geschäftsfunktion unterscheidet.
Forscher, Datenwissenschaftler und Datenanalysten, die neue Datensätze erforschen und testen, die noch nicht in die Produktionsdatenmanagement-Pipelines integriert wurden, können zum Beispiel geringere Toleranzen für die Datenqualität haben als andere, kritischere Datenmengen, die in den Produktionspipelines verwendet werden.
Das Modell in Abbildung 4-21 veranschaulicht sechs Stufen der Zweckmäßigkeit. Du solltest die Datenprozesse in deiner Geschäftsfunktion und die verschiedenen Geschäftsfunktionen in deinem Unternehmen unter Berücksichtigung der definierten geschäftlichen Auswirkungen betrachten. Die Abgrenzung der verschiedenen Fit-for-Purpose-Stufen in diesem Modell dient der Veranschaulichung; die Definitionen der Geschäftsauswirkungen sind jedoch in hohem Maße auf alle Datenprozesse und Geschäftsfunktionen anwendbar. Je nach DQS kann es mehr oder weniger Fit-for-Purpose-Stufen geben, aber fast immer hat die Verwendung von Daten schlechter Qualität (oder von Daten, die nicht fit-for-purpose sind) negative Auswirkungen auf das Geschäft. In Tabelle 4-21 sind die Eignungsstufen für die Geschäftsfunktionen in diesem Modell aufgeführt. Sie gibt auch das erforderliche Datenqualitätsniveau und die geschäftlichen Auswirkungen von Daten schlechter Qualität für jede Geschäftsfunktion an.
Ebene der Gebrauchstauglichkeit | Geschäftsfunktion(en) | Erforderliches Datenqualitätsniveau | Auswirkungen auf das Geschäft |
---|---|---|---|
0 | Datenmanagement | Niedrig | Keine |
1 | Forschung | Medium | Verschwendung hochwertiger Ressourcen, Zeit |
2 | Analytik | Medium | Verschwendung von wertvollen Ressourcen und Zeit Schlechte Analytik |
3 | Portfolio Management, Handel, Compliance |
Hoch | Schaden auf finanzieller, regulatorischer und rufschädigender Ebene |
4 | Investitionstätigkeit | Hoch | Schaden auf finanzieller, regulatorischer und rufschädigender Ebene |
5 | Geschäftsentwicklung, Kundendienste, Marketing, Leistungsmessung | Hoch | Schaden auf finanzieller, regulatorischer und rufschädigender Ebene |
Stufe 0 ist die niedrigste Stufe der Zweckmäßigkeit und stellt die anfängliche Rohdatenaufnahme durch einen Anbieter dar, die in der Regel von einer Datenmanagement-, Data Stewardship- oder Enterprise Data Management-Funktion verwaltet wird. Auf dieser Ebene sind die Daten unbearbeitet und nicht bereinigt, und die Funktion wendet verschiedene DQS auf die Daten an, um ihre Qualität in Bezug auf die DQS der nachgelagerten Verbraucher zu überprüfen.
Die Stufen 1 und 2 stellen die Zweckmäßigkeitsebenen auf der Grundlage der DQS und der akzeptablen Datenqualitätsniveaus für die Geschäftsfunktion Forschung und die Nutzung der Datenmengen zur Erstellung interner Analysen dar. Das erforderliche Datenqualitätsniveau ist mittel, was bedeutet, dass die Geschäftsfunktion auch mit Daten geringerer Qualität funktionsfähig ist. Die Auswirkungen auf das Geschäft sind jedoch mittelschwer - die Zeit hochwertiger Ressourcen wird verschwendet und die Analysen können ungenau oder von schlechter Qualität sein, aber es gibt wahrscheinlich keine finanziellen, regulatorischen oder kundenbezogenen Auswirkungen. Mittlere Auswirkungen auf das Geschäft erfordern in der Regel eine Triage, um die Datenanomalien zu identifizieren und die notwendigen Abhilfemaßnahmen zur Verbesserung der Datenqualität zu bestimmen.
Die Stufen 3, 4 und 5 stellen die Zweckmäßigkeitsebenen auf der Grundlage der DQS und der akzeptablen Datenqualitätsniveaus für die Geschäftsfunktionen Portfoliomanagement, Handel, Compliance, Investment Operations, Business Development, Client Services, Performance Measurement und Marketing dar. Das geforderte Datenqualitätsniveau ist hoch, was bedeutet, dass die Geschäftsfunktion bei einer geringeren Datenqualität in einen operativen Fehlerzustand gerät. Die geschäftlichen Auswirkungen unvollständiger oder ungenauer Daten können finanzielle Strafen, den Verlust des Kundenvertrauens, Verstöße gegen aufsichtsrechtliche Bestimmungen und Reputationsschäden umfassen. Die Auswirkungen auf das Geschäft erfordern eine sofortige Reaktion, um die Datenanomalien zu identifizieren und die notwendigen Abhilfemaßnahmen zur Verbesserung der Datenqualität zu bestimmen.
Zusammenfassung
Das Modell und die Beispiele in diesem Kapitel sind bewusst einfach gehalten, um die Funktionsweise und den Wert von DQS in der Datenverarbeitungspipeline eines Unternehmens zu verdeutlichen. Datendimensionen wie Vollständigkeit, Genauigkeit und Konformität können als allgemeiner auf Daten anwendbar betrachtet werden. Vollständigkeit gilt für alle Daten aller Datentypen. Konformität gilt für alle Daten, die einem bestimmten Format entsprechen müssen, und Präzision gilt vor allem für Zahlen. Die Dimension Kongruenz wird in der Regel zur Validierung von Zeitreihenzahlen verwendet, kann aber auch zur Validierung von Zeitreihen alphanumerischer Daten eingesetzt werden. Die Validierung der Kongruenz und die Toleranzen hängen von der Art der Daten ab. Aktualitätsprüfungen beziehen sich ebenfalls auf die Art der Daten und werden in der Regel verwendet, um das Datum, die Uhrzeit oder die Datumszeit von Zeitreihendaten zu überprüfen. Die Kohäsion bezieht sich auf die Beziehung zwischen Datenmengen und ist somit spezifisch für die Art der Daten. Sammlung ist eine spezielle Dimension für Datenmengen, die alle Komponenten der Mitgliedsdaten enthalten müssen, um als Sammlung zu gelten. Die Genauigkeit schließlich ist spezifisch und oft einzigartig für die untersuchten Daten.
Die Anwendung der DQS auf jede dieser Datendimensionen, von allgemein bis speziell, ist in Tabelle 4-22 dargestellt.
DQS-Antrag | Dimension |
---|---|
Spezifische | Genauigkeit |
|
Sammlung Zusammenhalt Kongruenz Pünktlichkeit Konformität Präzision |
Allgemein | Vollständigkeit |
Herzlichen Glückwunsch! Du weißt jetzt viel mehr über Datendimensionen und die Werkzeuge, die du brauchst, um die Form deiner Daten mithilfe der definierten gültigen, verdächtigen und ungültigen Toleranzen in der DQS quantitativ zu messen. Die Anwendung und Nutzung des DQS-Rahmenwerks erzeugt große Mengen an Datenqualitätsmetriken. Im nächsten Kapitel werden Datenqualitätsvisualisierungen vorgestellt, mit denen du deine Analysen abbilden und darstellen kannst. Diese Visualisierungen sollen es dir ermöglichen, das Spektrum und die Dichte der gültigen, verdächtigen und ungültigen Daten in deinen Datenmengen schnell zu verstehen. Du solltest dich vor allem für die verdächtigen und ungültigen Daten interessieren, die nicht den DQS-Anforderungen der Verbraucher entsprechen und die eine weitere Prüfung, Untersuchung und wahrscheinlich auch Abhilfeerfordern .
Get Datenqualitätstechnik in Finanzdienstleistungen now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.