Datenqualität
Datenqualität auf höchstem Niveau ist eine der
Grundvoraussetzungen für valide Geschäftsentscheidungen.
Datenqualität ist ein mehrdimensionales Konstrukt, das durch mehrere Messgrößen bestimmt wird. Die individuellen Prozesse, Anwendungsfälle, Anwender und Systeme in jeder Organisation bestimmen, welche Dimensionen für die Datenqualität in Ihrem Datenbestand relevant sind.
Grundsätzlich ist eine hohe Datenqualität die Basis für echte Datenintelligenz und damit ein wesentlicher Erfolgsfaktor für alle datenbasierten Geschäftsprozesse und -modelle. Die Steigerung Ihrer Datenqualität schafft optimale Voraussetzungen für intelligente Entscheidungsprozesse und eine optimale Performance im digitalen Zeitalter.
Das passende Produkt für die Sicherung Ihrer Datenqualität:
DATAROCKET Core im Einsatz
Der Beginn eines erfolgreichen Datenmanagementprojekts
Die Durchführung einer Datenanalyse ist eine geeignete Maßnahme zu Beginn eines Stammdatenmanagementprojektes. Sie erhalten einen ersten Überblick über das Qualitätsniveau Ihrer Daten im Ist-Zustand und können auf Basis dieser Erkenntnisse weitere Schritte planen.
Unser Ansatz zur Datenanalyse:
Wir gehen feldbezogen vor. Auf Basis von Pipelines, mit denen Sie aus vorgefertigten Bausteinen individuelle Qualitätskriterien und Berechnungspfade definieren können, lässt sich die Datenqualität ermitteln. Für jeden unserer Kunden führen wir individuelle Prüfungen durch. Um kundenindividuelle Sets von Datenqualitätskriterien schneller und effizienter aufbauen zu können, greifen wir auf eigens entwickelte Templates zurück. Wir bieten eine Sammlung von Qualitätskriterien zur Messung von Kreditoren- und Debitordaten sowie für den (SAP-)Materialstamm an.
Phase 1:
Entwicklung der Mess- und Analysestruktur
Konzeption und Umsetzung einer DQ-Systematik
Methodik zur Erhebung von Anforderungen
Rahmenwerk zur strukturierten Messung (DQ-Systematik)
Technische Vorgaben für die Pflege von Attributen
Fachliche Vorgaben für die Pflege von Attributen
Unternehmensweite Standards zur Sicherung der Datenqualität
Ergebnis: Es wird eine Datenqualitätssystematik (Ordnungsrahmen) erstellt, die Mitarbeiter bei der Umsetzung und Einhaltung der definierten Standards und Regeln unterstützt.
Phase 2:
Durchführung der Datenqualitätsmessung
Auswahl relevanter Attribute
Bestimmung von Qualitätskriterien
Erarbeitung der Regeln zur Definition eines Duplikates
Ermittlung von Erfolgskennzahlen zur Messung der Datenqualität
Festlegung von benötigten Daten-Exporten
Ergebnis: Die strukturierte Analyse misst die Datenqualität im Unternehmen und stellt die Voraussetzung für die langfristige Umsetzung von Qualitätskriterien dar.
Nutzen und Ergebnisse der Datenqualitätsmessung
1. Duplikatsprüfung
Identifikation von Duplikaten basierend auf festgelegten Kriterien.
Verwendung intelligenter Abgleiche zur Erkennung von Ähnlichkeiten.
Zusammenführung von Duplikaten durch Auswahl relevanter Informationen.
Möglichkeit zur manuellen Überprüfung und Korrektur potenzieller Duplikate.
2. Datenqualitätscheck
Datenvalidierung: Überprüfung auf Validität gemäß definierten Regeln.
Plausibilitätsprüfung: Prüfung auf logische Konsistenz und Widersprüche.
Vollständigkeitsprüfung: Überprüfung auf das Vorhandensein aller erforderlichen Felder und das Fehlen von leeren Werten.
Konsistenzprüfung: Vergleich mit anderen Datenquellen zur Erkennung von Inkonsistenzen.
Bereinigungsfunktionen: Automatisierte Bereinigung von Daten, Ergänzung fehlender Werte, Korrektur ungültiger Werte, Formatierungsanpassungen und Entfernung von Duplikaten.
3. Optimierung
Datenanalyse zur Identifizierung von Schwachstellen und Mustern von Datenqualitätsproblemen.
Bereitstellung von Metriken und Bewertungen zur Quantifizierung und Bewertung der aktuellen Datenqualität.
Identifizierung der Ursachen für Datenqualitätsprobleme.
Bereitstellung konkreter Empfehlungen zur Datenbereinigung und -optimierung.
Cleansing
Optimierte Datenqualität durch Datenbereinigung
In der Regel ist die Datenbereinigung der erste Ansatz zur Wiederherstellung einer korrekten Datenbasis als Grundlage für die Verbesserung der Datenqualität. Dabei spielt die Dublettenerkennung und -bereinigung eine entscheidende Rolle, ebenso wie die Erstellung von Prüfregeln zur Messung der Datenqualität und die Erfolgskontrolle nach der Bereinigung.
Die Dublettenerkennung, die Sie mit DATAROCKET Core durchführen können, überprüft den gesamten Datenbestand und findet Einträge, die dasselbe Geschäftsobjekt betreffen, aber unterschiedliche Informationen enthalten. In einem Prozess, der als Datenharmonisierung bezeichnet wird, werden diese zu einem übergreifenden, aussagekräftigen Datensatz - dem Golden Record - zusammengeführt.
Golden Record
DATAROCKET Core fungiert als Hub in der Datenlandschaft eines Unternehmens und greift als solcher auf heterogene Datenquellen zu. Die Datensätze dieser Quellen werden extrahiert und konsolidiert und anschließend zu Golden Records zusammengeführt. Dieser Golden Record oder Single Point of Truth ist ein Stammdatensatz, der die relevanten Attribute aus allen Datenquellen vereinigt.
Nicht nur die Beseitigung von Dubletten, sondern auch andere Korrekturen verbessern die Datenqualität:
Plausibilitätsverletzungen bei Gewichtsangaben (z. B. Nettogewicht größer als Bruttogewicht)
Validierung von Postleitzahlen (z. B. fünf Ziffern im Bereich von 01067 bis 99998)
Datumsformatierung (z. B. TT.MM.JJJJ)
Strukturierte Adressen (z. B. separate Felder für Hausnummern)
Telefonnummernvalidierung (z. B. Ländervorwahl-Ortsvorwahl-Rufnummer)
Einheitliche Formatierung von Namen (z. B. einheitliche Groß- und Kleinschreibung)
Bereinigung ungültiger Zeichen (z. B. Entfernung von Sonderzeichen aus Textfeldern)
Konsistenzprüfung von Produktkategorien (z. B. einheitliche Schreibweise und Klassifizierung)
Entfernung von leeren oder fehlenden Werten (z. B. Bereinigung von Feldern ohne Eintrag)
Harmonisierung von Einheiten (z. B. Konvertierung von Pfund zu Kilogramm)
Datenbereinigung mit DATAROCKET Core
Automatisierte Datenbereinigung
Die Anwendung einer oder mehrerer vordefinierter Regeln führt zu aktualisierten (Massen-)Daten.
Datenbereinigungsworkflow
In der Software wird ein Workflow durchlaufen. Anhand der Ergebnisse werden manuelle Korrekturen an den Daten vorgenommen.
Massenupdate (Bulk Upload)
Es wird eine Datei zur Bereinigung mit einer großen Anzahl von Datensätzen mit korrigierten Informationen hochgeladen.
Nachhaltige Steigerung der Datenqualität
Zum kontinuierlichen Monitoring der Datenqualität in Ihrem Unternehmen bietet DATAROCKET Core Messungen in Echtzeit an. Die tatsächliche Datenqualität wird direkt in Ihren Systemen rund um die Uhr gemessen und überwacht. Die Messung liefert unter anderem Ergebnisse zu folgenden Qualitätskriterien:
Aktualität und Alter der Daten
Konsistenz, Gültigkeit, Fehlerfreiheit, Vollständigkeit und Redundanzfreiheit
Änderungshäufigkeit.
Weiterlesen im Blog
Unsere Beiträge und Veröffentlichungen rund um gute Datenqualität. Use Cases und Whitepaper für erfolgreiche MDM-Projekte im Unternehmen.