This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Data Quality II:Tools
Yves BontempsSmalS-MvM, Section Recherches
21 septembre 2006
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 2
• Introduction• Outils de Data Quality: concepts
– Data Profiling– Standardisation– Matching– Monitoring
• Outils commerciaux– Case study– Architecture
• Conclusion
2
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 3
Introduction
Ring! Ring!Ring!
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 4
Introduction
Allo?
3
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 5
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 6
Introduction
! $@ !
4
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 7
Introduction
M. Yves Bontempsde la Loi, 9/27100 Haine St-Paul
FACTURE M. Yves BontempsRue de la Loi, 9 bte 27100 La Louvière
DB Clients
Bottin
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 8
Qualité des donnéesDéfinition
Fitness for use
• Remarques:–Fitness vs Perfection–Coûts-bénéfices–Use présent & futur (!)
5
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 9
IntroductionImpacts/enjeux
• National Firearms LicensingManagement Systems (UK)
– "During the pilot there were a number of data quality issues, which meant the system was returning errors, so the system was declined"
– "If the Home Office really is incapable, over a period of eight years, of computerizing something as straightforward as a few hundred thousand firearms records, then it does suggest that they do not have a hope of making a success of the introduction of the national identity card scheme"
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 10
IntroductionImpacts/enjeux
• Voter's registration system in California
– Registration system of all voters, based on identification (driver's license). Checked against Calif. Dept of Motor Vehicles database.
– "The rigorous system will reject applications whose data doesn’t exactly match the confirming documents. Even small discrepancies, such as a missing middle initial, could cause an application to be rejected."
– "The voter database has “been a disaster for anyone who is tryingto register for the first time or reregister because they moved, got married and need to change their name or change parties,”
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 11
IntroductionImpacts/enjeux
• Criminal Records Bureau (UK)
– Check that someone has no criminal record prior to appointment (esp. unsupervised contacts with children).
– "The Criminal Records Bureau's first and foremost priority is tohelp protect children and vulnerable adults"
– "The Criminal Records Bureau is only as effective as the information it can access."
– Liberal Democrat home affairs spokesman Nick Clegg said the errors took "Home Office incompetence to new absurd levels". He added: "This latest fiasco will erase the last bit of public confidence in the Home Office."
– http://news.bbc.co.uk/1/hi/uk/5001624.stm
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 12
IntroductionImpacts de la qualité
• Coûts de correction (usine fantôme)
• Risques accrus nouveaux dével.
• Décisions erronées
• Perte de confiance
• Abandon/Rejet du système
7
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 13
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 31
Data ProfilingExemples
From http://www.dataflux.com"Loan"
"Phone number"Pattern analysis
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 32
17
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 33
Data ProfilingIndices de problèmes
• Sur base de l'analyse automatique,– Attributs non utilisés ou peu utilisés– Représentations incohérentes– Représentations de NULL (vide, N/A, etc).– Valeurs inutilisées– Outliers (~ valeur inhabituellement grande ou petite)
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 34
Data ProfilingIntervention humaine
• Inspection visuelle– Valeurs extrêmes– Caractères spéciaux– Random walks
• Signification "business"
• Valeurs autorisées
18
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 35
Data ProfilingProcessus
Préparation
ObtenirMéta-données
ObtenirDonnées
Analyse
Structure Valeurs
Validation
Business rules locales
Business rules complexes
Méta-données
Problèmesdonnées
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 36
Data ProfilingStructure
Structure documentée
Structure découverte
Structure correcte
Diagnostic données
Données
Méta-données
Problèmesdonnées
discovery
analyse
validation
DonnéesDonnées
19
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 37
Data ProfilingStructurel
• Propriétés:– Identifiants
• ONSS_NR
– Relations (Jointures)• FORM_JUR est un code documenté dans la table
annexe FORMES_JURIDIQUES.
– Dépendances fonctionnelles• INS_CODE VILLE
– Synonymes
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 38
Data ProfilingBesoin d'un outil ?
• Méthode ad-hoc (SQL, …) ?– Effort nécessaire (écriture requêtes)– Manque de support méthodologique
Risque de manquer des informations importantes
– Certaines analyses pas possibles:• Dépendances fonctionnelles• Synonymes• Drill-down
• Outils dédiés dépassent ces limitations
20
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 39
Data ProfilingReference Book
• Data Quality: the AccuracyDimension, Jack Olson
Elsevier, 2002, The Morgan-KaufmannSeries in Database Management.
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 40
Data ProfilingFin du processus
• Repositories:– Méta-données
• Colonnes• Structure• Règles
– Contenu• Distribution• …
– Problèmes de données • Colonnes• Structure• Règles
21
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 41
Data ProfilingOutils commerciaux
• Points d'attention– Support méthodologique et collaboration– Ouverture du repository– Fonctionnalités de "discovery"– Expressivité du moteur de règles
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 104
Case studiesEnseignements
• Performances– Rapidité de mise en œuvre (situation simple)– Performances (6 min. à 30 min. machine low-end) – Facilité d'utilisation (env. graphique, pas de
programmation)• Standardisation
– Adresses bilingues: support variable.– Dénomination: pers. physiques vs pers. morales
• Matching– Champ par champ: black-box (pas un obstacle)– Record par record: Déterministe traçabilité– Qualité des résultats
53
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 105
Outils commerciaux
• Ordres de prix (licences)– Profiling:
• 25 000 € (1 named user)• 10 000 € par named user suppl.• Peu de users dans les entreprises
– Standardisation, Matching: • 100 000 €
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 106
Architecture
OLTP Staging
Application
Proce
ss E
ngin
e
Rep
osi
tory
Know
ledge
Bas
e
Batch
etc
EJB
SOAP
Extract
ResultUpdate
Application
ProcessEditor
Updates
54
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 107
• Introduction• Outils de Data Quality: concepts
– Data Profiling– Standardisation– Matching– Monitoring
• Outils commerciaux– Case study– Architecture
• Conclusion
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 108
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 114
Data Quality
58
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 115
Data QualityProfiling
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 116
Data QualityStandardisation & Matching
59
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 117
Data QualityInfrastructure
Data Firew
all
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 118
Data Quality
Data Firew
all
BPR
60
21/09/2006 Data Quality II: ToolsY. Bontemps - Recherches 119
"Data Quality @ SmalS-MvM"
Cellule "data quality" (section "recherches")– En collaboration avec les autres équipes de la
société:• Sensibilisation à la qualité des données,• Formations,• Mise en place d'indicateurs,• Mise en place de groupes de travail & de suivi,• Actions spécifiques (root-cause analysis, etc),• Analyses de l'existant (impact, …),• Aide à la mise en place d'outils,
– Etudes et publications de travaux– Consultances au sein de l'administration fédérale