Objektidentifikation Objektidentifikation Tommy Hielscher 10.12.2009 1 Tommy Hielscher 10.12.2009
Objektidentifikation
Objektidentifikation
Tommy Hielscher
10.12.2009
1 Tommy Hielscher 10.12.2009
Objektidentifikation
Gliederung
1 Begriffe
2 Forschungsschwerpunkte
3 Motivation
4 Ablauf ObjektidentifikationVorauswahlObjektidentifikation in drei SchrittenKonversionVergleich & KlassifikationEvaluierung
5 Ausblick
6 Zusammenfassung
7 Quellenangabe
2 Tommy Hielscher 10.12.2009
Objektidentifikation
Begriffe
Begriffe
Objektidentifikation
erkennen von Daten des gleichen Objektes
Identifizierung trotz nicht eindeutiger oder fehlerhafterAttribute
Datenqualität
viele Definitionen(“fitness for use”)
subjektiv: abhängig vom Kontext, Nutzer...
Datenqualität + Objektidentifikation
Identifikation abhängig von Datenqualität
Verbesserung der Datenqualität durch Identifikation
3 Tommy Hielscher 10.12.2009
Objektidentifikation
Forschungsschwerpunkte
Forschungsschwerpunkte
Welches Ziel soll erreicht werden?
Zusammenführen großer Datenbestände
Bereinigung eines Datenbestandes
4 Tommy Hielscher 10.12.2009
Objektidentifikation
Motivation
Motivation
Zusammenführen der Informationen aus mehreren Quellen:
integrierte Bibliothekskatalogemedizinische Datenbanken
Verbesserung der Datenqualität / Datenbereinigung
monetäre Vorteile
Aber:
Rentabilität
nicht perfekt
5 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Grundidee
Beschränkung auf Objektidentifikation in relationalenDatenbanken
Zusammenfassung zu vergleichender Datensätze zuDatensatzpaare
Duplikate
Datensätze die gleiches Realweltobjekt repräsentieren
6 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Vorauswahl
Vorauswahl
Vergleich aller Datensätze unpraktikabel
Bsp.: Zwei Datenbanken mit jeweils 100.000 Datensätzen→ 1010DatensatzpaareLösung:
Vorauswahl von sinnvollen Datensätzen durch Partitionierung
7 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Objektidentifikation in drei Schritten
Objektidentifikation in drei Schritten
1 KonversionStandardisierungTransformation der Daten in einheitliches Schema
2 VergleichVergleich von Datensatzpaaren
3 KlassifikationEntscheidung Duplikat / nicht-Duplikat
8 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Konversion
Standardisierung
Beispiele für erforderliche Standardisierung:
Spitznamen (Thomas, Tommy)
Eingabefehler (James, Jarnes, Jamew)
gleich klingende Schreibweisen (Mathias, Matthias)
Abkürzungen (Straße, Str.)
Lösung:
Ersetzen verschiedener Schreibweisen durch eine Schreibweise
9 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Konversion
Standardisierung - Möglichkeiten 1
Kodierungsalgorithmen
Vorbereitung:
String zerlegennicht-Buchstaben entfernenin Kleinbuchstaben konvertieren
Wort wird kodiert
Ziel:
gleiche Kodierung unterschiedlicher Namendes selben Objekts
10 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Konversion
Standardisierung - Möglichkeiten 2
Kataloge:
Regelwerk zur Zuordnung von Namen
abhängig von Region
Probleme:
Eingabefehler werden nicht erkannt
Kataloge nicht vollständig
11 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Konversion
Konvertierung
Schema
einheitlich
verlustfrei
Abbildung: Schemata Überführung
Identifikationsattribute
je nach Anwendungsfall
12 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Vergleich & Klassifikation
Vergleich & Klassifikation Überblick
Realisierung von genutzten Methoden abhängig
→ Vergleich + Klassifikation untrennbar
Record Linkage
Entscheidungsregeln
String Comparators + Gleichheitsmaße
Probabilistisches Modell
13 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Vergleich & Klassifikation
Entscheidungsregeln
Regeln zur Klassifizierung der Datensatzpaare
Vorteile:
schnell entwickelt
können zu guten Ergebnissen führen
Nachteile:
basieren meist auf Erfahrungswerte
schlechte Regeln führen zu falschen Klassifikationen
14 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Vergleich & Klassifikation
Beispiel Entscheidungsregel
If the pair agrees on a specific three characteristics oragrees on four or more within a set of five characteristics,designate the pair as a link; else if the pair agrees on aspecific two characteristics, designate the pair as apossible link; else designate the pair as a nonlink.
[William E. Winkler, Matching And Record Linkage]
15 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Vergleich & Klassifikation
String Comparators & Gleichheitsmaße
Vergleich von Strings nicht ohne weiteres möglich
Problem:
Eingabefehler in ansonsten identischen Zeichenketten
Lösung:
Funktionen zur Berechnung der partiellen Gleichheit
16 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Evaluierung
Partitionierung der Ergebnisse
Abbildung: Einteilung der Ergebnisse
17 Tommy Hielscher 10.12.2009
Objektidentifikation
Ablauf Objektidentifikation
Evaluierung
Evaluierungsgrößen
Precision
Anteil echter Duplikate unter den Gefundenen
= true positives/(true positives + false positives)
Recall
Anteil gefundener Duplikate unter allen Duplikaten
= true positives/(true positives + false negatives)
F-Measure
harmonisches Mittel
Optimierungsziel
= 2(2 ∗ recall ∗ precision)/(recall + precision)
18 Tommy Hielscher 10.12.2009
Objektidentifikation
Ausblick
Ausblick
weitere Herausforderungen:
Automatisierung + Verbesserung vonObjektidentifizierungsmethoden
neue Blockingansätze
Spezialmethoden für bestimmte Anwendungsfälle
19 Tommy Hielscher 10.12.2009
Objektidentifikation
Zusammenfassung
Zusammenfassung
Objektidentifikation wichtig für Datenintegration und DataCleaning
Konversion, Vergleich, Klassifikation
außerdem: Vorauswahl + Evaluierung
wachsendes Forschungsgebiet
20 Tommy Hielscher 10.12.2009
Objektidentifikation
Quellenangabe
Quellen
Neiling, M.: “Identifizierung von Realwelt-Objekten in multiplenDatenbanken”, 2004 TU-Cottbus
Sattler, Kai-Uwe: “Datenqualität - eine datenbankorientierte Sichtweise”,2005 TU-Ilmenau
Winkler, William E.: “Methods and Analyses for Determining DataQuality”, 2005 in ACM Workshop on Information Quality in InformationSystems
Winkler, William E.: “Methods for evaluating and creating data quality”,2004 US Bureau of the Census
21 Tommy Hielscher 10.12.2009
Objektidentifikation
Quellenangabe
Quellen
Winkler, William E.: “Overview of Record Linkage and Current ResearchDirections”, 2006 US Bureau of the Census
Wilson, D. Randal: “Name Standardization for Genealogical Record
Linkage”, 2005 The Church of Jesus Christ of Latter-day Saints
22 Tommy Hielscher 10.12.2009
BegriffeForschungsschwerpunkteMotivationAblauf ObjektidentifikationVorauswahlObjektidentifikation in drei SchrittenKonversionVergleich & KlassifikationEvaluierung
AusblickZusammenfassungQuellenangabe