Top Banner
Objektidentifikation Objektidentifikation Tommy Hielscher 10.12.2009 1 Tommy Hielscher 10.12.2009
22

Tommy Hielscher 10.12vkoeppen/Vortraege/Hielscher.pdf · 2009. 12. 9. · Objektidenti kation Ablauf Objektidenti kation Vorauswahl Vorauswahl Vergleich aller Datens atze unpraktikabel

Feb 01, 2021

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • Objektidentifikation

    Objektidentifikation

    Tommy Hielscher

    10.12.2009

    1 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Gliederung

    1 Begriffe

    2 Forschungsschwerpunkte

    3 Motivation

    4 Ablauf ObjektidentifikationVorauswahlObjektidentifikation in drei SchrittenKonversionVergleich & KlassifikationEvaluierung

    5 Ausblick

    6 Zusammenfassung

    7 Quellenangabe

    2 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Begriffe

    Begriffe

    Objektidentifikation

    erkennen von Daten des gleichen Objektes

    Identifizierung trotz nicht eindeutiger oder fehlerhafterAttribute

    Datenqualität

    viele Definitionen(“fitness for use”)

    subjektiv: abhängig vom Kontext, Nutzer...

    Datenqualität + Objektidentifikation

    Identifikation abhängig von Datenqualität

    Verbesserung der Datenqualität durch Identifikation

    3 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Forschungsschwerpunkte

    Forschungsschwerpunkte

    Welches Ziel soll erreicht werden?

    Zusammenführen großer Datenbestände

    Bereinigung eines Datenbestandes

    4 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Motivation

    Motivation

    Zusammenführen der Informationen aus mehreren Quellen:

    integrierte Bibliothekskatalogemedizinische Datenbanken

    Verbesserung der Datenqualität / Datenbereinigung

    monetäre Vorteile

    Aber:

    Rentabilität

    nicht perfekt

    5 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Grundidee

    Beschränkung auf Objektidentifikation in relationalenDatenbanken

    Zusammenfassung zu vergleichender Datensätze zuDatensatzpaare

    Duplikate

    Datensätze die gleiches Realweltobjekt repräsentieren

    6 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Vorauswahl

    Vorauswahl

    Vergleich aller Datensätze unpraktikabel

    Bsp.: Zwei Datenbanken mit jeweils 100.000 Datensätzen→ 1010DatensatzpaareLösung:

    Vorauswahl von sinnvollen Datensätzen durch Partitionierung

    7 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Objektidentifikation in drei Schritten

    Objektidentifikation in drei Schritten

    1 KonversionStandardisierungTransformation der Daten in einheitliches Schema

    2 VergleichVergleich von Datensatzpaaren

    3 KlassifikationEntscheidung Duplikat / nicht-Duplikat

    8 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Konversion

    Standardisierung

    Beispiele für erforderliche Standardisierung:

    Spitznamen (Thomas, Tommy)

    Eingabefehler (James, Jarnes, Jamew)

    gleich klingende Schreibweisen (Mathias, Matthias)

    Abkürzungen (Straße, Str.)

    Lösung:

    Ersetzen verschiedener Schreibweisen durch eine Schreibweise

    9 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Konversion

    Standardisierung - Möglichkeiten 1

    Kodierungsalgorithmen

    Vorbereitung:

    String zerlegennicht-Buchstaben entfernenin Kleinbuchstaben konvertieren

    Wort wird kodiert

    Ziel:

    gleiche Kodierung unterschiedlicher Namendes selben Objekts

    10 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Konversion

    Standardisierung - Möglichkeiten 2

    Kataloge:

    Regelwerk zur Zuordnung von Namen

    abhängig von Region

    Probleme:

    Eingabefehler werden nicht erkannt

    Kataloge nicht vollständig

    11 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Konversion

    Konvertierung

    Schema

    einheitlich

    verlustfrei

    Abbildung: Schemata Überführung

    Identifikationsattribute

    je nach Anwendungsfall

    12 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Vergleich & Klassifikation

    Vergleich & Klassifikation Überblick

    Realisierung von genutzten Methoden abhängig

    → Vergleich + Klassifikation untrennbar

    Record Linkage

    Entscheidungsregeln

    String Comparators + Gleichheitsmaße

    Probabilistisches Modell

    13 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Vergleich & Klassifikation

    Entscheidungsregeln

    Regeln zur Klassifizierung der Datensatzpaare

    Vorteile:

    schnell entwickelt

    können zu guten Ergebnissen führen

    Nachteile:

    basieren meist auf Erfahrungswerte

    schlechte Regeln führen zu falschen Klassifikationen

    14 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Vergleich & Klassifikation

    Beispiel Entscheidungsregel

    If the pair agrees on a specific three characteristics oragrees on four or more within a set of five characteristics,designate the pair as a link; else if the pair agrees on aspecific two characteristics, designate the pair as apossible link; else designate the pair as a nonlink.

    [William E. Winkler, Matching And Record Linkage]

    15 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Vergleich & Klassifikation

    String Comparators & Gleichheitsmaße

    Vergleich von Strings nicht ohne weiteres möglich

    Problem:

    Eingabefehler in ansonsten identischen Zeichenketten

    Lösung:

    Funktionen zur Berechnung der partiellen Gleichheit

    16 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Evaluierung

    Partitionierung der Ergebnisse

    Abbildung: Einteilung der Ergebnisse

    17 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ablauf Objektidentifikation

    Evaluierung

    Evaluierungsgrößen

    Precision

    Anteil echter Duplikate unter den Gefundenen

    = true positives/(true positives + false positives)

    Recall

    Anteil gefundener Duplikate unter allen Duplikaten

    = true positives/(true positives + false negatives)

    F-Measure

    harmonisches Mittel

    Optimierungsziel

    = 2(2 ∗ recall ∗ precision)/(recall + precision)

    18 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Ausblick

    Ausblick

    weitere Herausforderungen:

    Automatisierung + Verbesserung vonObjektidentifizierungsmethoden

    neue Blockingansätze

    Spezialmethoden für bestimmte Anwendungsfälle

    19 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Zusammenfassung

    Zusammenfassung

    Objektidentifikation wichtig für Datenintegration und DataCleaning

    Konversion, Vergleich, Klassifikation

    außerdem: Vorauswahl + Evaluierung

    wachsendes Forschungsgebiet

    20 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Quellenangabe

    Quellen

    Neiling, M.: “Identifizierung von Realwelt-Objekten in multiplenDatenbanken”, 2004 TU-Cottbus

    Sattler, Kai-Uwe: “Datenqualität - eine datenbankorientierte Sichtweise”,2005 TU-Ilmenau

    Winkler, William E.: “Methods and Analyses for Determining DataQuality”, 2005 in ACM Workshop on Information Quality in InformationSystems

    Winkler, William E.: “Methods for evaluating and creating data quality”,2004 US Bureau of the Census

    21 Tommy Hielscher 10.12.2009

  • Objektidentifikation

    Quellenangabe

    Quellen

    Winkler, William E.: “Overview of Record Linkage and Current ResearchDirections”, 2006 US Bureau of the Census

    Wilson, D. Randal: “Name Standardization for Genealogical Record

    Linkage”, 2005 The Church of Jesus Christ of Latter-day Saints

    22 Tommy Hielscher 10.12.2009

    BegriffeForschungsschwerpunkteMotivationAblauf ObjektidentifikationVorauswahlObjektidentifikation in drei SchrittenKonversionVergleich & KlassifikationEvaluierung

    AusblickZusammenfassungQuellenangabe