Mgrani trier-faktenextraktion

Faktenextraktion aus Forschungspublikationen mittels semantischer Technologien und Crowdsourcing

Erste Ergebnisse aus dem Forschungsprojekt CODE – Commercially Empowered Linked Open Data Ecosystems for Research

Michael GranitzerUniversity of Passau

1FP 7 Strep No. 296150

http://www.uni-passau.de/


nani gigantum humeris insidentes

Wir stehen auf den Schultern von Giganten– Forschung basiert auf

Erkenntnissen aus der Vergangenheit

– Wurzel unserer Zivilisation

2


Aber wir ertrinken in einer Flut von Dokumenten

mit widersprüchlichen Fakten mit fehlenden Daten mit geringer Vergleichbarkeit Metastudien sind schwer

durchzuführen Einige Beispiele

– “Improvements that don’t add up”Armstrong et. al. 2009

– “Why most research results are false”Ioannidis, 2005

3

Welche Lösungsmöglichkeiten stehenim Raum?


Lösungsansatz in CODE

Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen unter Anwendung semantischer Technologien– Überführung unstrukturierter und semi-strukturierter

Forschungsdatenquelle in semantische Form– Publikation dieser Forschungsdatenquellen als offene Daten– Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen– Integration einer breiten Benutzerbasis zur Qualitätssicherung

(Crowdsourcing)

Fokus auf– Empirischen Beobachtungen– Linked Open Data als gemeinsame Beschreibungsprache– Informatik und Biomedizin als erster Anwendungsfall

4


Allgemeiner WorkflowÜberblick

5

Linked ScienceData Warehouse; Offene Standards

Extraktion Integration/Aggregation

Analyse & Organisation

Kollaboration &

Crowdsourcing

Visual Analytics &Kollaborative AnalyseText,

Linked (Open) DataExperimente

Crowdsourcing & Kollaboration über Web-Technologien

und Datenmarktplätzen


Inhalte dieses Vortrags

Extraktion von Fakten aus Forschungspublikationen– Strukturanalyse von PDFs– Automatische Annotation von PDFs

Semantische Integration– Disambiguierung von extrahierter Entitäten/Fakten– Semantisches Format zur Repräsentation von Fakten– Web-basierte Zugriff mittels RDF/SPARQL

(Visuelle) Analyse– Abfrage von Fakten– Visuelle Analyse

Crowdsourcing & Teilen von Forschungsdaten– Überblick

6

Disclaimer – Work in progress:

Ansätze und erste Ergebnisse

nach 10 Monaten


EXTRAKTION VON FAKTEN AUSFORSCHUNGSPUBLIKATIONEN

7


Extraktion von Fakten aus PublikationenÜberblick

Extraktion struktureller Elemente– Tabellen, Abbildungen (Kapitel und Unterkapitel)– Extraktion von Fakten aus Tabellen

Extraktion von Fakten aus Texten– Named Entity Recognition (e.g. algorithms, data sets, genes,

significance levels etc.)– Relationen Extraktion (e.g. Medikament A senkt Blutdruck um B)

Semi-automatische Ansätze zur Qualitätskontrolle durch den Benutzer– User in the Loop

8


Extraktion von Fakten aus PublikationenEin motivierendes Beispiel

9

Dimensionen/EntitätenMessgröße

Fakten


Extraktion von Fakten aus PublikationenAnsatz zur Extraktion

Hauptformat: PDF– Optimiert für die Darstellung, jedoch schwierig zu analysieren– Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten– Metadaten Qualität in PDFs unzuverlässig– Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht.

Ansatz – Divide and Conquer– Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information– Klassifikation der Blöcke

• e.g. Title, Haupttext, Abstract, Referenzen

– Klassifikation/Extraktion der Inhalte in Blöcken• Klassifikation von Strukturen (z.B. Tabellen)• Extraktion von Namen, Entitäten, Adressen etc.

10



Extraktion struktureller Blöcke– Verwendung unterschiedlicher, Layout bezogener Merkmale

• Zeichengröße, Zeichensatz, Position (absolut, relativ)

– Anwendung verschiedener Clustering Algorithmen• Clustering: Gegeben eine Menge von Objekten finde jene Gruppen von

Objekten bei denen die “Ähnlichkeit” innerhalb der Gruppe maximal und zwischen Gruppen minimal wird.

• Cluster = Block• Fehler Backtracking über sukzessives zusammenfassen und teilen

– Clustering Stack• Merge: Zeichen Wörter• Split: Wort Wörter (Fehlerbehandlung)• Merge: Wörter Zeilen • Split: Zeile Zeilen (Fehlerbehandlung• Merge: Zeilen Blöcken• Split: Block Blöcken (Fehlerbehandlung)

11



Klassifikation von Textblöcken

Überwachte Lernverfahren: Maximum Entropy Klassifikatoren– Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu

Blöcken– Lernen eines entsprechenden Modells und Anwendung auf

nicht klassifizierte Blöcke– Merkmale: Wortstatistiken (z.B. f. Namen), Layout,

Formatierung, Heuristiken (e.g. e-Mail)

Beispiele für Blöcke– Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten– Tabellen/Tabellenüberschriften– Abbildung/Abbildungsüberschriften

12R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012.



Extraktion von Entitäten innerhalb der Blöcke– Blocktyp als Selektionskriterium

(e.g. Autorblock wird weiter zerlegt)– Named Entity Recongition mittels überwachter Lernverfahren– Maximum Entropy Klassifikatoren mit Beam Search

Ermittlung der Lesereihenfolge der Blöcke– Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract– Interessant für Information Retrieval Anwendungen

Offene Punkte– Relations- bzw. Prädikatextraktion– Open Information Extraction – Lernen von Modellen ohne Vorgabe von

Trainingsdaten – Modellgenerierung durch den Benutzer/die Benutzerin– Benutzer Feedback

• Explizit: Akzeptieren oder verwerfen v. Annotationen• Implizit: Analyse der Nutzung (z.B. für Navigation)

13R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012.


Extraktion von Fakten aus PublikationenOnline Demonstrator - http://knowminer.at:8080/code-demo

14


SEMANTISCHE INTEGRATION

15


Semantische IntegrationZielsetzung

Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung– Mehrdeutigkeiten: Synonyme, Homonyme

• Z.B. H1N1, Vogelgrippe, Grippe

– Keine Verknüpfung zu entsprechenden Thesauri/Wissensbasen– Fehlendes gemeinsames Format

Ansatz: Nutzung von Linked Open Data und Semantic Web Technologien– Überführung extrahierter Fakten in ein einheitliches, offenes Format

• Mit Fokus auf Tabellen

– Disambiguierung von Entitäten und Fakten durch Verknüpfung von Phrasen mit vorhandenen Wissensbasen (in der LOD Cloud)

– Semi-automatische Ansätze – Genauigkeit automatischer Analyseverfahren nicht hinreichend.

16


Semantische IntegrationWas ist Linked Open Data?

Das Web der Daten – Grundprinzipien

1. URI‘s zur Identifikation von Dingen

2. HTTP als Lookup von Informationen zu Dingen

3. Verwende maschinen-lesbare Formate zur Beschreibung von Dingen(i.e. RDF – Resource Description Framework)

4. Die Beschreibung von Dingen enthält Links zu anderen Dingen

Aktuelle mehrere Milliarden Tripel aus unterschiedlichen Domänen– Bibliographische Daten (e.g. DBLP, PubMed)– Biomedizinische Daten

• Gene-Ontology, Drug-Bank, Diseases etc.

– Allgemeinwissen - DBPedia– Öffentliche Daten (e.g. Census, EU Förderprogramme)

17


Semantische IntegrationLinked Open Data

Drei Funktionen im Projekt1. Integration und Disambiguierung durch Verknüpfung semi-strukturierter

Inhalte mit Konzepten der LOD

2. Vereinheitlichung und Publikation von Forschungsdaten unter Nutzung statistischer Vokabularien

3. Als web-basierte Datenquelle für (offene) Forschungsdaten (od. deren Anreicherung)

Linked Data als weltweite Datenbank „virtuelle“ Forschungsumgebungen

18


Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung

Beispiel

19

http://dbpedia.org/page/F1_score

http://dbpedia.org/page/Orthography

Bedeutung durch eindeutige Benennung



Herausforderungen– Qualität abhängig von der Domäne und Größe der Wissensbasis– Abhängig vom Kontext

• Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext

• Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung– Qualität und Art der zugrunde liegenden Wissensbasis

• Entitäts-zentriert: Thesaurus, Ontologie• Dokument-zentriert: Vorkommnisse in anderen Dokumenten

Eigenschaften von Linked Data– Sehr große Wissensbasis (Milliarden von Einträgen)– Hohe Anzahl unterschiedlicher Domänen– Stark variierende Qualität– Offene, nicht-vollständige Wissensbasis

20



Ansatz und aktueller Status– Semi-automatische Annotation mittels maschineller Lernverfahren

• Benutzer erhält Vorschläge zu Annotation• Akzeptiert/verwirft VorschlägeAdaption der Disambiguierung

– Unterschiedliche Modelle pro Domäne – Automatische Konstruktion von Wissensbasen unter Verwendung

• Regelbasierter Auswahlverfahren (e.g. spezif. Schemata wie SKOS)• Statistischer Verfahren zur Identifikation von qualitative hochwertigen

Konzepten Erste Ergebnisse im Bereich Biomedizinischer Daten

21

Qualität der Wissensbasisals größtes Problem


Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format

22

Dimensionen/EntitätenMessgröße

Fakten

Wie werden Fakten repräsentiert?- Eine Beobachtung besteht aus

- Messgröße/abh. Variable: Beschreibung der Wirkung- Dimension/Stellgröße/Unabh. Variable: Beschreibung der Ursache- Fakten: Messwert der Messung

Überführung der statistischen Tabellen in ein „normalisiertes“ Format



23

Method Features Cosine JaccardANDD-Raw Unigram 0.956 0.952TFIDF Unigram 0.884 0.874Binary Unigram 0.861 0.852SpotSigs Unigram 0.953 0.952ANDD-Raw Trigram 0.936 0.91TFIDF Trigram 0.875 0.873Binary Trigram 0.869 0.867SpotSigs Trigram NA NA

Normalisierung

Beobachtungen

Schema- Name- Einheit- Ausprägung

Nominal Nominal [0;1] [0;1]

Zusätzliche Tabelle

Datensatz Method Features Cosine JaccardQuelle 1 ANDD-Raw Unigram 0.956 0.952Quelle 1 TFIDF Unigram 0.884 0.874Quelle 1 Binary Unigram 0.861 0.852Quelle 1 SpotSigs Unigram 0.953 0.952Quelle 1 ANDD-Raw Trigram 0.936 0.91Quelle 1 TFIDF Trigram 0.875 0.873Quelle 1 Binary Trigram 0.869 0.867Quelle 1 SpotSigs Trigram NA NAQuelle 2 ANDD-Raw NA 0.674 0.7Quelle 2 TFIDF NA 0.625 0.626Quelle 2 Binary NA 0.622 0.622Quelle 2 SpotSigs NA 0.257 0.258

Hinzufügen v. Tabellen in gleiche Repräsentation

Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, 2010, pp. 419–426.



RDF Data Cube Vokabular– W3C Vorschlag zur Repräsentation statistischer Daten in RDF– Definition der Struktur

• Dimensionen & Dimensions-hierarchien

• Messgrößen

– Angabe von Beobachtungen Vorteile von RDF

– Verknüpfungen zu beliebigen RDFEndpoints möglich

– Zusammenhänge zwischen Datensätzen erkennbar

– Wiederverwendbarkeit des Formats Nachteile von RDF

– Overhead bei Anfragen– Standardtechnologien sind neu zu entwickeln (z.B. Data Warehouses)

24http://www.w3.org/TR/vocab-data-cube/#ref_qb_measureType



Beisipiel

25

Datensatz Beschreibung

code:mydataset a qb:DataSet; rdfs:isDefinedBy <http://www.dummy.de/>; rdfs:label “NER Vergleiche"; qb:structure code:dsd_ner.

Datensatz Struktur

code:dsd_ner a qb:DataStructureDefinition;qb:component [ qb:dimension code:Methode];qb:component [ qb:measure code:Cosine;

qb:conept <http://dbpedia.org/page/Cosine_similarity> ];qb:component [ qb:measure code:Jaccard ];

Datenpunkte

code:obs1 a qb:Observation; code:Methode [ rdfs:label “TFIDF" ]; code:Cosine [ rdfs:label "0.625" ]; code:Jaccard [ rdfs:label "0.622" ]; qb:dataSet code:mydatase.

Linked Data



26

Semantisches Microformat zur Auszeichnung statistischer Tabellen

API für den Upload von Excel und CSV Dateien

Grafische Benutzeroberfläche zur Normalisierung von Tabellen– Selektion und Spezifikation von

Dimensionen– Selektion und Spezifikation von

Maßzahlen– Selektion und Spezifikation von

Beobachtungen


Semantische IntegrationLinked Open Data - Funktion 3: Forschungsdatenbank

27

Integration vieler unterschiedlicher Datenquellen– Publikationen– Evaluierungs- und Experimentumgebungen

• TPC-H Consortium (Internationels Datenbank Benchmarking Konsortium)

• TIRA Benchmarking Umgebung für Information Retrieval (Uni Weimar)

Bereitstellen eines SPARQL Endpoints für RDF Data Cubes– Ziel ist die Schaffung eines (verteilten) Repositories wissenschaftlicher

Primärdaten

Uni-PassauSPARQLEndpoint


(VISUELLE) ANALYSE

28


Visuelle AnalyseSuche nach Daten und Fakten (für nicht Informatiker)

Herausforderung– RDF Zugriff erfolgt meist über deklarative Abfragesprachen (SPARQL)– Keine Nutzungsmöglichkeit ohne Informatikstudium!

Zielsetzung– „Google-ähnlicher“ Zugriff auf Linked Open Data im Allgemeinen und

Cubes im Speziellen– Prototyp unter http://code.know-center.tugraz.at/search

29


Visuelle AnalyseWeb basierte, interaktive Visualisierung von RDF Cubes

Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach möglich sein– RDF-basierte Beschreibungen möglicher Visualisierungen für einen

gegebenen Datencube• Verbindet Visualisierung und RDF Data Cubes• Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen• Interaktive Analyse (Visual Analytics)

– HTML 5 als technologische Grundlage Erster Testprototyp unter http://code.know-center.tugraz.at/vis

30


KOLLABORATION & CROWDSOURCING

31


Metadaten f. Provenance/Herkunft essentiell für Qualität undVertrauen in die Daten– Woher kommen die Daten?– Von wem wurden die Daten integriert, annotiert, bearbeitet?

Teilen aggregierter Datensätze und der Annotationsmodelle– Direkte Verwendung der Ergebnisse anderer Forscher-

gruppen in der eigenen Arbeit– Verwendung von Annotationsmodellen auf eigenen Daten

Teilen der visuellen Analyse– Kollaborative Analyse der Visualisierung– Zugriff auf den Visualisierung zugrunde liegenden

Rohdaten

CrowdsourcingTeilen von Forschungsdaten

32


CrowdsourcingWarum sollten Nutzer annotieren, integrierern etc.?

Offener Marktplatzkonzept für Forschungsdaten Forschungsdaten stellen eine wertvolle Informationsquelle dar. Ähnlich

dem Open Source Model sollte diese entsprechenden Verwertungsrechten unterliegen.

Untersuchung verschiedener Modelle nach Fertigstellung der Dienste geplant

Erhöhte Möglichkeiten für Forscher und Forschungsinstitutionen 33


Zusammenfassung

34

Linked ScienceData Warehouse; Offene Standards

Extraktion Integration/Aggregation

Analyse & Organisation

Teilen & Crowdsourcin

g

Visual Analytics &Kollaborative AnalyseText,

Linked (Open) DataExperimente

Crowdsourcing & Re-Use


Find us, join us, ask us, help us

http://code-research.eu/http://www.facebook.com/CODEresearchEU

#CODEresearchEU

integrate

extract & visualise organise

crowdsource

http://www.facebook.com/CODEresearchEU





https://twitter.com/search/CODEresearchEU%20-RT

Mgrani trier-faktenextraktion

Documents

fakten web

tabellen extraktion

widersprchlichen fakten

unterkapitel extraktion

vortrags extraktion

relationen extraktion

extraktion hauptformat

data sets