Faktenextraktion aus Forschungspublikationen mittels semantischer Technologien und Crowdsourcing Erste Ergebnisse aus dem Forschungsprojekt CODE – Commercially Empowered Linked Open Data Ecosystems for Research Michael Granitzer University of Passau 1 FP 7 Strep No. 296150
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Faktenextraktion aus Forschungspublikationen mittels semantischer Technologien und Crowdsourcing
Erste Ergebnisse aus dem Forschungsprojekt CODE – Commercially Empowered Linked Open Data Ecosystems for Research
Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen unter Anwendung semantischer Technologien– Überführung unstrukturierter und semi-strukturierter
Forschungsdatenquelle in semantische Form– Publikation dieser Forschungsdatenquellen als offene Daten– Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen– Integration einer breiten Benutzerbasis zur Qualitätssicherung
(Crowdsourcing)
Fokus auf– Empirischen Beobachtungen– Linked Open Data als gemeinsame Beschreibungsprache– Informatik und Biomedizin als erster Anwendungsfall
Extraktion von Fakten aus Forschungspublikationen– Strukturanalyse von PDFs– Automatische Annotation von PDFs
Semantische Integration– Disambiguierung von extrahierter Entitäten/Fakten– Semantisches Format zur Repräsentation von Fakten– Web-basierte Zugriff mittels RDF/SPARQL
(Visuelle) Analyse– Abfrage von Fakten– Visuelle Analyse
Crowdsourcing & Teilen von Forschungsdaten– Überblick
Extraktion von Fakten aus PublikationenAnsatz zur Extraktion
Hauptformat: PDF– Optimiert für die Darstellung, jedoch schwierig zu analysieren– Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten– Metadaten Qualität in PDFs unzuverlässig– Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht.
Ansatz – Divide and Conquer– Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information– Klassifikation der Blöcke
• e.g. Title, Haupttext, Abstract, Referenzen
– Klassifikation/Extraktion der Inhalte in Blöcken• Klassifikation von Strukturen (z.B. Tabellen)• Extraktion von Namen, Entitäten, Adressen etc.
Extraktion von Fakten aus PublikationenAnsatz zur Extraktion
Klassifikation von Textblöcken
Überwachte Lernverfahren: Maximum Entropy Klassifikatoren– Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu
Blöcken– Lernen eines entsprechenden Modells und Anwendung auf
nicht klassifizierte Blöcke– Merkmale: Wortstatistiken (z.B. f. Namen), Layout,
Formatierung, Heuristiken (e.g. e-Mail)
Beispiele für Blöcke– Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten– Tabellen/Tabellenüberschriften– Abbildung/Abbildungsüberschriften
12R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012.
Extraktion von Fakten aus PublikationenAnsatz zur Extraktion
Extraktion von Entitäten innerhalb der Blöcke– Blocktyp als Selektionskriterium
(e.g. Autorblock wird weiter zerlegt)– Named Entity Recongition mittels überwachter Lernverfahren– Maximum Entropy Klassifikatoren mit Beam Search
Ermittlung der Lesereihenfolge der Blöcke– Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract– Interessant für Information Retrieval Anwendungen
Offene Punkte– Relations- bzw. Prädikatextraktion– Open Information Extraction – Lernen von Modellen ohne Vorgabe von
Trainingsdaten – Modellgenerierung durch den Benutzer/die Benutzerin– Benutzer Feedback
• Explizit: Akzeptieren oder verwerfen v. Annotationen• Implizit: Analyse der Nutzung (z.B. für Navigation)
13R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012.
Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung
Herausforderungen– Qualität abhängig von der Domäne und Größe der Wissensbasis– Abhängig vom Kontext
• Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext
• Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung– Qualität und Art der zugrunde liegenden Wissensbasis
• Entitäts-zentriert: Thesaurus, Ontologie• Dokument-zentriert: Vorkommnisse in anderen Dokumenten
Eigenschaften von Linked Data– Sehr große Wissensbasis (Milliarden von Einträgen)– Hohe Anzahl unterschiedlicher Domänen– Stark variierende Qualität– Offene, nicht-vollständige Wissensbasis
Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, 2010, pp. 419–426.
Visuelle AnalyseWeb basierte, interaktive Visualisierung von RDF Cubes
Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach möglich sein– RDF-basierte Beschreibungen möglicher Visualisierungen für einen
gegebenen Datencube• Verbindet Visualisierung und RDF Data Cubes• Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen• Interaktive Analyse (Visual Analytics)
– HTML 5 als technologische Grundlage Erster Testprototyp unter http://code.know-center.tugraz.at/vis
Metadaten f. Provenance/Herkunft essentiell für Qualität undVertrauen in die Daten– Woher kommen die Daten?– Von wem wurden die Daten integriert, annotiert, bearbeitet?
Teilen aggregierter Datensätze und der Annotationsmodelle– Direkte Verwendung der Ergebnisse anderer Forscher-
gruppen in der eigenen Arbeit– Verwendung von Annotationsmodellen auf eigenen Daten
Teilen der visuellen Analyse– Kollaborative Analyse der Visualisierung– Zugriff auf den Visualisierung zugrunde liegenden