Top Banner
Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem
23

Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

Apr 05, 2015

Download

Documents

Alke Blohm
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

InformationsekstraktionWettbewerbe und Kongresse

Daniel Liem

Page 2: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

TIPSTER

● 1991 ins Leben gerufen durch DARPA● von unter anderem DoD, NIST, CIA und

SPARWAR gesponsort ● Ziel: die Entwicklung eines effizienteren und

effektiveren Verfahrens zur Verarbeitung von Informationen in textueller Form

● 1998 wegen mangelder Finanzierung eingestellt

Page 3: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

TIPSTER(2)

● die drei Schwerpunkte der Untersuchungen● Dokument Detection● Information Extraction● Summarization

Page 4: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

Phase 1 des TIPSTER

● Algorithmenentwicklung für Dokumenten- detektion und Informationsekstraktion

● Entwicklung von Bewertungs- bzw. Messungsverfahren

● Ergebnisse: – Dokumentendetektion: von 30% zu 75%– Informationsextraktion:

● Recall: von 49% zu 65%● Precission: von 55% zu 59%

Page 5: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

Phase 2 des TIPSTER

● Software Architektur Entwicklung: – Standardisierung von technischen Komponenten– “plug and play” von unterschiedlichen Werkzeugen

ermöglichen– das Software-sharing vorantreiben

● MET (Multilingual Entity Task) – und die dazu gehörigen Werkzeuge

Page 6: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

Phase 3 des TIPSTER

● Weiterentwicklung in Grundlagenforschung der Textverarbeitung– Detektion: Suchalgorithmus, Ergebnisfusion

verschiedener Maschine– Extraktion: Abstimmung für neue Domain, erhöhte

Treffsicherheit– Summarizing: Textzusammenfassung

Page 7: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

Phase3 des TIPSTER(2)

● Mehrsprachigkeit: Portabilität von Werkzeugen und Techniken in eine andere Sprache

● Technische Schnittstelle: gemeinsame Informationsnutzung von Dokumentenfindung und Extraktion

Page 8: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

TREC(Text Retrieval Conference)

● Von ARPA initiiert und von NIST organisiert ● Ziel: Evaluation von Text Retrieval Systemen

und Benutzer● Evaluation durch sogenanntes “Cranfield

Paradigm”● Teilung in Arbeitsbereiche (“Tracks”)

Page 9: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

TREC(2)

Tracks :– Cross-Language Track– Filtering Track– Genome Track (neu)– HARD Track– Novelty Track

...

Page 10: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

MUC (Message Understanding Conference)

● Ziel: Förderung und Abdeckung der Forschung in automatische Analyse der militärischen Nachrichten mit Informationsinhalt in Form von Texten

● von NOSC initiiert, von NRAD, RDT&E .... gesponsort

● 1998 (MUC 7) eingestellt

Page 11: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

MUC – Historische Entwicklung

● 1987: MUC 1 – Erkundungsphase– Kein gemeinsames Ergebnisformat– Selbstbewertung

● 1989: MUC 2– Einführung von Templates als Ergebnisformat (10

Slots)– Auseindersetzung mit den Bewertungskriterien (recall

and precision)– Aufgabe: Militärische Meldungen

Page 12: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

MUC – Historische Entwicklung (2)

● 1991: MUC 3 – Aufgabenbereich : terroristische Ereignisse – 18 slots

● 1992: MUC 4– 24 slots

Page 13: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

MUC – Historische Entwicklung

● 1993: MUC 5 – Teil des TIPSTER Projekts der Regierung– zwei Tasks: (International Joint Venture und Electonic

Circuit Fabrication) – Multilingualität– Komplexität: (für Joint Venture Task) 11 Templates

und 47 Slots– Einführung von verschachtelten Templates

(hierarchisch)– Ergebnisse: 57% Recall und 64%Precision, 73%

Recall und 74% in den vier “core tasks”

Page 14: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

MUC 6

● Ziel: – aufgabenunabhängige technische Komponenten der

IE, die bald ausgenutzt werden können– Portabilität der IE Systeme– Einarbeitung in das “tiefere Verständnis” der Systeme

Page 15: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

MUC 6(2)

● Aufgabenbereich :– Kurzfristige Aufgabe: praktische Komponenten zu

erkennen; named entity tasks (ENAMEX und NUMEX)

– Portabilität; Einfachere Templates

Page 16: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

MUC 6 (3)

● Verständnis auf Basis Technologien; SemEval:– Coreference– Word sense disambiguation– Predicate-argument structure

Page 17: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

MUC 7

● Systeme (von IE Task):– American University in Cairo's System– SIFT System (BBN)– Lockheed Martin's NLToolset (AATM7)– Proteus/PET System (NYU)– IE2 System (SRA)– TASC System

Page 18: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

senseval

● Ziel : Evaluation von WSD EntscheidungsProgramme (bzgl. unterschiedliche Wörter, Sprachdialekten und unterschiedliche Sprache)

● Sponsoren : ACL-SIGLEX, EURALEX, ELSNET und EU Projekten ECRAN und SPARKLE

Page 19: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

senseval (historisch)

– SIGLEX-97: “Tagging Text with Lexical Semantics”– SIGLEX-99: “Standardising Lexical Resources” – senseval – 1– senseval – 2– ACL-02 Workshop

Page 20: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

ACE(Automatic Content Extraction)

● Ziel: Entwicklung von ACE Systeme zur Unterstützung der automatischen Verarbeitung der natürlichen Sprache in textuellem Format

● ACE Systeme: Detektion und Charakterisierung von Entitäten, Relation und Ereignisse

● Drei Eingaben: – newswire– broadcast news– newspaper

Page 21: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

ACE

Teilnehmer:● BBN● MITRE● LDC ● NIST ● NYU ● SRI

Page 22: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

Phasen der ACE

● Phase 1 (99-00): Entity Detection and Tracking

● Phase 2 (01-02): Entity Detection and Tracking + RDC (Relationen)

● evtl. Einstellung wegen mangelnder Finanzierung

Page 23: Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

Quelle

● http://trec.nist.gov● http://www.itl.nist.gov/iad/894.02/

related_projects/muc/proceedings/muc_7_toc.html

● http://www.itl.nist.gov/iaui/894.02/related_projects/tipster/

● http://www.senseval.org/● http://www.itl.nist.gov/iad/894.01/tests/ace/