PG 520 Intelligence Service Gezielte Suche im Internet Lehrstuhl für künstliche Intelligenz Forschung Praxis
Jan 14, 2016
PG 520Intelligence Service
Gezielte Suche im Internet
Lehrstuhl für künstliche Intelligenz
Forschung Praxis
Informationen im Internet
• Suchmaschinen:– Es werden nur Dokumente geliefert, die den
Suchbegriff enthalten. – Die Seiten sind von sehr unterschiedlicher
Qualität. – Vorwissen über zuverlässige Seiten und ihre
Struktur wird nicht ausgenutzt.
Intelligence Service
• Zusammenhänge zwischen Dokumenten:– Firmen wollen ihre Konkurrenz beobachten.– Anleger wollen eine Entwicklung verfolgen.– Bürger wollen wissen, wie es zu einer
Entscheidung in der Politik kam.
• Direkte Fragebeantwortung:– Innerhalb des Dokuments muss die betreffende
Textstelle gefunden werden! Forschungsthema Named Entity Recognition!
16.Wahlperiode, Drucksache, Antrag
Typ
Drs-Nr.
Fraktion
16.Wahlperiode, Drucksache, Antrag
Typ
Person
Drs-Nr.
16.Wahlperiode, 57. Sitzung, 19.10.2006, TOP 5
16/267
16/2790
Direkte Fragebeantwortung
• Der Antrag der FDP zur Entsorgung radioaktiven Abfalls wurde abgelehnt.
• Der Antrag der Grünen zur ergebnisoffenen Standortwahl für Endlagerung radioaktiven Mülls wurde an Ausschüsse verwiesen.
Für diese Antworten braucht man manuell 7 Stunden
PG-Arbeit
• Gezielte Recherche gemäß der Struktur bestimmter Webserver (Suchanfragen)
• Indexierung gemäß bestimmter Entitäten:Themen, Personen, Orte, Firmen...
• Named Entity Recognition:– Einige Dokumente nach Entitäten annotieren,
– maschinell Annotationsregeln lernen– Annotationsregeln anwenden
• Informationen zu den Entitäten zusammenstellen
Named Entity Recognition
• Ursprung Message Understanding Contest– Fragebeantwortung– Dann: Markierung der Entitäten
• Traditionelle NE: Personen, Orte, Firmen
• Intelligence Service: Personen, Orte, Firmen, Datum, DrucksachenNr., Fraktionen, etc.
Tom arbeitet bei Mercedes Benz
PER O O ORG ORG
Probleme
• Alle möglichen NEs in Listen zu sammeln ist keine perfekte Lösung bzw. nicht immer möglich
• Beide Arten der Evidenz beachten:– interne – Merkmale des Wortes an sich– externe – Merkmale des das Wort
umgebenden Kontextes
• Tom arbeitet bei Mercedes Benz
• intern/ extern
• Intern:– Das Wort enthält Sonderzeichen (reg. Ex.)– Das Wort ist ‘Hans’– Das Wort enthält das 3-gram ‘ans’
• Extern:– Vor dem Wort steht das Wort ‘Herr’– Das Wort steht am Satzanfang– Das Wort vor dem Wort hat die Markierung
PERSON
Beispiele für interne/externe Evidenz
NER-Verfahren
• Regelbasierte Verfahren– kontextfreie Grammatiken– endliche Automaten
• Verfahren des ML– Transformationsbasiertes Regellernen– SVM– Graphenbasiert: HMM -> MEMM -> CRF
• Bilden bestseparierende Hyperebene
• Lösen somit binäres Klassifikations-problem
• Können viele und hochdimensionale Daten verarbeiten
• Sind robust gegenüber overfitting
• Für NER ist aufgrund mehrerer NEs ein Verbund aus SVMs nötig
Support Vector Machines
• Hidden Markov Model (HMM)– Generatives (gerichtetes) Modell
Hidden Markov Models
Y1 Y2 Y3 Labelsequenz Y
X1 X2 X3 Beobachtungs-sequenz X
T
iiiii yxpyypyxp
11 )|()|(),(
)(
),(maxargˆ
xp
yxpy y
• Maximum Entropy Markov Model (MEMM)– Bedingtes (gerichtetes) Modell
– Label hängt vom Vorgänger und Beobachtung ab
Maximum Entropy Markov Models
Y1 Y2 Y3Y0
X1 X2 X3
Labelsequenz Y
Beobachtungs-sequenz X
• Conditional Random Fields (CRF)– Bedingtes ungerichtetes Modell
– Labelsequenz hängt von Beobachtungs-sequenz ab
– Beste Labelsequenz erfüllt die meisten features für Beobachtungssequenz
Conditional Random Fields
Labelsequenz Y
Beobachtungs-sequenz X
Y1 Y2 Y3
X
• YALE als grundlegende Lernumgebung
• Fast alle Lernverfahren vorhanden– u.a. auch SVM
• Problem: NER-Umgebung noch in der Entwicklung begriffen!– Ausgereift: statistische Textanalyse– Statistische Textanalyse beachtet nicht den
sequentiellen Charakter des Textes– CRF-Plugin liefert erste Grundlagen für NER
Anwendung von NER-Verfahren
• Statistische Verfahren analysieren Wortvorkommen sowie ihre Anzahl
• Text wird in ‘bag of words’ zerlegt– or; is; has; …; politician; …; nuclear; …– Dient zur Klassifikation von Texten
• NER benötigt Texte in ursprünglicher Form– mit zusätzlichen Informationen– Preprocessing liefert diese Informationen
Statistische Textanalyse vs. NER
• CRF-Plugin bietet Preprocessing mit unterschiedlichen Merkmalen– Präfix, Suffix, NGramme, Reguläre Ausdrücke, …
• Außerdem:– CRF-Model-Learner– CRF-Model-Applier
• Ziel:– modulare, allgemeinnutzbare Preprocessing-
Operatoren– Möglichkeit zur Einbindung vieler Lernverfahren– Einsatz von evolutionären Algorithmen zum Lernen
des besten Experiment-Setups für versch. NER-tasks
Aktuell in YALE vorhanden
Rahmenterminplan 1. Semester
• 1. Seminarphase 08. – 12.10.2007• Lernverfahren
– SVM– MEMM– HMM– CRF
• Methoden der Personalisierung von Suchmaschinen• Basistechniken des WWW
– Indexierung– XML (RSS)
• Werkzeuge der PG– Yale– Google API– CVS– Crawling
Rahmenterminplan 1. Semester
• Aufgaben des ersten Semesters– Wahl eines Anwendungsszenarios, Festlegen
der Fragen und der NE– Erstellung eines Anfrageplans– Erstellen der Trainingsdatensätze– Experimente mit vorhandenen NER-Verfahren– Ansätze zur Verbesserung der NER
• 2. Seminarphase 04. – 08.02.2008– Zusammentragen der Ergebnisse
Rahmenterminplan 2. Semester
• 3. Seminarphase Anfang April 2008• automatische Thesaurus-Erstellung• automatische Fragebeantwortung• Text-Clustering• Webseiten-Ranking• First-Story Detection• Topic Tracking
• u. U. noch andere Themen möglich!
Rahmenterminplan 2. Semester
• Aufgaben des zweiten Semesters– Sammeln der Daten (Anfrageplan beachten)– Konkrete Ausnutzung der NER aus erstem
Semester– Verbesserung der NER (?)
• Ende des zweiten Semesters:– PG Abschlussbericht und -präsentation