Top Banner
Reconnaissance d’entités nommées et application sur les données de la { BnF Alaa ABI HAIDAR, PhD
14

Presentation of Alaa Abi Haidar at the BnF Information Day

Jul 10, 2015

Download

Education

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Presentation of Alaa Abi Haidar at the BnF Information Day

Reconnaissance d’entités nommées

et application sur les données de la { BnF

Alaa ABI HAIDAR, PhD

Page 2: Presentation of Alaa Abi Haidar at the BnF Information Day

Aperçu de l'exposé

• Introduction: reconnaissance d’entités nommées (NER)

– Définition et motivation

• exemple: BnF et Europeana

• exemples: paternaires LiP6

– Solution(s) et problématique(s)

• Méthode UNERD

– Vue d’ensemble

– Désambiguïsassion contextuelle

– Résultats

• Applications et outils

– Nuage des mots à la Figaro

– Fleuve de la première guerre mondiale

– Soulignement automatique

– Outil d’annotation

• Mes recherches actuelles et futures

Page 3: Presentation of Alaa Abi Haidar at the BnF Information Day

Reconnaissance d'entités nommées (1)

Définition:

L'étiquetage automatique des mots qui correspondent à des

concepts comme PERSONNE, LIEU et ORGANISATION

Motivation:

Indexation, résumé, classification thématique, analyse de

flux d’information, visualisation, enrichissement de la

lecture numérique ...

Page 4: Presentation of Alaa Abi Haidar at the BnF Information Day

Exemple: BnF et Europeana Newspaper

Le Petit Parisien journal (1863-1944

) Fromat ALTO en open XML Standard OCR text en iso-8859-1

<String ID="PAG_1_ST000001"

STYLEREFS="TXT_1" HPOS="132" VPOS="305"

HEIGHT="20" WIDTH="125" WC="0.99"

CONTENT="REGION"/><SP ID="PAG_1_SP000001"

HPOS="257" VPOS="304" WIDTH="20"/><String

ID="PAG_1_ST000002" STYLEREFS="TXT_1"

HPOS="277" VPOS="304" WIDTH="222"

HEIGHT="21" WC="0.98"

CONTENT="PABISIENNE."/><SP

ID="PAG_1_SP000002" HPOS="499" VPOS="304"

WIDTH="40"/><String ID="PAG_1_ST000003"

STYLEREFS="TXT_1" HPOS="558" VPOS="304"

HEIGHT="20" WIDTH="40" WC="0.99"

CONTENT="Un"/><SP ID="PAG_1_SP000003"

HPOS="598" VPOS="303" WIDTH="18"/><String

ID="PAG_1_ST000004" STYLEREFS="TXT_1"

HPOS="616" VPOS="303" HEIGHT="23"

WIDTH="83" WC="0.99" CONTENT="temps"/><SP

ID="PAG_1_SP000004" HPOS="699" VPOS="301"

WIDTH="19"/><String ID="PAG_1_ST000005"

STYLEREFS="TXT_1" HPOS="718" VPOS="301"

HEIGHT="21" WIDTH="32" WC="0.99"

CONTENT="de"/></TextLine><TextLine

ID="PAG_1_TL000002" STYLEREFS="TXT_1"

HPOS="66" VPOS="331" HEIGHT="27"

WIDTH="682"><String ID="PAG_1_ST000006"

STYLEREFS="TXT_1" HPOS="98" VPOS="332"

WIDTH="156" HEIGHT="26" WC="0.98"

CONTENT="Toussaint,"/><SP

ID="PAG_1_SP000005" HPOS="252" VPOS="333"

WIDTH="22"/><String ID="PAG_1_ST000007"

STYLEREFS="TXT_1" HPOS="274" VPOS="333"

HEIGHT="23" WIDTH="145" WC="0.99"

CONTENT="maussade,"/><SP

ID="PAG_1_SP000006" HPOS="419" VPOS="332"

WIDTH="23"/><String ID="PAG_1_ST000008"

STYLEREFS="TXT_1" HPOS="442" VPOS="332"

HEIGHT="20" WIDTH="103" WC="0.99"

CONTENT="humide"/>

Page 5: Presentation of Alaa Abi Haidar at the BnF Information Day

Exemple: Autres Partenaires

Partenaires:

LOCUPLETO, JOUVES,

SEJER, Labex OBVIL, Paris

Sorbonne, Pitié Salpetriere

I2D3, iManga, ACTIALUNA,

CELSA Sorbonne

Exemple: Labex OBVIL

identification d’auteur,

études stylistiques,

comparaison littéraire

Exemple: iManga

recommandation de

bibliothécaire et livre

Exemple: Rome et l’empire romain: Edition Nathan

Fromat EPUB et XML

Standard OCR text en iso-8859-1

Exemple: modélisation des systèmes

immunitaires

identification des taux de prolifération, division et la

mortalité des cellules a partir des milliers des textes

Page 6: Presentation of Alaa Abi Haidar at the BnF Information Day

Reconnaissance d’entités nommées (2)

Solutions:

• Supervisées

• Non-supervisées

• Semi-supervisées

Problématiques non-supervisées:

• Ambiguïté: Paris LIEU, ORG ou PERSONNE?

• Limitation: Phénicie n’est pas dans le dictionnaire

• Bruit: 20BE2T et d’autres erreurs d’OCRisation

• Limite des mots: Fondation Fontaine de Charles de Gaule

Problématiques supervisées:

● Manque de données d’apprentissage et de

ressources humaines

● Spécificité des modules d’apprentissage

Page 7: Presentation of Alaa Abi Haidar at the BnF Information Day

Méthode UNERD (vue d’ensemble de la démarche scientifique)

Unsupervised Named Entity Recognition & Disambiguation

<String ID="PAG_1_ST000001"

STYLEREFS="TXT_1" HPOS="132"

VPOS="305" HEIGHT="20"

WIDTH="125" WC="0.99"

CONTENT="REGION"/><SP

ID="PAG_1_SP000001"

HPOS="257" VPOS="304"

WIDTH="20"/><String

ID="PAG_1_ST000002"

STYLEREFS="TXT_1" HPOS="277"

VPOS="304" WIDTH="222"

HEIGHT="21" WC="0.98"

CONTENT="PABISIENNE."/><SP

ID="PAG_1_SP000002"

HPOS="499" VPOS="304"

WIDTH="40"/><String

OCRisation

Étiquetage

SyntaxiqueRecherche dans

les dictionnaires Apprentissage

machine sur les

entités sures

Désambiguïsas

sion et

reconnaissance

- ---

- -

- --- - ---

- ---- -- - -

Parametrisation

et optimisationPrédiction

comparaison a

d’autres méthodes

Application

Outil

d’annotation

Apprentissage

Supervisé

Annotation Manuelle

Comparaison avec

l’annotation

manuelle

Page 8: Presentation of Alaa Abi Haidar at the BnF Information Day

Méthode UNERD Méthode d’apprentissage et de désambiguïsassion

Phase

d’apprentissag

e

Phase de

classification ou

de prédiction

Page 9: Presentation of Alaa Abi Haidar at the BnF Information Day

● (S1) dictionnaire de Aleda uniquement

● (S2) utilise 75% de Manually Annotated Data (MAD) pour entrainer la

classification CRF avec l’outil de stanford et le reste pour valider

● (S3) come S2 mais avec l’aide du dictionnaire Aleda augmente les donnees

d’annotation pour l’apprentissage.

● (S4) comme S3, mais avec desambig. du UNERD avant l’entrainement

● (UNERD) Finallement notre mehode non-supervisee UNERD

Résultats UNERD Comparaison avec la méthode supervisée de stanford sur textes de BnF

Comparaison avec les méthodes non-supervisée sur textes anglais CoNLL

Sum with BDpedia + YAGO2

0.6471

AdaBoost with BDpedia + YAGO2

0.614

DBpedia SpotLight* 0.419

BaLIE** 0.559

Page 10: Presentation of Alaa Abi Haidar at the BnF Information Day

Application:

Nuage des mots à la Figaro

PE

R

LO

C

OR

G

Page 11: Presentation of Alaa Abi Haidar at the BnF Information Day

Application [DÉMO]: Fleuve d’entités nommées

pendant la première guerre mondiale

Page 12: Presentation of Alaa Abi Haidar at the BnF Information Day

Application [DÉMO]:

Soulignement automatique d’entités nommées

Page 13: Presentation of Alaa Abi Haidar at the BnF Information Day

Outil d’annotation [DÉMO]:

Page 14: Presentation of Alaa Abi Haidar at the BnF Information Day

Mes recherches actuelles et futures

Outil d’annotation

+ Transcodage

Validation des méthodes:

● UNERD++

● Stanford CRF

● Clemens CRF

Semi-annotation

UNERD de 120

pages

Annotation

automatique

500M+

Applications

Visualisations

Maintenance

mois 1

mois 2 mois 3

mois 4correction

Merci

27 November

1 October

31 January

[email protected]