Top Banner
Generación de Resúmen automático de textos Workshop UPAO 2008 Juan-Manuel Torres [email protected]
116

Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

Aug 21, 2018

Download

Documents

ngothuy
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

Generación de Resúmen automático de textos

Workshop UPAO 2008

Juan-Manuel [email protected]

Page 2: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 2

Plan• Introduccion

– Definitiones y resumen humano– Estructura de los resumenes

• Técnicas– Linguisticas– Extraccion vs abstraccion

• Resumen por extraccion– Procesamiento de Lenguaje Natural

• Sistema Cortex– Algoritmo– Pruebas– Nuevas tendencias

Page 3: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 3

Un excitante desafío...Baje 1000 documentos del web, envielos al sistema

de resumen y elija los mejores leyendo losresumenes ordenados por pertinencia...

Page 4: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 4

Page 5: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 5

Titulos – Noticias – Flujo RSS

Page 6: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 6

Busqueda de informacion

Page 7: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 7

Articulos cientificos,Reportes…

Page 8: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 8

www.pertinence.com

www.copernic.com

MEADtangra.si.umich.edu/clair/md/demo.cgi

Page 9: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 9

LIA YACHS Resumenes de Quimica Organicahttp://daniel.iut.univ-metz.fr/yachs

Page 10: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 10

Mapas graficos — orientacion

Page 11: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 11

GUIAS Cine / télé… — decisiones

Page 12: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 12

El GRAN problema…

8 168 684 336

Page 13: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 13

¿Qué es un resúmen ?

« Transformación reducida de un texto fuente hacia un resumen por compresión delcontenido por medio de una selección y/ogeneralización de lo que es importante en eltexto fuente »

Karen Sparck Jones

• Representación abreviada y precisadel contenido de un documento

Page 14: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 14

Preguntas

• ¿ Qué tipo de resúmen buscan las personas ?

• ¿ Cuál debe ser el grado de sofisticación delos sistemas de resúmen ? – ¿ Los métodos estadísticos son suficientes ?– ¿ Necesidad de métodos simbólicos profundos para

“comprender” ?

• ¿ Cómo medir la calidad de un resúmen ?

Page 15: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 15

Características del resúmen

• Indicativo / Informativo– Indicativo : indica la naturaleza del texto– Informativo : Intenta substituir al texto

• Extracto o Resumen– Extracto : frases extraidos del texto– Resúmen : reformula, comprime el texto

• Tamaño– Tasa de compresión = |Resumen| / |Texto|

Page 16: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 16

¿ Cómo hacen los humanos para producir resumenes… ?

Page 17: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 17

¿ Quién hace resumenes ?

• Autor

• Experto– Actualizado en el dominio de los documentos a

analizar

• Profesional en resumenes– Analiza los documentos y la redacción de los

resumenes– Experto en esta disciplina

– Normas de producción de resumenes

Page 18: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 18

Resúmen profesional

Page 19: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 19

Operaciones de edición utilizadas• Revisión local : contenido en una frase

• Revisión global : contenido a través de las frases

Cremmins’82-’96: operaciones de edición

drop vague or

redundant terms

reference

adjustment

wording

prescriptions

contextual

lexical choice

Page 20: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 20

Tiempo de generación del resúmen

Cremmins recomienda entre 12-20 minpara resumir un artículo científico típico…

¡Un tiempo mucho menor del necesario para realmente comprenderlo !

Cremmins recomienda entre 12-20 minpara resumir un artículo científico típico…

¡Un tiempo mucho menor del necesario para realmente comprenderlo !

Page 21: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 21

Endres-Niggemeyer et al. (1995, 1998)

• Los resumidores no leen jamás el documento completo

• Estructura del documento– Formato– Disposición– Esquemas

• Nivel de discurso : de qué habla el documento �

Page 22: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 22

Resumidores profesionales• Producen buenos resumenes (savoir-faire) �• Indicaciones de agencias • Normas internacionales• Selección de la información

– Títulos/Encabezados/Leyendas– Introducción/Conclusión– Objetivo, metodología, resultados– …

• Redacción del resumen– Re-utilización de frases– Transformacion y aplicación de patrones de redacción

Page 23: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 23

Transformaciones

• Re-expresión de conceptos• Eliminación

– Estructuras– Frases– Texto entre paréntesis

• Expansión de abreviaturas• Abreviaturas• Pegar, Separar

• Ninguna

Page 24: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 24

Observaciones

• 70% de las frases son copiadas literalmente(Lin & Hovy 2003) �

• ¿ La gente sabe escribir correctamente ysintetizar ideas ?

• Los resúmenes del autor ¿ son pertinentes ?

• Los resúmenes profesionales ¿ son realmentepertinentes ?

Page 25: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 25

¿ Cómo hacen los sistemas automáticos para producir

resumenes… ?

Page 26: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 26

Esquema basico

Intitulado

Page 27: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 27

El método del buen alumno

• Necesita conocimientos del dominio (tematica)• Necesita conocimientos de la lenguaen la cual se genera el resumen…

Page 28: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 28

Resúmen por comprension : FRUMP

a small eartquake shook several Southern Illinois

counties Monday night, the National Earthquake

Information Service in Golden, Colo., reported.

Spokesman Don Finley said the quake measured 3.2 on

the Richter scale, “probably not enough to do any

damage or cause any injuries.” The quake occurred

iabout 7:48 p.m. CST and was centered about 30 miles

east of Mount Vernon, Finlay said. It was felt in

Richland, Clay, Jasper, Effington, and Marion

Counties.

There was an earthquake in Illinois

with a 3.2 richter scale. (RESUME)�

Page 29: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 29

FRUMP

• Estructura de base : sketchy-scripts

adaptación de scripts de Shank & Abelson(1977) �

• Scripts contienen información importante de un evento

• 50 sketchy-scripts producidos manualmente Interpretación de un texto : lectura rapida(skimming) �

Page 30: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

FRUMP : los contras …

- 50 scripts son muy pocos para interpretar el mundo

- Conocimientos codificados manualmente

- ¿ Cómo aprender scripts de nuevos temas ?

Ciudad del Vaticano. La noticia de la muertedel Papa sacude el mundo. Murió el martes pasado de forma misteriosa… (TEXTO) �

Sismo en el Vaticano : un muerto. (RESUMEN) �

Page 31: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 31

El método del alumno flojo

Identificar frases importantes:• Por su posicion• Por su frecuencia de palabras• Por sus conectores retoricos• Por su similitud con otras frases• …

Page 32: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 32

Resúmen por extracción defrases

+ Simple a programar+ Robusto+ Rápido

- ¿ Cómo descubrir qué tipo de información lingüistica/semántica es relevante para elcontenido ?

- ¿ Coherencia ?- ¿ Cohesión ?

Page 33: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 33

Enfoque de la RI (Luhn’58-59) �

• Extracto = frases significativas

• Una frase significativa contiene palabras significativas (palabras-claves) �

• Palabras significativas entre A y B

Frecuenciade palabras

Expresividad delas palabras

(Luhn, 59) �

A B

Page 34: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 34

Tabla de frecuenciastheater 3.0 4.0

pretenderlo 1.0 1.0

codazzi 2.0 4.0

preteto 1.0 1.0

tierreno 1.0 1.0

azliun 1.0 1.0

cviles 1.0 1.0

contemporaneas 1.0 1.0

prosirio 9.0 9.0

política 1.0 1.0

civiltá 1.0 1.0

linfoma 3.0 4.0

...

el 52447 533557

No. DE FRASES = 60644idf (el) = log(60644/52447) = 0.063idf (prosirio) = log(60644/9) = 3.82

Page 35: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 35

Problemas : cohesión• Extractos de frase por frase pueden ser

incoherentes y difíciles a leer

– Solución: adicionar frases necesarias para producir un pasaje adecuado

• ¿ existen partes sobre-representadas ?• ¿ hay partes que se olvidaron ?

Me gustan losmangos.

Pero están muy verdes.

Anáfora Conector Anáfora

Page 36: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 36

Problemas : cohesión

La cadena de supermercados Metro anunció que los negocios van muy bien. El mes pasado las ventas aumentaron 10% y se estudia la creacion de nuevos puestos. Por otro lado, la compania de supermercados Carrefour anuncióperdidas de 30% al ultimo trimestre. El directorio se reunio hoy para decidir la posibilidad de reducir su personal.(CORPUS) �� ��

La cadena de supermercados Metro anunció que los negocios van muy bien. El directorio se reunio hoy para decidir la posibilidad de reducir su personal.

(EXTRACT) �� ��

Page 37: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 37

Page 38: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 38

Evaluacion

Page 39: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

ROUGE(Lin, ROUGE DUC-NIST, 2004)�

Resumeneshumanos

Resumenautomático

Referencias

Intersecciónde palabras

ROUGE-2 : Interseccion de bigramasROUGE-SU4 : Interseccion de bigramas separados por un hueco de hasta 4 palabras

ROUGE-2 : Universidad Privada, Privada Antenor,Antenor Orrego

ROUGE-SU4 : Universidad Privada, Universidad Antenor, Universidad Orrego, Privada Antenor, Privada Orrego, Antenor Orrego

Universidad Privada Antenor Orrego

Page 40: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 40

Y ahora, un sistema real...

Page 41: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 41

CORTEX es Otro Resumidor deTEXtos

Juan-Manuel [email protected]

LIA/Université d’Avignon

Page 42: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 42

Sistema CORTEXTres niveles : (Torres, Meunier, Velazquez, 2002-2004)�

1. Módulos de transformación : Segmentacion, Filtrado,lematización, sinónimos, anáforas, ...

2. Módulos de extracción : Métricas, algoritmo de

decisión, resumen personalizado …

3. Módulos de generación de resumenes: Identificaciónde conceptos, generación por templates, …

Page 43: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 43

Funciones detransformación

Funciones deextracción

Una cadena de funciones

LATAO : Lecture et Analyse de Textes Assistés par Ordinateur (Lectura yAnalisis de Textos Asistido por Computadora) �

Page 44: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 44

Unidades de información« La plumme de ma tante »

{la_, a_p, _pl, plu, lum, umm, mme, me_, e_d,

_de ,de_, e_m, ma_, a_t, _ta, tan, ant, nte}

3-gramas3-gramas PalabrasPalabras

{la, plumme, de, ma, tante}

Page 45: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 45

Unidades de segmentaciónFrases

Párrafos

Páginas

Segmentos de longitud fija

Page 46: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 46

La vectorización de untexto (1)�

UNIFS(Terminos) Unidades de

informacion :

Palabras, N-gramas

SEGMENTOSPáginas, frases

Page 47: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 47

La vectorización de untexto (2)�

UNIFS(Palabras) �

SEGMENTOS

MATRIZ Término-Segmento

1 2 3 ... N-1 N

1

2

3 ...

i

j

P

Page 48: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 48

MATRIZ Término-Segmento

1

1 2 3 ... N-1 N

1

2

3 ...

1 1

1 1

1

1 1

1

1 1

i

j

P

0

0

0

0 0

00

0 0 0 0

0

0

0

0

0

0 0

0SEGMENTOS

UNIFS(Palabras) �

La vectorización de untexto (3)�

Page 49: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 49

MATRZ Término-Segmento

tf

1 2 3 .... N-1 N

1

2

3 ....

tf tf

tf tf

tf

tf tf

tf

tf tf

i

j

P

0

0

0

0 0

00

0 0 0 0

0

0

0

0

0

0 0

0SEGMENTOS

UNIFS(Palabras) �

La vectorización de untexto (4)�

Page 50: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 50

Matrices término-segmentoFrecuencia γγγγ

Binaria ξξξξ

Page 51: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 51

« Huella digital » de un texto

• ¿ Cómo utilizar la información que contienen las matrices del texto?

• ¿ Se pueden visualizar las características propias de un texto ?

Page 52: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 52

0 20 40 60 80 100 120 140

0

500

1000

1500

2000

2500

3000 Mots

Discours de la Méthode139 Segments 2922 Termes

Ter

mes

Segment

presencia de la palabra

i en la frase j

Matriz Termino-Segmento

Page 53: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 53

0 100 200 300 400 500 6000,0

0,2

0,4

0,6

0,8

1,0

Descartes Coran INRA

Ter

me

(nor

mal

isé)

Segment

¿ Identificación de estilos ?

Riqueza

del léxico

Page 54: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 54

Modelo vectorialTérmino 1

Término 2

Término N

Frase 1

Frase 2

Frase P Frase 3

Page 55: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 55

Modelo vectorialTérmino 1

Término 2

Término N

Frase 1

Frase 2

α

Frase P Frase 3

Page 56: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 56

Ejemplo

• Texto « Puces»– Invasión de “puces” (pulgas) y de “poux”

(piojos) : Puces Bio

• Pequeño comunicado en Internet

Page 57: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 57

Resumen autor

Corpus del texto

Page 58: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 58

El regimiento de la compania IV de la escuelade infanteria y de transmision 213 de Avenches, fue invadido por pulgas y piojos. Unaseccion de higiene de la escuela del hospital 268 de Moudon, va a désinfectar los cuarteles

El regimiento de la compania IV de la escuelade infanteria y de transmision 213 de Avenches, fue invadido por pulgas y piojos. Unaseccion de higiene de la escuela del hospital 268 de Moudon, va a désinfectar los cuarteles

Resumen autor

Resumen autor

Resumen Cortex

Resumen Cortex

Page 59: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 59

Pre -procesamientoPre -procesamiento

Texte

original

Textos

P

N

MétricasMétricas

ADAD

Resumen

Post-procesadoPost-procesado

Segmentación

Limpieza

Filtrado

Lematizacion

Conden-

sation

Conden-

sado

CORTEX: una maquina de resumenes

Matrices Término-segmento

γγγγ y ξξξξ

Page 60: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 60

Cortex : Otro Resumidor deTEXtos

Pré-traitement

Segmentation

Filtrage

Normalisation

Racinisation

Vectorisation

Métriques

Entropie

Fréquentielles

Position

Hamming

Interaction

. . .

Algorithmede décision

Texte

Concaténation dephrases selon la

compression voulue

Liste triée dephrases

pertinentes

Résumé

Texte

Page 61: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 61

CORTEXCORTEX

Multilengua

Français

English

Español

Cortex : tecnologia

LidentLident

Deutsh

Page 62: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 62

Pre-tratamientoPre-tratamiento

Texte

original

MétricasMétricas

ADAD

Generador

superficieGenerador

superficie

Cortex : tecnología

XML

texto

XML

HTML

texto

crunch numberparalelismoregexp

regexp

Page 63: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 63

Pre-procesamiento �� ��

• Segmentación• Filtrado• Lematización• Generación de matrices

Medio simple de acercarse a lasemántica

Page 64: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 64

Segmentación

– Por frases

– Marcadores . : ? !

– Por párrafos• n frases

• Identificación del párrafo

Page 65: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 65

Filtrado

• Texto entre paréntesis ( bla blabla bla, bla ) �

• Números / cifras

• Palabras funcionales– Artículos, conjunciones, pronombres...

• Verbos funcionales– SER, ESTAR TENER, DEBER,…

• Expresiones– Es decir, entonces, a lo mejor, ...

Page 66: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 66

Filtrar palabras funcionales

Palabras muertas del vocabulario• ¿Cuáles ?

– Palabras muy frecuentes (artículos, coordinación, pronombres…) : de, la, l’, le, à, les, et, des, d’, en, un , du, une, …

• ¿ Las palabras-funcionales son realmente inútiles ?– Utiles : clasificar textos– Utiles : reconocimiento de la palabra– Inútiles : indexación de documentos– Inútiles : resumen por extracción

Page 67: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 67

Lematizacion

• Cantar, cantemos, canten, cantaban, cantantes, cantó, cantarian, cantador, cancion, cancionero,…

⇒⇒⇒⇒ CANTAR

• Reducir el espacio vectorial

• Diccionarios~ 200 000 formas en francés~ 500 000 formas en español�

Page 68: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

Juan-Manuel Torres / LIA

Las casas azules de mis tias.

Una de mis tias se llama Lulu.

Me gusta mucho su casa.

El azul es mi color !

Yo tengo unos zapatos azules nuevos.

zapa

to

casa

azul

tia

llam

ar

lulu

gust

ar

nuev

o

TF TF TF 0 0 0 0 0 0

0 0 TF TF TF 0 0 0 0

TF 0 0 0 0 TF 0 0 0

0 TF 0 0 0 0 0 0 TF

0 TF 0 0 0 0 TF TF 0

colo

r

Modelo vectorial (bag-of-words)Palabras filtradas, normalizadasy lematizadas

Vectorizacion

Page 69: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 69

Métricas• Frecuenciales

– Frecuencia– Probabilidades– TF*IDF

• Informacionales– Entropía– Interacción

• Hamming– Peso, longitud, distancia

• Títulos– Títulos, sub-títulos…

• Posición• Otras

Page 70: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 70

FrecuenciaFrecuencia

SI - NO para escoger un segmento µµµµ,con una probabilidad p

SI - NO para escoger un segmento µµµµ,con una probabilidad p

EntropíaEntropía

Distancia de

HammingDistancia de

HammingPeso de

HammingPeso de

Hamming…

Algoritmo de decisión

basado en el votoAlgoritmo de decisión

basado en el voto

1

Nµ µ

ii

F f=

=∑ 2

1

logN

i

µE

µ µx xi i=

= −∑=+1i

iH1;

0;

jsi

si no

µ µιξ ξ=

1

( 0)N

i

i

µ µφ ξ=

= ≠∑

CORTEX : estructura

Page 71: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 71

Ejemplo

2101µ=3

01101µ=2

0011µ=1

i=4i=3i=2i=1

PalabrasF

rase

s

Matriz

frecuencias

1101µ=3

0111µ=2

0011µ=1

i=4i=3i=2i=1

Matriz

binaria

a b c d a b c d

Page 72: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 72

Matrices huecas

BIBLE.TXT : 99.27% está vacío (CORAN tambien!)

• 801920 palabras en total / 50019 frases

• 8195 palabras diferentes / 49993 frases

• 5777 palabras (f >2) / 45250 frases

• Tiempos en G5 Mac OSX– Segmentación en 8 segundos

– Resumen en 5 minutos

Page 73: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 73

Matrices huecas

P líneas

N columnas

k elementos ≠ 0

P líneas

Page 74: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 74

Frecuencia de las palabras

• Palabras pertinentes de la frase• Más palabras importantes tiene la frase →

más posibilidades de retenerla• Más larga es la frase → más palabras

pertinentes → más posibilidades de retenerla

• Resumenes constituidos generalmente de frases largas

Page 75: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 75

Cálculo de la Frecuencia F

211µ=3

1101µ=2

11µ=1

i=4i=3i=2i=1

Palabras

Fra

ses

4

12

2

F

Σ = T = 182/182/1811/183/18p

Page 76: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 76

Interacción de frases I

• Cortex es un sistema que crea redes depalabras

– Palabras de la misma familia

– Presencia de estas palabras en otras frases del texto

Page 77: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 77

Frase 2

Frase 3

Enlace de

palabra

Enlace entre

frases

Frase 1

Page 78: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 78

Cálculo de Interacciones

111µ=3

111µ=2

11µ=1

i=4i=3i=2i=1

Palabras

Fra

ses

3

4

3

Interacc.

Iµ = I 1 + I 2 + I 3 = 2 + 1 + 1 = 4

Page 79: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 79

Frecuencias y rareza

• La frase X contiene la misma palabra 10 veces

• Esa palabra no está en ninguna otra frase• La frase X puede ser seleccionada por su

alta frecuencia (F = 10 )• Esto es grave: esta palabra podria no ser

importante

Page 80: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 80

Frecuencias y rareza

• Sea otra palabra que aparece solo 1 vez en la frase X, pero que está en otras frases (una vezen cada frase)

• Ademas esta palabra se encuentra en el título (tema principal)

• Consecuencia : la métrica F escogerá la frase X en lugar de otras frases que contienen por lo menos una palabra del título

Page 81: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 81

Frecuencias y rareza

Tener una frecuencia F=10 es positivo, pero¿ realmente la frase X merece tener una alta ponderaciόn ?

¿ Qué hacer ?• Re-ponderar la frecuencia de las palabras

por su rareza

Page 82: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 82

Calculo Frecuencia x rareza

Rareza palabra 1 = 3; Rareza palabra 2 = 1;

Rareza palabra 3 =1; Rareza palabra 4=1

115µ=3

101µ=2

1µ=1

i=4i=3i=2i=1

Fra

ses

5x3 + 1x1 + 1x1 = 17

1x3 + 10x1 = 13

1 x 3 = 3

F x Rareza

3 1 1 1

5 + 1 + 1 = 7

1 + 10 = 11

1

F

Rareza

Page 83: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 83

Entropía

• Entropía : medida que depende de la probabilidad pi de una palabra

• Derivada de la teoría de la información

• Entre mas elevada sea pi de las palabras seran mas favorizadas las frases que las contienen

Page 84: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 84

111µ=3

111µ=2

11µ=1

i=4i=3i=2i=1

Palabras

Fra

ses

E = - [ p(1) log p(1) + p(2) log p(2) + p(3) log p(3) ]

= 0.129 + 0.30 + 0.244 = 0.67

0.67

F

2/182/1811/183/18p

Cálculo de Entropía

Page 85: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 85

Matriz de Hamming ΗΗΗΗ

Un autor varia el vocabulario: utiliza sinónimos

Idea : Bonificar la frase donde solo una de 2 palabras está presente

La matriz de Hamming trata de evaluar hasta quépunto 2 palabras son utilizadas individualmente: – Localizar los sinónimos pertinentes

Page 86: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 86

Cálculo : Matriz de Hamming

1

1Xi=3

32Xi=2

21Xi=1

i=4i=3i=2i=1

Palabras

Palab

ras

ΗPalabra 3 = 0 1 1

Palabra 2 = 1 1 0H(2,3) = 2

11013

01112

00111

4i=3i=21

H

Page 87: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 87

Título

• Los textos tienen un título

• Bonificar frases que hablen del tema en el título

• Comparar palabra a palabra frase y título

• Producto escalar: la frase y el título son vectores de dimension N

( )

><=

Titre

Titre, cos

γ

γα

( ))cos( arccos αµ =Θ

Page 88: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 88

Título : calculo de angulosPalabra 1

Palabra 2

Palabra N

Frase 1

Titulo

αααα

Frase 2

ββββ

α < βα < βα < βα < β

Page 89: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 89

Cálculo de angulo del Título

211µ=3

1101µ=2

11µ=1

i=4i=3i=2i=1

Palabras

Fra

ses

Título µ = Título(1) γ(3,1) + Título(2) γ(3,2) +

Título(3) γ(3,2) + Título(4) γ(3,4)

= 0 + 0 + 0 + 2/sqr(6) = 0.81

0.81

0

0

cos Θ

1000

TítuloAngulo

Page 90: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 90

Posición de la frase

• Modeliza contenido semántico según su posición

• Modelo de artículos periodísticos

X = f(i) = (x – P % 2)m ; m = 2,4,6…

i=Número de frase1 PP % 2

Max

min

Page 91: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 91

Otras métricas (plug in)• Longitud de frases• Diferencia de entropía condicional entre frases

• Entidades nombradas• N-gramas• Otras medidas de distancia

segmento

Dif

. de

entr

op

ía

Page 92: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 92

Normalización de las métricas�

• Desviaciones importantes entre las métricas

• Normalizacion entre [0,1]

Page 93: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 93

Algoritmo de decisión

• Compilar las métricas para dar una nota final a cada frase

• Idea : calcular una media sofisticada– Tendencia positiva λ > 0,5 – Tendencia negativa λ < 0,5 – λ = 0,5 es ignorado

�Convergencia

�Amplificacion

Page 94: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 94

Generación del resumen �� ��

Post-procesamiento superficial

• A partir de la selección de frases pertinentes

• Tamaño definido por el usuario (%) �• Presentación

– XML

– Texto

Page 95: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 95

� 14 Personas (nivel universitario) : escoger los segmentos que les parecieran pertinentes

� CORTEX

� Autoresumen MS-Word

� Summarizer Minds New Mexico State Universitymessene.nmsu.edu/minds

� Pertinence www.pertinence.net

� Copernic www.copernic.com

Pruebas

Page 96: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 96

� Artificialmente ambiguo

� Dos temas : « puces INFO » + « puces BIO »

� N = 279 palabras

� P = 30 frases

� Frases segmentadas por « : », « . », « ? », « ! »

� Extracto

�25% del tamano = 8 segmentos

Análisis del texto « PUCES »

Page 97: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 97

PUCES BIO

Page 98: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 98

PUCES INFO

Page 99: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 99

PUCES

Et si l'ordinateur pouvait fonctionner un jour, sans électricité ou presque? La

démarche de chercheurs américains de l'université de Notre Dame, dans l'Indiana,

montre que l'on peut manipuler des électrons pour construire des circuits élémentaires

avec des quantités d'énergie infimes. Leurs expériences, relatées dans l'édition du 9

avril du magazine Science, ouvrent la voie à des composants capables de fonctionner à

des fréquences 10 à 100 fois plus élevées que celles des puces actuelles qui sont

bridées par des problèmes de dissipation de chaleur. Les travaux de l'équipe dirigée

par Greg Snider portent sur le puits quantique, un piège infinitésimal dans lequel un

électron peut être enfermé. Les scientifiques ont créé ...

Les cantonnements de la compagnie IV de l'école de recrues d'infanterie d'exploration et de

transmission 213, stationnée à Avenches, sont envahis par les puces et les poux. Des piqûres

de puces ont été relevées sur plus d'un tiers des militaires. On a aussi retrouvé des cadavres

de poux sur 3 militaires. Des mesures d'urgence ont été prises en conséquence. Des piqûres de

puces ont été diagnostiquées sur plus d'un tiers des 155 hommes de la compagnie IV de

l'école de recrues d'infanterie d'exploration et de transmission 213. Des cadavres de poux, mais

aucun oeuf, ont également été décelés sur 3 militaires. Ces insectes sont transmis par contact

personnel. La cause de cette invasion n'est pas claire; ces insectes semblent toutefois avoir

essaimé à partir du local de garde. Le médecin de troupe a donné...

Page 100: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 100

0 100 200 300 400 500 600

0

25

50

75

100

125

150

175

200

225

250

275

300Segmentation fixe (2 termes x seg)

Ter

me

Segment

INFORMATQUE ET PUCES

«IN

FO »

«BIO

»

Page 101: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 101

Texto PUCES.TXT

Page 102: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 102

Segmentacion PUCES.XML

Page 103: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 103

Filtrado PUCES-FIL.XML

Page 104: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 104

Lematizacion PUCES-LEM.XML

Page 105: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 105

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 300,0

0,2

0,4

0,6

0,8

1,0

Segment

Déc

isio

n

Segmentos muy

importantes

Seleccion de los segmentos por las personas

Puces INFO

Puces BIO

Page 106: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 106

Varios segmentos importantes

escogidos Bio-puces

Puces INFO

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 300,0

0,2

0,4

0,6

0,8

1,0

Déc

isio

n

Nb. Segment

Seleccion de segmentos pertinentes por CORTEX

Puces BIO

Page 107: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 107

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 300,0

0,2

0,4

0,6

0,8

1,0

Segment

Déc

isio

n

Seleccion de segmentos

por Minds

Segmentos 5 y 15 no

seleccionados

PUCES

Page 108: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 108

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 300,0

0,2

0,4

0,6

0,8

1,0

Segment

Déc

isio

n

Info-puces

Segmentos importantes

no seleccionados

Selección desequilibradade segmentos por Word Puces BIO

Page 109: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

Resultados : resúmen genérico

Rappel moyen Rouge (Lin, 04)�

0,24 0,28 0,32 0,36 0,40 0,44 0,48 0,52 0,56

0,24

0,28

0,32

0,36

0,40

0,44

0,48

0,52

0,56

0,60

Pertinence

Enertex

Word

Baseline

MEAD Copernic

Cortex

<

SU

4>

<ROUGE-2>

Inglés, francés y español

Textoscompuestos

Page 110: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 110

Evaluation multi-documentosNIST – DUC 2005-06

45 temas / 25 grupos de documentos en inglésGenerar resumenes de 250 palabras que responden a

las preguntas del tema

Dos estrategias adicionales:

Éliminacion de la redundancia

Diversificar el contenido

Page 111: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 111

0,045 0,050 0,055 0,060 0,065 0,070

0,095

0,100

0,105

0,110

0,115

0,120

0,125

0,130

Ene

rtex

RO

UG

E-2

Enertex SU4

DUC 2005

SU

4

ROUGE-2

0,055 0,060 0,065 0,070 0,075 0,080 0,085 0,090 0,0950,105

0,110

0,115

0,120

0,125

0,130

0,135

0,140

0,145

0,150

0,155

Ene

rtex

RO

UG

E-2

Enertex SU4

DUC 2006

SU

4

ROUGE-2

Resultados : resúmen guiado por tema

Page 112: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 112

• Algoritmo poderoso de resumen de textos• Métricas independientes, modulares (plug in)• Algoritmo de decision • Independiente del tamaño del texto• Independiente del tema• Multilingüe �• Extractos equilibrados• Extractos genéricos o personalizados• Rapido

Conclusión

Page 113: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 113

Pre-tratamiento fino– Modulo lingüístico

Post-tratamiento fino– Modulo lingüístico– Generación de texto

Mejora de los condensados :– Aprendizaje supervisado– Redes de neuronas – Cálculo del erreur– Compresion de frases

Perspectivas

Page 114: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

Compresion automatica de frases

Texto• Trujillo, la bella capital de Libertad, goza, segun veo, de un

clima verdaderamente excepcional.• Por ese hecho, los inteligentes estudiantes de la UPAO, son

recompensados en sus enormes efuerzos.• Esperemos entonces que les ha gustado este curso tan

interesante !

Resumen por compresion• Trujillo capital de Libertad goza de un clima excepcional

• Los estudiantes de la UPAO son recompensados en sus efuerzos

• Esperemos que les ha gustado este curso!

Tasa de compresion palabras : 26/40 = 66 %

Page 115: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

UPAO Workshop 2008 115

LecturasAmerican National Standards for Writing Abstracts. ANSI Inc., USA.Balpe J., Lelu A., Papy F., and Saleh I. (1996). Techniques avancées pour l'hypertexte. Éditions Hermès,

Paris.Deerwester S., Dumais D., Furnas T., Launder G., and Harshman T. (1990). Indexing by latent semantic

analysis. Journal of the Amer. Soc for Infor. Science, 6(41):391-407.Huot F. (2000). Copernic summarizer ou la tentation de l'impossible. Québec Micro, 6.12(12):61-64.Leloup C. (1997). Moteurs d'indexation et de Recherche. Eyrolles.Meunier J.-G. and Nault G. (1997). Approche connexioniste au problème de l'extraction de connaissances

terminologiques à partir de textes. In Les Techniques d'intelligence artificielle appliquées aux Technologies de l'Information, pages 62--76. Les Cahiers scientifiques ACFAS 90.

Morris A., Kasper G., and Adams D. (1999). The effects and limitations of automated text condensing on reading comprehension performance. In Advances in automatic text summarization, pp 305-323. TheMIT Press, U.S.A.

Saggion H. and Lapalme G. (2000). Concept identification and presentation in the context of technical text summarization. In Automatic Summarization Workshop, pages 1--10, Seattle. ANLP/NAACL.

Salton G. (1971). The SMART Retrieval System - Experiments un Automatic Document Processing. Englewood Cliffs.

Salton G. and McGill M. (1983). Introduction to Modern Information Retrieval. McGraw-Hill.Seffah A. and Meunier J.-G. (1996). Aladin: an integrated object-oriented environment for computer assited

text analisys. Cahiers de recherche 96.1, LANCI-UQAM.Torres-Moreno, J.M, Velázquez-Morales, P. et Meunier, J.G., Condensés de textes par des méthodes

numériques. JADT 2002, Vol. (2):723-734, A. Morin & P. Sébillot éditeurs, IRISA/INRIA, France 2002. Torres-Moreno, J.M, Velázquez-Morales, P. et Meunier, J.G., Cortex : un algorithme pour la condensation

automatique des textes. ARCo 2001, Lyon, pp 365 + vol 2. ISC-Lyon, pp 65-5, Décembre 2001. Torres-Moreno J.-M., Velazquez-Morales P., and Meunier J. (9-11 Mars 2000). Classphères : un réseau

incrémental pour l'apprentissage non supervisé appliqué à la classification de textes. In JADT 2000, pages 365--372, Lausanne. EPFL M. Rajman & J.-C. Chappelier éditeurs.

Page 116: Generación de Resúmen automático de textoslia.univ-avignon.fr/chercheurs/torres/downloads/upao_workshop.pdf · sintetizar ideas ? • Los resúmenes del autor ¿ son pertinentes?

Avez-vous des questions? ¿Tienen preguntas?

Merci! C’est fini!

Juan-Manuel [email protected]

Laboratoire Informatique d’Avignon (France)