Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios: Biomedicina, Periodismo y Turismo Tesis doctoral Laura Plaza Morales Dirigida por Dr. D. Pablo Gervás Gómez-Navarro Dr. D. Alberto Díaz Esteban
63
Embed
Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios : Biomedicina , Periodismo y Turismo. Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro Dr. D. Alberto Díaz Esteban. Contents. - PowerPoint PPT Presentation
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su
Aplicación en Distintos Dominios: Biomedicina, Periodismo y Turismo
Tesis doctoralLaura Plaza Morales
Dirigida por Dr. D. Pablo Gervás Gómez-Navarro
Dr. D. Alberto Díaz Esteban
2Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Contents
1. Introduction2. Using Semantic Graphs in Automatic
Summarization3. Case Studies4. Evaluation5. Conclusions and Future Work
3
Contenidos
1. Introducción• Definición del Problema• Motivación y Contribución
2. Uso de Grafos Semánticos para la Generación Automática de Resúmenes
3. Casos de Estudio4. Evaluación5. Conclusiones y Trabajo FuturoUso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
4Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Definición del Problema
Resumen: Transformación de uno o varios documentos mediante reducción de su contenido
• Selección de lo importante Extracción
• Generalización de lo importante Abstracción
Predominio de los enfoques por extracción
Sobrecarga de información• Resúmenes mono-documento• Resúmenes multi-documento
Introducción – Definición del Problema
5Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
La Generación Automática de Resúmenes (GAR) es una tarea compleja• Detección de temas
• Desambiguación léxica y semántica
• Resolución de acrónimos
• Resolución de anáforas y referencias
• Simplificación y fusión de oraciones
• Eliminación de redundancia
6Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Definición del Problema
Técnicas de generación de resúmenes por extracción• Enfoques superficiales
‒ Posición de las oraciones
‒ Frecuencias de los términos
‒ Expresiones o frases indicativas
• Técnicas discursivas‒ Análisis de la estructura del discurso y de las relaciones entre
términos
• Técnicas basadas en grafos
Introducción – Motivación y Contribución
7Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Problema: Representación del documento mediante información que se extrae directamente del documento (palabras u oraciones)
1. Cerebrovascular disorders during pregnancy results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis.
2. Brain vascular diseases during gestation results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis.
El uso de conocimiento del dominio para representar semánticamente el documento mejora la calidad de los
resúmenes generados
8Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Motivación y Contribución
Problema: Sistemas genéricos frente a sistemas especializados
• Sistemas genéricos: Capaces de generar resúmenes de cualquier tipo de documento, a costa de reducir la calidad del resultado
• Sistemas especializados: Capaces de generar resúmenes de mayor calidad, aunque restringidos a un único dominio de aplicación
Método genérico para la GAR dependientes del dominio, aunque configurable para tratar con documentos de
diferentes dominios
9Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Motivación y Contribución
Problema: Ningún intento por resolver abreviaciones
Incorporación de mecanismos para expandir acrónimos y abreviaturas en función del dominio de aplicación
Problema: Ningún intento por resolver la ambigüedad
Estudio del efecto de la ambigüedad e incorporación de mecanismos de desambiguación apropiados para cada
dominio/fuente de conocimiento
10Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Introducción – Motivación y Contribución
Método genérico para la GAR de textos de diferentes tipologías y campos de conocimiento• Representación del documento como un grafo de conceptos y relaciones
del dominio
• Técnicas de agrupamiento para detectar grupos de conceptos fuertemente relacionados, que determinan los distintos temas tratados en el documento
Generación de distintos tipos de resúmenes en función del contenido deseado
Estudio del efecto de la ambigüedad y la presencia de acrónimos
Evaluación del método en tres dominios
11
Contenidos
1. Introducción2. Uso de Grafos Semánticos para la
Generación Automática de Resúmenes3. Casos de Estudio4. Evaluación5. Conclusiones y Trabajo Futuro
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
12Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Arquitectura
13Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa I: Pre-procesado
1. Eliminación de secciones irrelevantes
2. Eliminación de palabras vacías
3. Extracción del cuerpo, título y abstract
4. Segmentación en oraciones (GATE)
<CONFIG> <CATEGORY name "DOCUMENT_PREPROCESSING"> <PROPERTY name =“FORMAT”></PROPERTY> <PROPERTY name =“IGNORED_TAGS”></PROPERTY> <PROPERTY name = “STOP_LIST”></PROPERTY> </CATEGORY> <CATEGORY name ="TAG"> <PROPERTY name ="XML_TITLE“></PROPERTY> <PROPERTY name ="XML_ABSTRACT“></PROPERTY> <PROPERTY name ="XML_BODY"></PROPERTY> … </CATEGORY> …..</CONFIG>
Etapa II: Traducción de Oraciones a Conceptos
Objetivo: Traducir del léxico de cada oración a conceptos del dominio
Requisitos:• Base de conocimiento
• Mecanismo de traducción
• Algoritmo de desambiguación (WSD)
14Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Oración: término1 término2 … términon
WSD
concepto1 concepto2 … concepton
BC
<CONFIG> ….. <CATEGORY name =“KW_BASE"> <PROPERTY name =“NAME”></PROPERTY> <PROPERTY name =“WSD”></PROPERTY> </CATEGORY> <CATEGORY name =“CONCEPT_FILTER"> <PROPERTY name =“FILTER_1”></PROPERTY> </CATEGORY> …..</CONFIG>
Etapa III: Representación de la Oración
15Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Objetivo: Crear una jerarquía de conceptos que representa a cada oración
Requisitos:
• Relación de hiperonimia en la base de conocimiento
• Definir los niveles de la jerarquía a ignorar
hiperónimo1
hiperónimo1
hiperónimo1
concepto1
hiperónimo{2,3,n-1,n}
hiperónimo{2,3,n-1,n}
hiperónimo{3,n-1,n}
hiperónimo{n-1,n}
hiperónimon-1
concepton-1
hiperónimo3
concepto3
hiperónimon
concepton
hiperónimo2
hiperónimo2
…
concepto2
…
…
hiperónimo{1,2,3,n-1,n}
Etapa IV: Representación del Documento
16Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Objetivo: Crear un grafo de conceptos y relaciones semánticas que representa al documento1. Fusionar los grafos de las oraciones
2. Añadir nuevas relaciones entre conceptos
3. Asignar pesos a las aristas del grafo
17Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
<CONFIG> ….. <CATEGORY name =“KW_BASE"> <PROPERTY name =“NAME”></PROPERTY> <PROPERTY name =“WSD”></PROPERTY> <PROPERTY name =“LEVEL_THRESHOLD”></PROPERTY> </CATEGORY> <CATEGORY name =“RELATIONS"> <PROPERTY name =“HYPERNYMY”>YES</PROPERTY> <PROPERTY name =“RELATION_1”></PROPERTY> <PROPERTY name =“RELATION_2”></PROPERTY>
… </CATEGORY> <CATEGORY name “HYPERNYMY"> <PROPERTY name =“WEIGTH”></PROPERTY> </CATEGORY> …..</CONFIG>
Etapa IV: Representación del Documento
Requisitos:
• Definir las relaciones semánticas a utilizar
• Definir la fórmula para el cálculo del peso de las aristas
18Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa IV: Representación del Documento
Coeficiente de Jaccard Coeficiente de Dice-Sorensen
hiperónimo1
hiperónimo1
hiperónimo1
concepto1
hiperónimo{2,n-1,n}
hiperónimo{2,n-1,n}
hiperónimo{n-1,n}
hiperónimo{n-1,n}
hiperónimon
concepton
hiperónimo2
concepto2
hiperónimo{1,2,n-1,n}
…
3/4
4/5
2/3
1/2
3/4
4/5
2/3
1/2
3/4
4/5
5/6 5/6
6/7
concepton-1
1
1
hiperónimo1
hiperónimo1
hiperónimo1
concepto1
hiperónimo{2,n-1,n}
hiperónimo{2,n-1,n}
hiperónimo{n-1,n}
hiperónimo{n-1,n}
hiperónimon
concepton
hiperónimo2
concepto2
hiperónimo{1,2,n-1,n}
…
6/7
8/9
4/5
2/3
6/7
4/5
4/5
2/3
6/7
8/9
10/11 10/11
12/13
concepton-1
1
1
19Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa V: Agrupamiento de Conceptos
Objetivo: Construir grupos o clusters de conceptos estrechamente relacionados entre sí, donde cada conjunto representa un tema distinto del documento
Hipótesis: El grafo del documento se comporta como una red de libre escala (Barabasi & Albert, 1999)
Agrupamiento basado en la conectividad (Yoo et al., 2007)1. Cálculo del prestigio o salience de cada vértice
2. Los n vértices de mayor salience se denominan concentradores o hubs
3. Iterativamente, los hub vertices se agrupan en Hub Vertex Sets
4. Los restantes vértices se asignan al HVS al que se encuentran más conectados para producir los clusters finales
Etapa VI: Asignación de Oraciones a Clusters
Objetivo: Calcular la similitud entre cada oración y cluster, ¿de qué trata cada oración?
En función del número de conceptos que coinciden entre el grafo de la oración y el cluster
20Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
jkk Ovv
jkji wOCsimilitud ),( ,
)(
)(
ikk,j
ikk,j
ikk,j
CHVS if vw
CHVS if vw
C0 if vw
Etapa VII: Selección de Oraciones
Objetivo: Seleccionar las N oraciones para el resumen final, en función del tipo de resumen que se desee generar Heurística 1: Todas las oraciones se seleccionan del cluster de
mayor tamaño (tema principal del documento) Heurística 2: Todos los clusters contribuyen con un número de
oraciones proporcional a su tamaño Heurística 3: Para cada oración, se calcula una única
puntuación, como la suma de sus similitudes respecto a cada uno de los clusters promediados por su tamaño, y se seleccionan las N oraciones con mayor puntuación global
21Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa VII: Selección de Oraciones
Criterio Posicional (Pos): Asigna mayor puntuación a las oraciones cercanas al inicio y final del documento
Criterio de similitud con el título (Tit): Asigna mayor puntuación a las oraciones similares al título
22Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
)()()()( jjjij OTitOPosOHeurOPuntuación
23Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
GAR Multi-documento
INTEGRADOR
Documento Integrado
Título Integrado
G.A.R.
O1
O3
O2
ELIMINACIÓNREDUNDANCIA
O1
O3
24
Contenidos
1. Introducción2. Uso de Grafos Semánticos para la
Generación Automática de Resúmenes3. Casos de Estudio
• Resúmenes mono-documento de Artículos Biomédicos• Resúmenes mono-documento de Noticias Periodísticas• Resúmenes multi-documento de Páginas Web Turísticas
4. Evaluación5. Conclusiones y Trabajo Futuro
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
25Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina
Configuración de las etapas I, II, III y VI del método genérico para resumir artículos científicos de biomedicina del corpus de BioMed Central
− Conceptos semánticamente consistentes con el resto de conceptos en su contexto.
Personalized PageRank− Un grafo que representa la jerarquía completa de
la base de conocimiento, para cada palabra ambigua
− Adaptación a UMLS• Metatesauro como base de conocimiento• Conjunto de candidatos: Meta Mappings
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 31
Caso de Estudio: Biomedicina Etapa III: Representación de la oración
The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary
heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat
hypertension.
Activity
Clinical or Research Activity
Research Activity
Study
Clinical Study
Clinical Trials
Anatomic Structure
System or Substance
Organ System
Cardiovascular System
Disease
Disorder Or Finding
Disease or Disorder
Non-Neoplastic Disorder
Non-Neoplastic Disorder by Site
Non-Neoplastic Cardiovascular Disorder
Non-Neoplastic Vascular Disorder
Cerebrovascular Disorder
Cerebrovascular Accident
Disorder by Site
Respiratory and Thoracic Disorder
Thoracic Disorder
Heart Disorder
Coronary Heart Disease
Non-Neoplastic Heart Disorder
Congestive Heart Failure
Finding by Site or System
Cardiovascular System Finding
Blood Pressure Finding
Hypertensive Disease
Personnel
Professional Personnel
Clinicians
Eliminación de los dos niveles superiores
33Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Biomedicina
Etapa IV: Representación del documento• Relaciones Semánticas:
− Relación related to entre conceptos del Metatesauro
− Relación associated with entre tipos de la Red Semántica
1. The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat hypertension
2. While event rates for fatal cardiovascular disease were similar, there was a disturbing tendency for stroke to occur more often in the doxazosin group, than in the group taking chlorthalidone
Caso de Estudio: Biomedicina
Clinicians
Research Activity
Study
Clinical Study
Clinical Trials
Organ System
Cardiovascular System
Disease or Disorder
Non-Neoplastic Disorder
Non-Neoplastic Disorder by Site
Non-Neoplastic Cardiovascular Disorder
Non-Neoplastic Vascular Disorder
Cerebrovascular Disorder
Cerebrovascular Accident
Disorder by Site
Respiratory and Thoracic Disorder
Thoracic Disorder
Heart Disorder
Coronary Heart Disease
Non-Neoplastic Heart Disorder
Congestive Heart Failure
Finding by Site or System
Cardiovascular System Finding
Blood Pressure Finding
Hypertensive Disease
Disorder of Cardiovascular System
Cardiovascular Diseases
Cardiovascular Drug
Alpha-Adrenergic Blocking Agent
Doxazosin
Pharmaceutical Adjuvant
Diuretic
Thiazide Diuretics
Chlorthalidone
1/21/2
2/32/3
3/41
35Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Periodismo
Configuración de las etapas I, II, III y VI del método genérico para resumir noticias periodísticas del corpus de la conferencia DUC 2002
Características:• Estructura: Titular, Entrada y Cuerpo
• Organización: Pirámide invertida
• Amplitud temática y de vocabulario
• Concisión
Caso de Estudio: Periodismo
36Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Etapa I: Pre-procesado:• Formato: xml
• Secciones irrelevantes: Autores, Entrada, Fecha de publicación, Nombre de la publicación
• Lista de palabras vacías: WordNet Stop List: http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html
37Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Caso de Estudio: Periodismo
Etapa II: Traducción de oraciones a conceptos• Base de conocimiento:
− WordNet
− WordNet::SenseRelate
• Algoritmo de desambiguación:− Lesk
38Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
WordNet
Conocimiento de ámbito general Concepto ≈ Synset (Synonym set){00007626} person#1, individual#1, someone#1, somebody#1, mortal#1,
soul#2
Definición ≈ Glossperson#1 - (a human being; "there was too much for one person to do")
person#2 - (a human body; "a weapon was hidden on his person")
Relaciones• Hiponimia/Hiperonimia
• Holonimia/Meronimia
•Términos coordinados•…
39Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
WordNet
Ambigüedad en WordNet
39Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Tissues1. tissue (part of an organism …) 2. tissue, tissue paper (a soft thin …)
Are1. be (have the quality of being)…13. cost, be (be priced at)
often 1. frequently, often (many times...)2. much, a great deal, often (frequently...)
cold1. cold, common cold (a mild viral…)2. coldness, cold (the absence of heat…)3. cold, coldness (the sensation …)
WordNet::SenseRelate
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 40
Traducción de texto a conceptos de WordNet y desambiguación de su significado− Lesk
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 46
Evaluación – Metodología
Ratio de compresión: 30%, 100 palabras (≈16%) y 200 palabras (≈2%), respectivamente
Significancia estadística: Test de los signos de Wilcoxon
Parametrización1. Porcentaje de hub vertices2. Combinación de relaciones semánticas3. Umbral de similitud4. Peso de las aristas (Jaccard vs. Dice-Sorensen)5. Combinación de criterios de selección de oraciones
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 47
48
Evaluación – Parametrización
Biomedicina
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
1. Introducción2. Uso de Grafos Semánticos para la
Generación Automática de Resúmenes3. Casos de Estudio4. Evaluación5. Conclusiones y Trabajo Futuro
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
58Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
The use of domain knowledge improves the quality of the automatic summaries
The summarizer performs significantly better when WSD is used
Single-document and multi-document summarization
Typical problems of extractive summarization: coherence and referential clarity
58Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Conclusions & Future Work
59Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Improving referential clarity through anaphoric resolution techniques
59Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Conclusions & Future Work
A new study finds that many women with early breast cancer do not need a painful procedure that has long been routine: removal of cancerous lymph nodes from the armpit.The discovery turns standard medical practice on its head. Surgeons have been removing lymph nodes for 100 years, believing it would prolong women’s lives by keeping the cancer from spreading or coming back.
The discovery turns standard medical practice on its head. Surgeons have been removing lymph nodes for 100 years, believing it would prolong women’s lives by keeping the cancer from spreading or coming back.
60Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 60Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Conclusions & Future Work
Acropolis (Gr akros, akron, edge, extremity + polis, city, pl acropoleis) literally means city on the edge (or extremity). The Acropolis was designated as a UNESCO World Heritage site in 1987, for its, illustrating the civilizations, myths, and religions that flourished in Greece over a period of more than 1,000 years. The Acropolis, the site of four of the greatest masterpieces of classical Greek art — the Parthenon, the Propylaea, the Erechtheum, and the Temple of Athena Nike—can be seen as symbolizing the idea of world heritage. The Acropolis, a hill c.260 ft (80 m) high, with a flat oval top c.500 ft (150 m) wide and 1,150 ft (350 m) long, was a ceremonial site beginning in the Neolithic Period and was walled before the 6th cent. B.C. by the Pelasgians.
Improving legibility through referring expression generation techniques
61Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Conclusions & Future Work Improving the structure and coherence of the summaries
through sentence simplification and fusion techniques
1)Ana, who is 40, graduated in Mathematics in 19922)Later, she got a PhD in Computer Science3)Ana has worked since 1998 as a financial consultant
Ana, who graduated in Mathematics and got a PhD in Computer Science, works since 1998 as a financial consultant
62Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios
Improving acronym resolution mechanisms
Exploring new knowledge sources (e.g. Wikipedia)
Query-based summarization Implementing a method for detecting and
removing redundancy New languages and domains
62Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios