Summary

Jordi Turmo, 2010 Adaptive Information Extraction

SummarySummary

• Information Extraction Systems

• Evaluation

• Multilinguality

• Adaptability• Introduction

• Learning of rules

• Learning of statistical models

• Multistrategy learning


• Evaluation

• Multilinguality





Adaptability


Aprendizaje de reglas

• Tendencia a la no supervisión: disminución considerable del coste de anotación

• Aprendizaje de antecedentes (patrones)+post-anotación

• Normalmente, patrón=expresión de constituyentes generalizados– Heuristic driven specializations: AutoSlog-TS[Riloff96], [Harabagiu&Maiorano00] – Observation-based learning:

Essence[Català03] – Bootstrapping:

DIPRE[Brin98], ExDISCO[Yangarber00], [Yangarber03] [Surdeanu et al.06]

Adaptability


Aprendizaje de reglas (no supervisado)

Adaptability

AutoSlog-TS (Riloff[96])

Heuristic-driven specialization• Anotación de documentos (rel, norel)• Adquisición de reglas single-slot (extrapolable)• Uso de AutoSlog

AutoSlogDocspreproc.anotados

PatronesPatronesrelevantes

Meta-patrones

ranking N



Adaptability


{•Cálculo del ranking de un patron pi:

ratio(pi) * log2(freq_pi) si ratio(pi) > 0.5 0 en otro caso

ratio(pi) = Pr(relevant_text|text_contain_pi) = rel_freq_pi / total_freq_pi



Adaptability


• Pros:• Menos supervisión• Resultados comparables a AutoSlog

•Cons: (específicos)

•La formula de relevancia tiende a subir patrones frecuentes y bajar muchos patrones relevantes menos frecuentes

•Cons: (todos los métodos no supervisados de este área)

•Clasificar manualmente a posteriori cada patrón con respecto al conjunto de slots del escenario •Validar manualmente los patrones resultados



Adaptability

Harabagiu & Maiorano [00]

Heuristic-driven specialization• Conjunto de palabras relevantes• Adquisición de reglas multi-slot (eventos)• Método similar a AutoSlog

• Meta-patrones sustituidos por espacio semantico inducido a partir de la palabras relevantes sobre WordNet



Adaptability


keywordsWordNet

semanticspace

… ( □ ) … … ( □ ) … ( □ ) … S V O

• Generalización de los conceptos enlazados• Selección de los patrones más generales (Máxima cobertura)



Adaptability


• Pros:• Menor supervisión que AutoSlog y AutoSlog-

TS•Cons:•Método automático para la selección?•Ningún resultado sobre la cobertura de los patrones aprendidos.



Adaptability

Essence [Català03]

Observation-based Learning• Conjunto de palabras relevantes• Adquisición de reglas multi-slot • Método similar a CRYSTAL

• Observación = contexto de ocurrencia de palabra relevante o alguna extension WordNet

= patron específico de constituyentes• Algoritmo de cobertura bottom-up: generalización

sintáctico-semántica (WordNet) de los patrones específicos



Adaptability

Bootstrapping• Requiere un conjunto inicial pequeño de ejemplos

y un corpus grande no anotado• Se aprenden patrones a partir del conjunto de

ejemplos iniciales• Se reconocen nuevos ejemplos con los que se

aprenden nuevos patrones• …



Adaptability

ExDISCO [Yangarber02]

Bootstrapping• Conjunto inicial de patrones SVO• Clasificación de los textos (rel/norel)• Adquisición de nuevos patrones a partir de los

textos relevantes de forma similar a AutoSlog-TS



Adaptability

Bootstrapping • Pros:

• Poca supervisión• Cons:

• Dependiente del conjunto inicial de ejemplos• Poco robusto a la aceptación de patrones

erroneos• Condición de parada? [Agichtein&Gravano00]

[Yangarber03][Surdeanu et al. 06]

[Yangarber03]



Adaptability

[Yangarber03]

Bootstrapping via Counter-training• Condición de parada para bootstrapping• Aprendizaje de patrones para diferentes

escenarios en paralelo• Cada proceso computa la precisión de cada

patrón aprendido en cada iteración• Evidencia positiva (relevancia inter-escenario)• Evidencia negativa (relevancia intra-escenario)

• Repetir hasta que solo queda un proceso activo



Adaptability

[Yangarber03]

Bootstrapping via Counter-training• Contra:

• Requiere la clasificación a priori de los documentos



Adaptability

[Surdeanu et al.06]

Bootstrapping via Co-training• A cada iteración

• Aprendizaje de patrones de diferentes escenarios

• Aprendizaje de clasificador de documentos (palabras)

• Repetir hasta que no se aprendan patrones nuevos o i=n



Adaptability

[Surdeanu et al.06]

Bootstrapping via Co-training

Labeled seed docsUnlabeled docs

InitNB-EM

InitPatternacquisition

NB-EMConverged?

NB-EMiteration

PatternAcquisitioniteration

PatternAcquisition

Terminated?no sipatterns

no

si


SummarySummary


• Evaluation

• Multilinguality






• Evaluation

• Multilinguality





Adaptability


Aprendizaje de modelos estadísticos• Aprendizaje supervisado• slot-filler extraction models, relation

extraction models

– Hidden Markov Models (HMMs)– Maximum Entropy Models (MEMs)– Dynamic Bayesian Networks (DBNs)– Conditional Random Fields (CRFs)– Hyperplane Separators

Adaptability


Aprendizaje de modelos estadísticos• Hidden Markov Model (HMM): autómata

finito que tiene probabilidades asociadas a las transiciones entre estados y a la emisión de símbolos desde cada estado.

Adaptability

–Pros: robustez, facilidad de desarrollo y evaluación–Cons: conocimiento a priori de la topología del modelo; requieren enormes conjuntos de entrenamiento; un atributo por token (representación pobre)–Ejemplos:

•Texto semi-estructurado: Freitag and McCallum[99,00], Seymore et al.[99]•Texto no restingido: Freitag and McCallum[99,00], Ray and Craven[01]


Aprendizaje de modelos estadísticos (HMM)

HMM = conjunto de estados q0, q1, ..., qn

conjunto de transiciones ( q → q’ )

vocabulario símbolos de emisión

Σ = {σ 0, σ 1, ..., σ m } estado inicial q0 estado final qn probabilidades de transición entre estados

P( q → q’ ) probabilidades de emisión de símbolos desde un estado

P( q ↑ σ )

Adaptability



Ejemplo: extracción de info en cabeceras de artículos (etiquetar cada palabra de la cabecera como title, author, date, keyword).

Adaptability



EI usando HMMs:

• Dado un modelo M y sus parámetros, la EI se lleva a cabo determinando la secuencia de estados más probable que haya generado el documento (observación).

• Esta secuencia puede ser calculada usando programación dinámica: algoritmo de Viterbi.

Adaptability



Crea un HMM para cada slot. Se fija la topología y se aprenden las probabilidades de transición y emisión. Dos tipos de estados, background y target, con conexiones limitadas para capturar el contexto.Texto semi-estructurado y texto no restringido.

Freitag and McCallum[99]

bg target

start

end

Adaptability



Variaciones en la topología: tamaño de la “ventana” de contexto y substitución de un target por un conjunto de caminos paralelos de distinta longitud. Probs. Transición y emisión se aprenden tratando la sparseness


bg

target

start end

prefix prefix sufix sufix

Adaptability



Freitag and McCallum[00], la topología se aprende vía stochastic optimization (hill climbing en el espacio de topologías posibles).

- modelo inicial simple M0

- conjunto de operadores (state-split, state-add, trans-add,…)- h’(Mi) = F1

Mejoran los resultados


Adaptability



Topologías aprendidas para location y speaker.Freitag and McCallum[00]

Adaptability



A partir de los datos de entrenamiento:• aprender la topología del HMM (usando técnica de

Bayesian model merging) y • estimar sus parámetros:

– datos etiquetados (maximum likelihood),– no etiquetados (algoritmo de Baum-Welch) y– distantly-labeled (para estimar probabilidades de

emisión)

Seymore et al.[99]

Adaptability



Las sentencias no sólo son secuencias de tokens; se añade su estructura gramatical. Los estados del HMM representan información gramatical de una sentencia (type) y su anotación (label); los parámetros maximizan la correcta asignación de etiquetas a ciertos segmentos no a toda la sentencia.

Texto no restringido.

Ray and Craven[01]

This enzyme, UBC6, localizes to the endoplasmic reticulum, with the catalytic domain facing the cytosol.

NP_SEGMENT this enzymeNP_SEGMENT:PROTEIN ubc6NP_SEGMENT localizesPP_SEGMENT toNP_SEGMENT:LOCATION the endoplasmic reticulumPP_SEGMENT withNP_SEGMENT the catalyctic domainVP_SEGMENT facingNP_SEGMENT the cytosol

Adaptability


Aprendizaje de modelos estadísticos

• Maximum Entropy Model (MEM): estima la probabilidad de que cierta “clase” ocurra en cierto “contexto”, sujeta a restricciones impuestas por las observaciones (p.e. POS adecuado a un token en un contexto, traducción de un palabra en un contexto).

– Pros: facilidad para extender la cantidad y el tipo de atributos; atributos dependientes; método de estimación general (reutilizable)

– Cons: coste computacional – Ejemplos:

• Texto semi-estructurado: Chieu and Ng[02]• Texto no restringido: Chieu and Ng[02], Kambhatla[04]

Adaptability


Aprendizaje de modelos estadísticos (MEM)

Paso I (single-slot): clasificar cada palabra en una de las clases posibles (slots o partes de un slot). Después, usa Viterbi para seleccionar la secuencia de clases más probable.

Paso II (multi-slot): determinar si dos slot fillers forman parte de la misma templeta, usando un clasificador de relaciones.

Texto semi-estructurado y texto no restringido.

Chieu and Ng[02]

Adaptability



Ejemplo de Chieu and Ng[02]:

Bronczek, vice president of Federal Express Canada Ltd., was named senior vice president, Europe, Africa and Mediterranean, at this air-express concern.

Bronczek, Person In

Federal Express Canada Ltd.,Organization

VP, PostBronczek, Person Out

SVP, Post

Adaptability



Construye MEMs para predecir el tipo de relación que existe entre pares de menciones (ACE RDC task) en una frase.

Combina atributos léxicos, semánticos y sintácticos. Los atributos sintácticos se derivan del árbol sintáctico y del árbol de dependencias, obtenidos usando un parser estadístico basado en ME.

Texto no restringido.

Kambhatla[04]

Adaptability


Aprendizaje de modelos estadísticos• Dynamic Bayesian Networks: generalización de

HMM para permitir la codificación de dependencias entre características.

– Pros: permite reducir el coste del aprendizaje usando conocimiento del dominio; permite múltiples atributos por token pero no su contexto

– Cons: estructura de la red predefinida manualmente– Ejemplos:

• texto semi-estructurado: Peshkin and Pfeffer[03]

Adaptability


Aprendizaje de modelos estadísticos• Conditional Random Fields: modelo de

estados finito de probabilidad condicional.

– Pros: relaja requerimiento de independencia entre variables de los HMM

– Cons: probabilidad condicional sobre una única variable

– Ejemplos: • texto semi-estructurado: Coxe[05]

Adaptability

Presentación


Aprendizaje de modelos estadisticos• Hyperplane separators: aprenden un

hiperplano en el espacio de las características que separa los ejemplos de un concepto entre + i - (p.e. SVM, Voted Perceptron)

– Pros: pueden trabajar con muchas propiedades– Cons: – Ejemplos: Roth and Yih[01], Sun et al.[03], Chieu

et al.[03], Zelenko et al.[03], Finn and Kushmerick[04], Zhao and Grishman[05]

Adaptability


Aprendizaje de hiperplanos separadores

Ejemplos:

•texto semi-estructurado: Roth and Yih[01]

•texto no restringido: Sun et al.[03], Chieu et al.[03], Zelenko et al.[03], Finn and Kushmerick[04], Zhao and Grishman[05]

Adaptability

Presentación


SummarySummary


• Evaluation

• Multilinguality






• Evaluation

• Multilinguality





Adaptability


Métodos multiestrategia

Combinan distintos métodos de aprendizaje automático.

– Freitag[98]: rote memorization, term-space text classification y inducción de reglas relacionales (SRV)

– Turmo and Rodríguez[02], Turmo[02]: closed-loop learning, deductive restructuring y constructive induction

Adaptability

Summary

Documents

patrones relevantes

patrones sustituidos

patrones aprendidos

patrones frecuentes

antecedentes patrones

patron pi

slot mtodo similar

slot eventosmtodo similar