Top Banner
INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur
54

INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Jan 15, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS

Felipe José Sellés Tur

Page 2: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Y esto cómo se hace?

Cada día se coge la prensa escrita.

Page 3: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Cada día se coge la prensa escrita.

Se lee cuidadosamente buscando noticias relacionadas con la salud.

¿Y esto cómo se hace?

Page 4: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Cada día se coge la prensa escrita.

Se lee cuidadosamente buscando noticias relacionadas con la salud.

Se apunta manualmente cada noticia encontrada en una BD. Periódico Fecha Titular Personas relevantes Clasificación de la noticia Fuentes

¿Y esto cómo se hace?

Page 5: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Cada día se coge la prensa escrita.

Se lee cuidadosamente buscando noticias relacionadas con la salud.

Se apunta manualmente cada noticia encontrada en una BD. Periódico Fecha Titular Personas relevantes Clasificación de la noticia Fuentes

¿Y esto cómo se hace?

¿Y el texto de la noticia?

¿Productividad?

Page 6: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Cada día se coge la prensa escrita.

Se lee cuidadosamente buscando noticias relacionadas con la salud.

Se apunta manualmente cada noticia encontrada en una BD. Periódico Fecha Titular Personas relevantes Clasificación de la noticia Fuentes

¿Y esto cómo se hace?

¿Y el texto de la noticia?

¿Productividad?

Page 7: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Inquire

Proyecto para la extracción de información de artículos médicos sobre los periódicos: El País, El Mundo, ABC, La Vanguardia y El Periódico y sus suplementos.

Ampliación con extracción de noticias publicadas en la red: Crawler especializado

Aplicación web para mostrar y gestionar las noticias descargadas

Repositorio de artículos y diarios en pdf

Page 8: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Cómo funciona?

Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante

Page 9: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Cómo funciona?

Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante

Page 10: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Crawler especializado

Utiliza webUtils, una librería que facilita las tareas de navegación y descarga web. Implementada por Javier Fernández

Descarga a diario los pdf de los periódicos Accede a la web privada con login y password Navega hasta la sección de descargas

Obtención de noticias Recorre las secciones de los portales online

obteniendo ÚNICAMENTE los enlaces a las noticias

Descarga las noticias

Page 11: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Cómo funciona?

Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante

Page 12: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Extracción de los artículos

Obtención de las diferentes partes de una noticia (titular, subtitular, autor, texto…) Desde el pdf

PDF2HTML herramienta que convierte el pdf a html

Parseado del html para “montar” los artículos Desde la web

Accediendo al DOM del documento descargado Filtrado del texto que buscamos con HTMLParser

Titulares: <div class=“titular”>…

Page 13: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Extracción de noticias con PDF2HTML

Page 14: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Extracción de noticias con PDF2HTML

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

Page 15: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Extracción de noticias con PDF2HTML

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

Page 16: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

Extracción de noticias con PDF2HTML

Page 17: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Cómo extraemos las diferentes noticias y sus partes?

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

Clasificación de las líneas de texto

Page 18: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Cómo extraemos las diferentes noticias y sus partes? Clasificamos el tipo de texto

en función de su estilo.

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

Clasificación de las líneas de texto

Page 19: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Cómo extraemos las diferentes noticias y sus partes? Clasificamos el tipo de texto

en función de su estilo. Titulares: negrita, tamaño

grande… Subtitulares: color menos

oscuro, tamaño mediano… Texto: tamaño pequeño…

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

Clasificación de las líneas de texto

Page 20: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

¿Cómo extraemos las diferentes noticias y sus partes? Clasificamos el tipo de texto

en función de su estilo. Titulares: negrita, tamaño

grande… Subtitulares: color menos

oscuro, tamaño mediano… Texto: tamaño pequeño…

Clasificación de las líneas de texto

Page 21: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

¿Cómo extraemos las diferentes noticias y sus partes? Clasificamos el tipo de texto

en función de su estilo. Titulares: negrita, tamaño

grande… Subtitulares: color menos

oscuro, tamaño mediano… Texto: tamaño pequeño…

Clasificación de las líneas de texto

Page 22: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Cómo extraemos las diferentes noticias y sus partes? Clasificamos el tipo de texto

en función de su estilo. Titulares: negrita, tamaño

grande… Subtitulares: color menos

oscuro, tamaño mediano… Texto: tamaño pequeño…

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

Clasificación de las líneas de texto

Page 23: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Montando el puzle

¿Y ahora cómo se a que noticia pertenece cada línea de texto?

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

Page 24: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Montando el puzle

¿Y ahora cómo se a que noticia pertenece cada línea de texto? Cada titular obtenido es un

artículo al que falta agregar (si los tienen): Autor Subtitulo Entradilla Texto …

<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

Page 25: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Montando el puzle<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

¿Y ahora cómo se a que noticia pertenece cada línea de texto? Cada titular obtenido es un

artículo al que falta agregar (si los tienen): Autor Subtitulo Entradilla Texto …

Obtengo la posición de la línea

Page 26: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Montando el puzle<html>

.

.

.

<body>

.

.

.

<div style=“position:absolute;top:850;left:41>

<span font-weight:bold; font-size:45px;>

Vilagarcía combina erotismo, rock y gastronomía en el Salón del

Atlántico

</span>

</div>

.

.

.

</body>

</html>

¿Y ahora cómo se a que noticia pertenece cada línea de texto? Cada titular obtenido es un

artículo al que falta agregar (si los tienen): Autor Subtitulo Entradilla Texto …

Obtengo la posición de la línea

Asigno a cada línea el titular al que pertenece Por proximidad Tipo de línea …

Page 27: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Cómo funciona?

Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante

Page 28: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Clasificación de las noticias

Se clasifica el texto utilizando Infomap Utiliza una variante de LSA

Aprende los vectores que representan los significados de las palabras

Indexa los documentos en un corpus y puede realizar recuperación de información

Implementación de un wrapper en java

Obtiene los artículos médicos y los clasifica Tipo: Artículo, Opinión… Especialidad: Enfermedades infecciosas, Oncología… Tópico: VIH, pediatría…

Corpus construido por Sonia Vázquez A partir de los datos históricos que se introducían a mano

Errores por la introducción del texto manual Falta del cuerpo de la noticia, lo que supone la mayoría de la

información

Page 29: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Cómo funciona?

Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información

relevante

Page 30: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Extracción de la información relevante

Se trata de recuperar las personas, asociaciones, empresas, o medios de información que aparecen en las noticias Utiliza Freeling para obtener las diferentes entidades

nombradas. Implementación de un Wrapper para lanzar Freeling en java

Clasificación de las diferentes entidades Sociedad-Civil Científico-Sanitaria Industrial

Uso de diccionarios para diferenciar las distintas entidades Expertos Empresas, Instituciones o asociaciones Revistas …

Se guarda la información en una BD “almacén”.

Page 31: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

La aplicación web

La página de inicio muestra los periódicos sobre los que existen artículos médicos, obtenidos del PDF o de las hemerotecas on-line de los distintos periódicos.Se pueden consultar por fecha y periódico.Facilita enlaces a los pdfs descargados de cada periódico.

Page 32: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

En la imagen siguiente se muestra uno de los pdfs que se obtienen automáticamente a diario, en concreto el del ABC. Además nos da la opción de descargarlo.

Repositorio pdfs

Page 33: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Al seleccionar los artículos de un periódico, en este ejemplo El País, se muestra la extracción de la información (izquierda) junto a su fuente (derecha). En este caso se trata de un artículo pendiente de revisar extraído de la hemeroteca on-line de El País. Los datos del artículo se pueden modificar y editar, pudiendo guardar dichos cambios que quedarán almacenados en la base de datos.

Información obtenida

Page 34: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

A continuación se muestran más datos de los que se extraen de los artículos. En este caso se aprecia el titular, subtitular, el texto o el autor del artículo, entre otros datos. Como se ha comentado antes todos estos datos pueden ser modificados por el usuario.

Información obtenida

Page 35: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

En esta imagen se muestran los expertos extraídos del artículo. Estos pueden ser modificados, borrados o se pueden añadir nuevos; como mucho habrán 8 expertos.

Información obtenida

Page 36: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Una vez revisado el artículo, guardamos los cambios, el artículo pasa de pendiente a revisado y se inserta una fila nueva en la BD.

Finalidad: Base de datos

Page 37: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Ejemplo de cómo aprovechar la tecnología desarrollada para nuevos proyectos

DOSSIER GPLSI

Page 38: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Dossier

¿Y si aprovechamos los módulos desarrollados para la obtención de noticias de cualquier género?

Page 39: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Dossier

¿Y si aprovechamos los módulos desarrollados para la obtención de noticias de cualquier género?

Page 40: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Dossier

Dossier de prensa automatizado Información de los medios sobre tu empresa u

organización Aprende de sus errores y mejora los resultados Procesa decenas de periódicos nacionales e

internacionales

Page 41: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Dossier

Dossier de prensa automatizado Información de los medios sobre tu empresa u

organización Aprende de sus errores y mejora los resultados Procesa decenas de periódicos nacionales e

internacionales Vigilancia competitiva

Vigila cientos de fuentes cada día Extrae información de boletines oficiales Filtra información irrelevante Envía avisos programables Almacena la información ya procesada

Page 42: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Dossier

Dossier de prensa automatizado Información de los medios sobre tu empresa u

organización Aprende de sus errores y mejora los resultados Procesa decenas de periódicos nacionales e

internacionales Vigilancia competitiva

Vigila cientos de fuentes cada día Extrae información de boletines oficiales Filtra información irrelevante Envía avisos programables Almacena la información ya procesada

Gestión Documental

Page 43: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Módulos principales

Newsdowloader Es el núcleo de la aplicación, se compone

principalmente de un crawler, un clasificador y un motor de búsqueda. Se encarga de descargar, clasificar las noticias y distribuirlas en los diferentes dossiers según esta clasificación.

Dossier Se trata del portal del dossier. Es una aplicación

web que permite administrar usuarios, gestionar las noticias que queremos publicar, generar el dossier en pdf o enviarlo por correo.

Dossearch El buscador del dossier, permite realizar búsquedas

en toda la hemeroteca con la posibilidad de filtrar entre fechas o periódicos en concreto.

Page 44: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para

descargar y obtener noticias Implementación de nuevos módulos para

acelerar la incorporación de nuevos periódicos Dapper XPATH RSS

Nuevas fuentes Boletines oficiales

Page 45: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para

descargar y obtener noticias Arranque y clasificación sin necesidad de

un corpus. Uso de bolsa de palabras para clasificación

inicial de noticias. La bolsa de palabras la define cada usuario

según sus necesidades

Page 46: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para

descargar y obtener noticias Arranque y clasificación sin necesidad de

un corpus. Creación de dossier en pdf

Posibilidad de envío por correo Edición del mensaje Configuración de lista de destinatarios

Page 47: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para

descargar y obtener noticias Arranque y clasificación sin necesidad de

un corpus. Creación de dossier en pdf Vigilancia y gestión documental

Accede al portal y comparte la información obtenida rápidamente

Page 48: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para

descargar y obtener noticias Arranque y clasificación sin necesidad de

un corpus. Creación de dossier en pdf Vigilancia y gestión documental Buscador de noticias

Indexación de las noticias Aplicación web buscador

Filtrado por fecha Clustering de periódicos

Page 49: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

La aplicación dossier

Page 50: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Menú de gestión del Dossier

Page 51: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Gestión de las noticias

Page 52: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Opciones del menú

Page 53: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Dossearch: El buscador

Page 54: INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Muchas gracias por la atención

¿Preguntas, sugerencias?