Top Banner
QALL-ME: Question Answering Learning technologies in a multiLingual and multiModal Envinroment * Rub´ en Izquierdo, Oscar Ferr´ andez, Sergio Ferr´ andez, David Tom´ as Jos´ e Luis Vicedo, Patricio Mart´ ınez, y Armando Su´ arez Departamento de Lenguajes y Sistemas Inform´aticos Universidad de Alicante {ruben, ofe, sferrandez, dtomas, vicedo, patricio, armando}@dlsi.ua.es Resumen: En este documento presentamos el proyecto QALL-ME, relacionado con las tecnolog´ ıas de los sistemas de informaci´on. El proyecto tiene un duraci´on de 36 meses y esta financiado por la Uni´on Europea y ser´a llevado a cabo por 7 insti- tuciones. El objetivo general es establecer una infraestructura compartida para la usqueda de Respuestas en un dominio abierto multiling¨ ue y multimodal para dis- positivos m´oviles. Con las necesidades de informaci´on actuales de la sociedad, se atisba un mercado potencial enorme de los distintos objetivos que se persiguen en el QALL-ME. Palabras clave: Proyecto QALL-ME, B´ usqueda Respuestas dominio abierto, mul- tilingualidad , multimodalidad, dispositivos m´oviles Abstract: In this paper, the QALL-ME project, related to the Information Sys- tems Technologies, is introduced. The project is 36 months long, it is founded by the European Union and it will carry out by 7 institutions. The main goal is to esta- blish a shared infrastructure for multilingual and multimodal open domain Question Answering for mobile phones. Taking into account the current information needs of the society, the different aims pursued by the project are expected to have a big potential market. Keywords: QALL-ME project, open domain Question Answering, multilinguality, multimodality, mobile devices 1. Introducci´on “¿D´ onde puedo comer paella esta noche?”. Responder a este tipo de preguntas se ha con- vertido recientemente en una oportunidad de negocio real, con una gran serie de servicios que van desde la tradicional atenci´on al clien- te hasta una oferta cada vez mayor de asis- tencia basadas en la web. El departamento de Lenguajes y Sistemas Inform´aticos de la Uni- versidad de Alicante participa en el proyecto europeo QALL-ME, junto a seis instituciones de otros tres pa´ ıses miembros de la Uni´on Eu- ropea (Italia, Alemania y Reino Unido), en el que se est´a desarrollando una infraestruc- tura inform´atica a trav´ es del tel´ efonom´ovil para que cualquier turista o ciudadano de * Este trabajo ha sido llevado a cabo por el consor- cio QALL-ME, el Sexto Programa Marco de Investi- gaci´on de la Uni´on Europea (UE), referencia: FP6- IST-033860. Los autores agradecen a la UE su apoyo econ´omico,as´ ı como a los integrantes del consorcio, por su fruct´ ıferacolaboraci´on.Param´asinformaci´on sobre el consorcio QALL-ME visite la p´agina web del proyecto, http://qallme.itc.it/ uno de estos cuatro pa´ ıses pueda acceder ins- tant´ aneamente a diferentes informaciones re- lacionadas con el sector servicios, ya sea una pel´ ıcula en el cine, un teatro o un restaurante de un tipo determinado de comidas. Actualmente, los portales de voz, servicios que ofrecen acceso a informaci´on contenida en webs a trav´ es de voz, est´anexperimentan- do un incremento exponencial en populari- dad. Estos servicios suministran a los usua- rios una amplia gama de informaci´on: hora- rios,previsionesmeteorol´ogicas,informaci´on de tr´afico, eventos culturales y sociales, etc. Uno de los factores m´as valorados en la de- manda es el dinamismo, es decir, los usua- rios requieren y solicitan informaci´on comple- tamente actualizada. Precisamente mantener toda esta compleja informaci´on actualizada, junto a las tareas de recopilaci´on de nueva in- formaci´ on, es la tarea m´as cara y costosa de los portales de voz y de los sistema de infor- maci´ on basados en web. El proyecto QALL-ME, es un proyecto
5

QALL-ME: Question Answering Learning technologies … Question Answering Learning technologies in a multiLingual and multiModal Envinroment ⁄ Rub en Izquierdo, Oscar Ferr andez,

Mar 19, 2018

Download

Documents

vuongquynh
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: QALL-ME: Question Answering Learning technologies … Question Answering Learning technologies in a multiLingual and multiModal Envinroment ⁄ Rub en Izquierdo, Oscar Ferr andez,

QALL-ME: Question Answering Learning technologies in amultiLingual and multiModal Envinroment ∗

Ruben Izquierdo, Oscar Ferrandez,Sergio Ferrandez, David Tomas

Jose Luis Vicedo, Patricio Martınez,y Armando Suarez

Departamento de Lenguajes y Sistemas InformaticosUniversidad de Alicante

{ruben, ofe, sferrandez, dtomas, vicedo, patricio, armando}@dlsi.ua.es

Resumen: En este documento presentamos el proyecto QALL-ME, relacionado conlas tecnologıas de los sistemas de informacion. El proyecto tiene un duracion de 36meses y esta financiado por la Union Europea y sera llevado a cabo por 7 insti-tuciones. El objetivo general es establecer una infraestructura compartida para laBusqueda de Respuestas en un dominio abierto multilingue y multimodal para dis-positivos moviles. Con las necesidades de informacion actuales de la sociedad, seatisba un mercado potencial enorme de los distintos objetivos que se persiguen enel QALL-ME.Palabras clave: Proyecto QALL-ME, Busqueda Respuestas dominio abierto, mul-tilingualidad , multimodalidad, dispositivos moviles

Abstract: In this paper, the QALL-ME project, related to the Information Sys-tems Technologies, is introduced. The project is 36 months long, it is founded bythe European Union and it will carry out by 7 institutions. The main goal is to esta-blish a shared infrastructure for multilingual and multimodal open domain QuestionAnswering for mobile phones. Taking into account the current information needs ofthe society, the different aims pursued by the project are expected to have a bigpotential market.Keywords: QALL-ME project, open domain Question Answering, multilinguality,multimodality, mobile devices

1. Introduccion

“¿Donde puedo comer paella esta noche?”.Responder a este tipo de preguntas se ha con-vertido recientemente en una oportunidad denegocio real, con una gran serie de serviciosque van desde la tradicional atencion al clien-te hasta una oferta cada vez mayor de asis-tencia basadas en la web. El departamento deLenguajes y Sistemas Informaticos de la Uni-versidad de Alicante participa en el proyectoeuropeo QALL-ME, junto a seis institucionesde otros tres paıses miembros de la Union Eu-ropea (Italia, Alemania y Reino Unido), enel que se esta desarrollando una infraestruc-tura informatica a traves del telefono movilpara que cualquier turista o ciudadano de

∗ Este trabajo ha sido llevado a cabo por el consor-cio QALL-ME, el Sexto Programa Marco de Investi-gacion de la Union Europea (UE), referencia: FP6-IST-033860. Los autores agradecen a la UE su apoyoeconomico, ası como a los integrantes del consorcio,por su fructıfera colaboracion. Para mas informacionsobre el consorcio QALL-ME visite la pagina web delproyecto, http://qallme.itc.it/

uno de estos cuatro paıses pueda acceder ins-tantaneamente a diferentes informaciones re-lacionadas con el sector servicios, ya sea unapelıcula en el cine, un teatro o un restaurantede un tipo determinado de comidas.

Actualmente, los portales de voz, serviciosque ofrecen acceso a informacion contenidaen webs a traves de voz, estan experimentan-do un incremento exponencial en populari-dad. Estos servicios suministran a los usua-rios una amplia gama de informacion: hora-rios, previsiones meteorologicas, informacionde trafico, eventos culturales y sociales, etc.Uno de los factores mas valorados en la de-manda es el dinamismo, es decir, los usua-rios requieren y solicitan informacion comple-tamente actualizada. Precisamente mantenertoda esta compleja informacion actualizada,junto a las tareas de recopilacion de nueva in-formacion, es la tarea mas cara y costosa delos portales de voz y de los sistema de infor-macion basados en web.

El proyecto QALL-ME, es un proyecto

Page 2: QALL-ME: Question Answering Learning technologies … Question Answering Learning technologies in a multiLingual and multiModal Envinroment ⁄ Rub en Izquierdo, Oscar Ferr andez,

de 36 meses de duracion, financiado por laUnion Europea y que sera llevado a cabopor un consorcio de siete instituciones, cua-tro de ellas academicas, y las otras tres com-panıas industriales. El objetivo es estable-cer una infraestructura compartida para laBusqueda de Respuestas (Question Answe-ring, QA) en dominio abierto multilingue ymultimodal para dispositivos moviles. El pro-yecto experimentara con el potencial del QAde dominio abierto y su evaluacion en el con-texto de la busqueda de informacion desdedispositivos moviles, un escenario multimo-dal que incluye el habla natural como entra-da, y la integracion de respuestas textuales,mapas, imagenes y videos cortos como sali-da. El dominio seleccionado esta representa-do por el conjunto de eventos locales de unaciudad, normalmente disponibles a traves desitios web especializados, periodicos o publi-caciones locales.

2. La Busqueda de Respuestas

En 1999 se establecio un foro para laevaluacion y comparacion de sistemas deBusqueda de Respuestas dentro de la seriede Conferencias TREC1, relacionadas con laRecuperacion de Textos. La investigacion ensistemas de Busqueda de Respuesta se incre-mento con la aparicion de este foro, a pesarde que, en principio, este solo estaba dirigidoa sistemas que trabajaran en ingles. En otraserie de conferencias, CLEF2, relacionadastambien con sistemas de Recuperacion de In-formacion, se extendio el ambito a otras len-guas, incluido el espanol, y de nuevo se mo-tivo la investigacion en sistemas de Busquedade Respuestas. La tarea de Busqueda de Res-puestas dentro de el foro CLEF empezo en2003, y desde entonces, el esfuerzo se ha cen-trado en anadir el tratamiento de nuevas len-guas, principalmente europeas, y anadir in-novaciones (complejidad de preguntas, trata-miento de lenguas distintas entre pregunta yrespuesta, etc)siempre sin perder la esenciaoriginal de la tarea.

La Busqueda de Respuestas en dominioabierto (open domain Question Answering)es la principal tecnologıa que hay detras delproyecto. QA toma una pregunta formuladaen lenguaje natural y devuelve una respuestadesde una coleccion de fuentes de informa-cion (documentos o bases de datos). A dife-

1http://trec.nist.gov2http://www.clef-campaign.org

rencia de las tecnologıas de recuperacion deinformacion que sustentan algunos motoresde busqueda como Yahoo o Google, QA nodevuelve un conjunto relevante de documen-tos para la consulta especificada, sino quedevuelve la respuesta concreta a la pregun-ta realizada. Esta es una caracterıstica im-portante de los sistemas de QA, permitenel tratamiento de preguntas bien formuladasen lenguaje natural en lugar de secuenciasde palabras inconexas (Recuperacion de In-formacion) o plantillas fijas (Extraccion deInformacion). Se considera que la tecnologıaactual de QA esta lo suficientemente madu-ra como para pasar del simple tratamien-to de preguntas sobre hechos concretos (fac-tual questions), a otras mas complejas conuna interaccion mas natural y conocimien-to mas profundo. Desde el punto de vistade aplicacion, QA esta reconocida como unade las tecnologıas de mayor interes para laWeb Semantica(McGuinness, 2004), que re-querira tanto del uso de aplicaciones de len-guaje natural como de tecnicas de razona-miento basadas en la explotacion intensivadel conocimiento.

2.1. La Busqueda de Respuestasen Dispositivos Moviles

Como hemos comentado, el proposito esdemostrar la viabilidad de las soluciones deQA propuestas a traves de su integracion enun escenario de aplicacion concreto: Busque-da de Respuestas sobre informacion de even-tos locales desde dispositivos moviles. Dichaintegracion seguira cuatro direcciones relacio-nadas principalmente con la explotacion de laWeb Semantica y las Tecnologıas de Interfa-ces Multimodales para QA. En concreto, losobjetivos de integracion corresponden con:

Servicios Web para QA

Tecnologıa de Wrappers

QA hablado

QA multimodal

Se disenara una arquitectura de softwaredistribuido para optimizar las comunicacio-nes entre los modulos de software y alcan-zar un balance computacional adecuado entrecliente y servidor. Tambien se llevara a ca-bo un desarrollo de herramientas (como porejemplo los Interfaces de Programacion deAplicaciones) que posiblemente seguiran las

Page 3: QALL-ME: Question Answering Learning technologies … Question Answering Learning technologies in a multiLingual and multiModal Envinroment ⁄ Rub en Izquierdo, Oscar Ferr andez,

recomendaciones de Organizaciones Interna-cionales, como el W3C.

3. Objetivos y Desarrollo delProyecto

El objetivo principal del proyecto QALL-ME es establecer una infraestructura com-partida para QA en dominio abierto y multi-lingue y multimodal desde dispositivos movi-les. Podemos diferenciar entre objetivos tec-nologicos y objetivos de investigacion. Entrelos objetivos tecnologicos cabe resaltar:

- QA multimodal, multilingue y de do-minio abierto. Se pretende desarrollarun sistema de QA que sea capaz de in-teractuar con el usuario por medio dedistintos tipos de fuentes (texto, voz,imagenes) y haciendo uso de tecnologıasaplicables a cualquier tipo de dominio.En cuanto a la multilingualidad, el pro-yecto QALL-ME desarrollara un estruc-tura comun de QA en varias lenguas. Pa-ra ello se integraran una unica infraes-tructura independiente del lenguaje lasdistintas herramientas dependientes decada idioma que desarrollen cada uno delos grupos participantes.

- QA que permita la interaccion con elusuario y sensible al contexto. Paraser capaces de evaluar los modulos desa-rrollados en un escenario real, y tomaral usuario como el foco de atencion, sepretende desarrollar las funcionalidadesnecesarias para integrar la informacioncontextual (espacial y temporal) en elproceso de busqueda de la respuesta. Sepretende utilizar este tipo de informa-cion tanto en el proceso de interpreta-cion de la pregunta, como en la fase depresentacion de la respuesta.

- Tecnologıas de aprendizaje automati-co para QA. El objetivo es implemen-tar componentes de QA basados en algo-ritmos de aprendizaje automatico mıni-mamente supervisados que proporcionenresultados satisfactorios con una canti-dad limitada de datos de entrenamiento.Se usara este tipo de tecnicas en las fasesde: analisis de la pregunta, reformulacionde la pregunta y extraccion y validacionde la respuesta.

El otro tipo de objetivos son los de inves-tigacion, entre estos podemos encontrar va-

rios. Por ejemplo, un estado del arte sobre losultimos avances en la complejidad de las pre-guntas que maneja el sistema (como las pre-guntas del tipo “¿como...?”; el desarrollo deuna arquitectura basada en web para la reali-zacion de QA interlingua (con la pregunta enuna lengua y la respuesta en otra lengua dife-rente); la implementacion de sistemas de QAen tiempo real para aplicaciones concretas; laintegracion del contexto espacial y temporaltanto para la interpretacion de la respuestacomo para la extraccion de la misma; el de-sarrollo de un marco robusto para la aplica-cion de algoritmos de aprendizaje automati-co mınimamente supervisados en tareas deQA y la inclusion de tecnologıas desarrolla-das de reconocimiento automatico del hablaen el marco de la Busqueda de Respuestas endominio abierto.

La infraestructura que se desea desarrollaren el QALL-ME para la realizacion de QAmultilingue y multimodal, debe incluir estasentre otras funcionalidades:

Recopilar, y actualizar de forma au-tomatica informacion relevante extraıdadesde distintas fuentes de datos (estruc-turados y no estructurados)

Procesar automaticamente preguntascomplejas de forma multilingue y tenien-do en cuenta tanto el contexto espacialcomo el temporal en el que se realizan

Facilitar el acceso multimodal al sistema,utilizando texto escrito o voz

Presentar al usuario una informacioncorrecta, completa y concisa, extraıdadesde distintas fuertes, con distintos for-matos y lenguas

Combinar distintos formatos en la pre-sentacion de informacion al usuario: tex-tos, mapas, imagenes. . .

La Figura 1 muestra los modulos princi-pales que componen la parte centra de la ar-quitectura distribuida de QALL-ME.

Todos los modulos se implementaran comoServicios Web utilizando lenguajes estandarpara la definicion de Servicios. El planificadorcentral se encargara de la interpretacion mul-tilingue de las consultas. Este modulo recibela consulta como entrada, procesa la pregun-ta en el lenguaje en el que se formula y, deacuerdo a sus parametros de contexto, diri-ge la busqueda de la informacion requerida

Page 4: QALL-ME: Question Answering Learning technologies … Question Answering Learning technologies in a multiLingual and multiModal Envinroment ⁄ Rub en Izquierdo, Oscar Ferr andez,

Figura 1: Arquitectura principal QALL-ME

hacia un Extractor de Respuestas local. Laextraccion de la respuesta se realiza sobre di-ferentes representaciones semanticas de la in-formacion que dependen del tipo de la fuen-te original de datos desde la que se obtienela respuesta (si la fuente es texto plano, larepresentacion semantica sera un documentoanotado en XML; si la fuente es un sitio web,la representacion semantica sera una base dedatos construida por un wrapper). Finalmen-te, las respuestas se devuelven al PlanificadorCentral que determina cual es el mejor mediopara representar la informacion solicitada.

El proyecto tiene una duracion de 36 me-ses como hemos comentado y esta organizadoen 11 modulos de trabajo:

WP0: Direccion del proyecto

WP1: Requerimientos de usuario

WP2: Diseno de la arquitectura del sis-tema

WP3: Interpretacion multilingue de lapregunta

WP4: Acceso a los datos

WP5: Extraccion multilingue de la res-puesta

WP6: Interaccion multimodal

WP7: Integracion del sistema

WP8: Demostracion y exhibicion

WP9: Evaluacion

WP10: Diseminacion y explotacion

El proyecto se divide en 3 ciclos de desa-rrollo y pruebas. Cada ciclo incluye una fa-

se de especificaciones funcionales y de usua-rio (WP1 y WP2), una fase de desarro-llo (WP3. . .WP7) seguida de la realizacionde demostraciones y experimentos de cam-po (WP8) y una fase de evaluacion (WP9).El final de los 3 ciclos (meses 12, 24 y 36)se corresponden con las 3 principales etapasintermedias del proyecto que mostraran el es-tado de desarrollo del QALL-ME.

El modulo de diseminacion (WP10), apar-te de las publicaciones academicas y en pren-sa, comprende el mantenimiento de la web delproyecto3 y la organizacion de varios works-hops, uno a la finalizacion del proyecto, y elWorkshop on Advances in Question Answe-ring, dentro del programa de actividades delSIGIR de 20074(por confirmar).

4. Potencial de Mercado

La busqueda de respuestas se ha conver-tido en un area de investigacion de rapidocrecimiento y con un gran potencial comer-cial. El analisis y proceso de preguntas for-muladas en lenguaje natural en entornos ba-sados en Internet, sobre la base de una in-fraestructura distribuida para aplicaciones deQA que emplee tecnologıa avanzada del len-guaje de caracter multilingue, permitira laaparicion de entornos orientados a la recu-peracion, evaluacion y navegacion de infor-macion tremendamente accesibles y adapta-dos al usuario final. Las funcionalidades delos sistemas de QA, especialmente aquellosmetodos que soportan la comunicacion inter-activa con los usuarios, permitiran su inte-gracion en aplicaciones relacionadas con lacomunicacion movil, cuya principal forma deinteraccion es el lenguaje natural.

Se atisba un mercado potencial enormeen las diferentes direcciones perseguidas enel proyecto QALL-ME. Tal y como sugiereel crecimiento exponencial que los serviciosde suministro de informacion (call centers)estan experimentando, se necesitara de servi-cios de busqueda y recuperacion de informa-cion de alta precision que reduzcan de formadrastica el tiempo que un empleado necesi-ta para localizar y suministrar dicha infor-macion a los usuarios del servicio. En con-secuencia, la habilidad de gestionar de for-ma automatica incluso una pequena parte detodas estas solicitudes de informacion ofrece

3http://qallme.itc.it4http://www.sigir2007.org

Page 5: QALL-ME: Question Answering Learning technologies … Question Answering Learning technologies in a multiLingual and multiModal Envinroment ⁄ Rub en Izquierdo, Oscar Ferr andez,

nuevas oportunidades de negocio para aque-llas empresas relacionadas con las telecomu-nicaciones y con la prestacion de servicios deinformacion web.

5. El Consorcio QALL-ME

El consorcio QALL-ME esta compuestopor siete instituciones de cuatro paıses miem-bros de la Union Europea: Italia, Reino Uni-do, Espana y Alemania). Cuatro de los parti-cipantes son instituciones academicas (ITC-irst, University of Wolverhampton, Univer-sity of Alicante, and DFKI) mientras quelas otras son empresas radicadas en Italia.Ademas, se ha conseguido que otras empre-sas e instituciones se interesen por el proyec-to como, por ejemplo, LaNetro5 que, amable-mente, esta proporcionando los datos sobre laprovincia de Alicante que serviran para desa-rrollar y evaluar los sistemas.

ITC-irst, Project CoordinatorTCC-divisionPovo, Trento – Italyhttp://www.itc.it/irstProject Manager: Bernardo Magnini

DFKILanguage Technology research lab Germanyhttp://www2.dfki.de/webContact Person: Guenter Neumann

5http://www.lanetro.com

Universidad de AlicanteDepartamento de Lenguajes y SistemasInformaticosEspanahttp://www.ua.esContact Person: Jose Luis Vicedo

University of WolverhamptonComputational Linguistics GroupUnited Kingdomhttp://www.wlv.ac.ukContact Person: Ruslan Mitkov

Comdata S.p.A.Torino - Italyhttp://www.comdata.itContact Person: Giorgio Sangalli

Ubiest S.p.A.Treviso - Italyhttp://www.ubiest.comContact Person: Nicola De Mattia

Waycom S.r.l.Albisola Superiore, Savona - Italyhttp://www.waycom.itContact Person: Paolo Rossi

Bibliografıa

McGuinness, Deborah L. 2004. Question an-swering on the semantic web. IEEE Inte-lligent Systems, 19(1):82–85.