cenidet Centro Nacional de Investigación y Desarrollo Tecnológico Departamento de Ciencias Computacionales TESIS DE MAESTRÍA EN CIENCIAS Extracción de Información Basada en Técnicas de Alineamiento de Ontologías presentada por Felipe Antonio Román Albores Lic. en Sistemas Computacionales por la Universidad Autónoma de Chiapas como requisito para la obtención del grado de: Maestría en Ciencias en Ciencias Computacionales Director de tesis: Dra. Azucena Montes Rendón Co-Director de tesis: MC. José Alejandro Reyes Ortiz Cuernavaca, Morelos, México. 28 de octubre de 2011
137
Embed
Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
cenidet
Centro Nacional de Investigación y Desarrollo Tecnológico
Departamento de Ciencias Computacionales
TESIS DE MAESTRÍA EN CIENCIAS
Extracción de Información Basada en Técnicas de Alineamiento de Ontologías
presentada por
Felipe Antonio Román Albores Lic. en Sistemas Computacionales por la Universidad Autónoma de Chiapas
como requisito para la obtención del grado de: Maestría en Ciencias en Ciencias Computacionales
Director de tesis:
Dra. Azucena Montes Rendón
Co-Director de tesis: MC. José Alejandro Reyes Ortiz
Cuernavaca, Morelos, México. 28 de octubre de 2011
cenidet
Centro Nacional de Investigación y Desarrollo Tecnológico
Departamento de Ciencias Computacionales
TESIS DE MAESTRÍA EN CIENCIAS
Extracción de Información Basada en Técnicas de Alineamiento de Ontologías
presentada por
Felipe Antonio Román Albores Lic. en Sistemas Computacionales por la Universidad Autónoma de Chiapas
como requisito para la obtención del grado de: Maestría en Ciencias en Ciencias Computacionales
Director de tesis: Dra. Azucena Montes Rendón
Co-Director de tesis:
MC. José Alejandro Reyes Ortiz
Jurado: Dr. David Eduardo Pinto Avendaño-Presidente Dr. Juan Gabriel González Serna-Secretario
Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente
Cuernavaca, Morelos, México. 28 de octubre de 2011
Dedicatoria
A Dios
Porque este triunfo no sería lo mismo si no tuviera la fé que tengo en él,
así como también la salud y bienestar que me ha brindado.
A mi madre
Rocío Albores Millares†, porque siempre ha estado conmigo todos los
días de mi vida ya que sin su ayuda, apoyo y fé en ella no hubiese
logrado llegar hasta este punto de mi vida. Y que en los momentos más
importantes ha estado ahí para ayudarme a escoger la mejor opción y
por colocar en mi camino siempre a las personas correctas para
ayudarme en este largo caminar de la vida.
A ella
Flor de Margarita Nucamendi González (Maggy) por devolverme esa luz
de esperanza que había perdido; por llegar en un momento muy difícil de
mi vida ya que con su amor y cariño me ha devuelto la alegría y felicidad
todos los días.
Agradecimientos
Esta tesis de maestría no hubiese sido posible sin la ayuda de mi directora de tesis la Dra.
Azucena Montes Rendón y mi codirector el M.C. José Alejandro Reyes Ortiz que han empleado
tiempo y esfuerzo para verla culminada. A ellos mis más sinceros agradecimientos; sin embargo,
existen otras personas e instituciones que hicieron posible este esfuerzo conjunto las cuales nombraré
a continuación:
Al Consejo Nacional de Ciencia y Tecnología (CONACYT) por el apoyo económico que me
brindó durante mis estudios de posgrado.
Al Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET) por la preparación
que los profesores-investigadores de esta institución me brindaron en la maestría, ya que su
aportación se ve reflejada en esta tesis.
A mi Madre Roció Albores Millares† por darme la vida y la ayuda necesaria en los momentos
que más lo necesito. Así mismo agradezco a sus hermanos que sin saberlo siempre han estado ahí
para mí, aportándome la ayuda necesaria para ver terminado un logro más.
A mis revisores de tesis, Dr. Hugo Estrada Esquivel, Dr. Juan Gabriel González Serna y por
último al Dr. David Eduardo Pinto Avendaño por ser parte de este logro así como sus comentarios
sugerencias y correcciones que hicieron posible para que esta tesis fuese terminada.
Al Ing. Juan Aniceto Orantes Grajales por brindarme su amistad, consejos y apoyo para
emprender una aventura que se ve finalizada con esta tesis, ya que sin su consejo de realizar la
maestría en CENIDET no hubiera aprendido y vivido cosas que me cambiaron completamente la vida.
Le agradezco la confianza que me brindó para desempeñarme como desarrollador en su empresa
HighBits.
A mis compañeros de maestría, que con la convivencia casi diaria me lograron enseñar el
valor de la amistad, a todos ellos gracias, pero sobre todo a Ricardo Estrada, Nazir Molina, Everardo
Munguía, Carlos Méndez, Karen Hernández y Emmanuel Vásquez.
Me gustaría nombrar a cada una las personas que tocaron lo más profundo de mis
pensamientos, sentimientos y acciones en mi corta vida pero son tantas que no terminaría de
nombrarlos a todos, algunos de las cuales ya no se encuentran vivos, sin embargo, les agradezco
todo lo que me enseñaron al hacerme parte de su vida en el tiempo que nos conocimos.
¡A todos, Gracias Totales!
Resumen
La Web es una de las herramientas actuales más importantes para obtener conocimiento,
debido a la enorme cantidad de información existente en ella, la cual es objeto de una evolución
constante. Esto ha convertido a la Web en una excelente fuente de investigación en diferentes áreas
de la computación.
Debido a la gran información existente en la Web y a los resultados insatisfactorios que
ofrecen los buscadores actuales, Tim Berners Lee propuso: “La nueva información debe ser reunida
de forma que un buscador la pueda comprender, en lugar de ponerla simplemente en una lista. La
Web Semántica sería una red de documentos más inteligentes que permitan, a su vez, búsquedas
más inteligentes” (Berners-Lee, 2000).
El desarrollo de la Web Semántica requiere la utilización del lenguaje estructurado XML
(Extensible Markup Language), el lenguaje RDF (Resource Description Framework) y el lenguaje OWL
(Web Ontologie Language) que dotan a cada recurso de la Web de significado, logrando con esto que
un buscador semántico puede explotar.
Actualmente en el Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET) se
encuentra en proceso de desarrollo un buscador semántico, que como primera etapa, compete al
módulo de tratamiento de lenguaje natural derivada de la tesis “Traductor de consultas en lenguaje
natural a SPARQL para realizar búsquedas sobre ontologías” de (Vázquez, 2010). Esta tesis es la
primera fase del buscador y ataca la complejidad de las consultas en lenguaje natural para
formalizarla y generar como resultado una tripleta formada por sujeto, predicado, objeto y una consulta
en SPARQL.
El presente trabajo de investigación consiste en la segunda parte del buscador semántico, el
cual es responsable de realizar la extracción de información mediante el uso de técnicas de
alineamiento de ontologías. Esto se realiza para hacer coincidir (mediante similitud sintáctica) las
entidades que conforman a la tripleta con otras estructuras existentes en las ontologías del repositorio.
Esto último es necesario para obtener información relevante al contexto de la búsqueda semántica de
información; es decir, que los alineamientos que se obtengan entre las entidades de una ontología y
las tripletas serán la información concerniente al contexto de la consulta.
Para lograr desarrollar esta segunda etapa del buscador semántico, se propone crear algunos
submódulos que se describen a continuación: a) repositorio de ontologías el cual contiene un número
finito de ontologías, b) alineamiento de ontologías con las tripletas, el cual se realiza con el fin de
obtener resultados de la consulta de entrada, c) filtro de resultados este se encarga de obtener la
respuesta correcta de lo que se obtuvo en el paso anterior y remueve los posibles resultados
erróneos. La integración de los módulos de tratamiento de lenguaje natural (Vázquez, 2010) y de
alineamiento de ontologías con tripletas, forma parte de un buscador semántico basado en
alineamiento de ontologías para la Web semántica llamado ironLP (Information Retrieval from
Ontologies using Natural Language Processing).
Abstract
The Web is one of the most important tools to gain knowledge nowadays, because of the
enormous amount of information in it, which is under constant evolution. This has made the Web an
excellent source of research in different areas of computing.
Due to the large existing information on the Web and the unsatisfactory results provided by
search engines, Tim Berners Lee proposed: "The new information must be gathered on a way that one
search engine can understand, rather than simply put on a list. The Semantic Web documents would
be a more intelligent network to allow smarter searches” (Berners-Lee,2000).
The development of the Semantic Web requires the use of structured language XML
Language) which give meaning to each page, to each resource or content of the Web, thereby
computers achieve to understand concepts related to existing resources.
Currently in the National Center for Research and Technological Development (CENIDET) is in
process of developing a semantic search engine, which as a first step lies with the natural language
processing module which will be conducted by the thesis "Traductor de consultas en lenguaje natural a
SPARQL para realizar búsquedas sobre ontologías" (Vazquez, 2010). This thesis is the first phase of
the search and attacks the complexity of natural language queries to execute and generate results in a
triplet consisting of subject, predicate, object and a SPARQL query.
This research work is the second part of the semantic search engine, which is responsible for
performing information extraction using ontology alignment techniques. This is done to match (by
syntactic similarity) the entities that make up the triplet with other structures in the ontologies stored in
the repository. This is necessary to obtain information relevant to the context of the information search
in a semantic search engine, that the alignments obtained on the entities that make up an ontology
with the triplets will be information regarding the context of the query.
To be able to develop this second stage of semantic search engine, create some sub-modules
that are described below: a) the ontologies repository which contains a finite number of domain
ontologies, b) the alignment of ontologies with the triplets, which is performed in order to get relevant
results, c) results filter this is responsible of obtaining the correct answer that is extracted in the
previous step and removes possible erroneous results. The integration of the natural language
processing module (Vazquez, 2010) and ontology alignment with triplets, form part of a semantic
search engine based on ontology alignment for the semantic Web called ironLP (Information Retrieval
using Ontologies from Natural Language Processing).
i
Contenido Lista de tablas ......................................................................................................................................... iv
Lista de ejemplos ..................................................................................................................................... v
Lista de formulas ...................................................................................................................................... v
Lista de figuras ........................................................................................................................................ vi
Lista de gráficas ...................................................................................................................................... vi
Glosario de términos .............................................................................................................................. vii
3.1.5 Ontology mapping for querying heterogeneous information sources ................................... 26
3.1.6 Ontology matching based on Hypernym, Hyponym, Holonym, and Meronym sets in WordNet ......................................................................................................................................... 28
3.2 Sistemas de alineamientos y mapeo basados en grafos ............................................................. 29
Tabla 5. El tercer conjunto de datos está determinado por las siguientes cadenas de caracteres. ... 108
v
Tabla 6. El primer conjunto de pruebas basado en relaciones está determinado por las siguientes
cadenas de caracteres. ........................................................................................................................ 110
Tabla 7. Comparativa del rendimiento de los algoritmos con relaciones ontológicas. ....................... 112
Lista de ejemplos
Ejemplo 5-1.Tripleta simple del patrón A con la incógnita en el dominio. ............................................. 71
Ejemplo 5-2. Tripleta anidada con la incógnita en el dominio de ambas tripletas. ................................ 71
Ejemplo 5-3.Tripleta simple con la incógnita en el rango de la tripleta. ................................................. 71
Ejemplo 5-4.Tripleta anidada con la incógnita en el rango de ambas tripletas. .................................... 72
Ejemplo 5-5.Tripleta anidada con la incognita únicamente en la tripleta B. .......................................... 72
Ejemplo 5-6.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y dos tripletas
bien formadas. ........................................................................................................................................ 72
Ejemplo 5-7.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y tres tripletas
bien formadas. ........................................................................................................................................ 72
Ejemplo 5-8.Consulta simple de tripleta taxonómica con la incógnita en el rango. ............................... 72
Ejemplo 5-9.Consulta simple de tripleta taxonómica con la incógnita en el dominio. ........................... 72
Ejemplo 5-10. Consulta de tripletas anidadas con la incógnita en el rango de la tripleta A y dos tripletas
de tipo G sin incógnitas. ......................................................................................................................... 72
Ejemplo 5-11.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y una tripleta
de tipo G sin incógnitas. ......................................................................................................................... 73
Ejemplo 5-12.Consulta de tripletas anidadas con las incógnita en el rango de las tripletas B y una
tripleta de tipo G sin incógnitas al principio. ........................................................................................... 73
Ejemplo 5-13.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas
de tipo G sin incógnitas. ......................................................................................................................... 73
Ejemplo 5-14.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas
de tipo G sin incógnitas. ......................................................................................................................... 73
Lista de fórmulas
Fórmula 3-1. Función para el alineamiento de los elementos de las ontologías en MaF...................... 20
vi
Lista de figuras
Figura 1-1. Arquitectura general de la herramienta desarrollada en esta investigación.......................... 5
Figura 3-1. Proceso de mapeo para la obtención de ontologías y entidades candidatos. .................... 22
Figura 3-2.Proceso de alineamiento de la herramienta FOAM. ............................................................. 23
Figura 3-3. Proceso de consultas semánticas y mapeo de ontologías.................................................. 26
Figura 3-4. Proceso de igualado de entidades candidato. ..................................................................... 28
Figura 3-5. Proceso de alineamiento del algoritmo ASCO3. ................................................................. 29
Figura 3-6. Relaciones ontológicas transformadas en nodos. ............................................................... 31
Figura 3-7.Herramienta Óptima en ejecución. ....................................................................................... 32
Figura 4-1. Metodología de solución para la extracción de información contenida en ontologías. ....... 42
Figura 5-1. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-A-1. ................................ 74
Figura 5-2. Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-AA-2. ........................... 75
Figura 5-3. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-B-3. ................................ 76
Figura 5-4. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BB-4. .............................. 77
Figura 5-5. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BG-5. ............................. 78
Figura 5-6. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BGG-6. ........................... 79
Figura 5-7. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BGGG-7. ........................ 80
Figura 5-8. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-F-8. ................................ 81
Figura 5-9. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-E-9. ................................ 82
Figura 5-10. Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-GGGB-10. ................. 83
Figura 5-11. Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-GB-11. ....................... 84
Figura 5-12. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-GBB-12. ....................... 85
Figura 5-13. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-GBG-13. ....................... 86
Figura 5-14.Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-GGB-14. ........................ 87
Figura 5-15. Estructura de la meta ontología OntoEvento en (Reyes, 2011). ...................................... 88
Figura 5-16. Porcentaje de efectividad de la herramienta de extracción de información. ..................... 90
Lista de gráficas
Gráfica 1. Resultados finales de los algoritmos. .................................................................................. 103
Gráfica 2. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el primer
conjunto de datos. ................................................................................................................................ 105
Gráfica 3. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el segundo
conjunto de datos. ................................................................................................................................ 107
Gráfica 4. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el tercer
conjunto de datos. ................................................................................................................................ 109
Gráfica 5. Comparativa del rendimiento de los algoritmos con relaciones ontológicas. ...................... 111
vii
Glosario de términos
Alineamiento de ontologías: El alineamiento consiste en dadas dos ontologías, con sus diferentes
entidades (concepto, relación o instancia) encontrar una relación de igualdad uno a uno en cada
entidad que las componen (Ehrig, 2005).
Ontología: Una ontología es una especificación de un dominio, de todo lo que 'existe' en un dominio,
incluyendo los términos, conceptos, entidades, axiomas, teoremas, leyes, reglas, y las acciones que
se pueden realizar sobre todo en el dominio así como la forma de razonar sobre el dominio
(Standford,2007).
OWL: El Lenguaje de Ontología Web (OWL) es un lenguaje para representar ontologías de recursos
Web en la Web Semántica (OWL, 2004).
RDF: El Marco de Descripción de Recursos (RDF) es un lenguaje para la representación de recursos
en la World Wide Web utilizando sentencias RDF triples y es la base para la Web Semántica (RDF,
2004).
SPARQL: El Protocolo SPARQL y RDF Query Language (SPARQL) es un método y lenguaje de
consulta para utilizar un servicio Web para acceder a un conjunto de datos RDF (SPARQL, 2008).
Taxonomía: Ciencia que trata de los principios, métodos y fines de la clasificación (Taxonomía, 2010).
Tripleta: Una tripleta de RDF es un tripleta formado por un sujeto, predicado (o propiedad), y el objeto
en la forma de un objeto RDF tripleta, una tripleta RDF predicado, y un objeto RDF triple, que se
utilizan para el estado representan una afirmación o una declaración acerca de un recurso Web en el
formato de datos RDF(Tripleta, 2010).
XML: El Lenguaje de marcado extensible (XML) es un subconjunto de SGML. Su objetivo es permitir
que SGML genérico sea servido, recibido y procesado en la Web en la forma en que ahora es posible
con HTML. XML ha sido diseñado para facilitar su aplicación y para la interoperabilidad con SGML y
HTML. (XML, 2004).
Capítulo I. Introducción
1
Capítulo 1. INTRODUCCIÓN En este capítulo se describe el contexto en el que se encuentra la investigación junto a la problemática
que se aborda en esta tesis. Se presentan también los objetivos generales, objetivos específicos, la
justificación así como los beneficios aportados por esta investigación, los alcances y las limitaciones
de la presente investigación.
Capítulo I. Introducción
2
1.1 Planteamiento del problema
Desde el surgimiento de la Internet, la Web ha evolucionado de manera significativa iniciando
con las primeras páginas estáticas las cuales eran mantenidas por personas especializadas y donde
los usuarios finales eran tan sólo espectadores; no fue sino hasta la llegada de la denominada Web
2.0 que se derivaron múltiples factores radicales que marcaron pauta de un cambio que tenía como
filosofía principal el de ser una Web para usuarios finales; es decir, las personas que hacen uso de la
Web son los principales responsables de llenarla enriqueciendo su contenido. Esta convergencia
generalizada en su uso y mantenimiento de la Web por los usuarios finales generó múltiples
problemas sobre todo en la recuperación de la información. La Web 3.0, que actualmente se está
desarrollando pretende dar el siguiente paso hacia una Web Semántica la cual es una extensión de la
Web actual (Web 2.0), en la cual se pretende dotar de un mayor significado a los recursos que
tenemos disponibles en la Web, para que cualquier usuario de la red encuentre información de
manera eficiente.
Una de las técnicas más usadas para poder dotar de significado a los recursos existentes en
la Web es por medio de ontologías. Estás ofrecen la oportunidad de que las computadoras puedan
entender las relaciones entre los objetos existentes por medio de lenguajes como lo son RDF y OWL
además proporcionan los medios para obtener información de las ontologías por medio del lenguaje
SPARQL.
El lenguaje RDF (Resource Description Framework) es un lenguaje de propósito general para
la representación de la información en la Web (RDF, 2004). Con este lenguaje se puede obtener una
relación jerárquica de forma estructurada de los recursos existentes en la Web; RDF define la sintaxis
y semántica de SPARQL para RDF (SPARQL, 2008). SPARQL es utilizado para formular las
consultas a través de RDF. El lenguaje OWL está diseñado para el uso de las aplicaciones que
necesitan procesar el contenido de la información en lugar de presentar la información a los seres
humanos (OWL, 2004). Es decir que se utiliza para el intercambio de información entre computadoras.
Al proporcionar a la Web de significado, se solucionan diferentes problemas comunes en la
búsqueda de información que se tienen actualmente. Un ejemplo de ello son los problemas de
sinonimia y polisemia que existen con los buscadores tradicionales, que por lo general no dan
resultados oportunos, ya que no hacen inferencias sobre el tema que el usuario necesita obtener y no
considera la semántica de la búsqueda ni de la información; sin embargo, existen otros problemas
aunados a la utilización de ontologías como lo son: las diferentes formas o metodologías usadas al
crearlas; es por ello que en esta investigación se propone utilizar técnicas de alineamiento para
solventar estos problemas ya que las técnicas utilizadas en el buscador ironLP enriquece los términos
existentes en las tripletas de búsqueda para tener un mayor grado de confianza en las consultas
realizadas.
Capítulo I. Introducción
3
Por lo tanto con esta tesis se desarrolló una herramienta que explota la información contenida
en ontologías haciendo uso de técnicas de alineamiento de ontologías con lo que se enriquecieron
elementos contenidos en las tripletas de consulta con la finalidad de obtener información relevante
para el usuario.
1.2 Descripción del problema
En esta etapa del proyecto del buscador semántico se pretende desarrollar una herramienta
que realice búsquedas semánticas basándose en alineamiento de tripletas con ontologías de dominio.
La complejidad del problema radica en la creación de las ontologías. Para lograr mejores
resultados en la extracción de información se utilizan técnicas de alineamiento de ontologías entre las
entidades candidato. Esta similitud se complica si las ontologías son de dominio diferente ya que se
calcula considerando aspectos sintácticos y semánticos entre clases, relaciones, instancias y axiomas.
El alineamiento entre estas ontologías se realiza para garantizar su interoperabilidad en bases
de conocimientos diferentes. Debido a su naturaleza, las ontologías que son del mismo dominio
pueden ser elaboradas de distintas maneras, ya sea por el ingeniero de ontologías o siguiendo
diferentes metodologías para la elaboración de las mismas de forma manual, semi-automática o
automática. Debido a estos problemas básicos en las ontologías se pueden identificar claramente
otros factores ya que según (Gruber, 1993) son:
Los desajustes de conceptualización que son los desajustes de diferentes
conceptualizaciones del mismo dominio y los desajustes de la explicación que son los desajustes
en la forma de especificar las conceptualizaciones.
1. Los desajustes de conceptualización se pueden clasificar en dos categorías las cuales se
enlistan a continuación.
a. Desajustes en el alcance
b. Desajuste entre la cobertura del modelo y su granularidad
2. La parte de los desajustes de la explicación recaen en tres categorías las cuales se mencionan
a continuación:
a. Desajustes en el estilo del modelado
b. Desajustes terminológicos
c. Desajuste de la codificación
Con la presente investigación se pretende dar solución a los desajustes en el alcance, los
desajustes entre la cobertura del modelo y su granularidad, y por último los desajustes
terminológicos para realizar la extracción de información contenida en las ontologías. En este
sentido y conociendo las implicaciones que conlleva el utilizar las ontologías como medio para la
búsqueda de información se deben de emplear técnicas de alineamiento para la resolución de estos
Capítulo I. Introducción
4
fenómenos concebidos en el momento de la creación de las ontologías de dominio.
1.3 Descripción del marco de trabajo
El presente trabajo de investigación se encuentra embebido dentro de un proyecto general
para la creación de un buscador semántico denominado ironLP (Information Retrieval from Ontologies
using Natural Language Processing).
El objetivo general de ironLP que se describe en (Vázquez, 2010) es: “desarrollar una herramienta
que reciba consultas en lenguaje natural y permita la recuperación de información a partir de un
repositorio de datos estructurados como ontologías, y que mediante técnicas de procesamiento de
lenguaje natural y técnicas de alineamiento de ontologías se conteste a una consulta del usuario”.
Este buscador contiene en su versión más básica dos componentes para su creación. El
primer componente de ironLP es el procesamiento de la consulta en lenguaje natural para la
generación de tripletas. El segundo componente del cual se deriva esta investigación es el uso de
técnicas de alineamiento para la extracción de información contenida en ontologías. Esta
investigación es la encargada de obtener los resultados correctos de las consultas generadas por
medio de tripletas (sujeto, predicado, objeto) que cumplan con los patrones de búsqueda identificados
en esta tesis.
La aportación principal de esta investigación al desarrollo del buscador semántico ironLP
consiste en una herramienta para la extracción de información contenida en ontologías utilizando
técnicas de alineamiento. Esta herramienta permite la inserción de tripletas que cumplan con un
patrón de búsqueda claramente identificado el cual puede ser anidado con otros patrones para hacer
más expresiva la consulta.
En la figura 1-1 se detalla cada uno de los módulos del componente desarrollado para el
buscador semántico de esta investigación:
Figura 1-1. Arquitectura general de la herramienta desarrollada en esta investigación.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
1. Extracción de términos: este módulo es el encargado de extraer información contenida en las
bases de datos léxico-gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo
al término correspondiente.
2. Extracción y mapeo de ontologías:
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
utilizados para realizar mapeos entre
alineamiento de ontologías (sintácticas y de aproximación semántica).
3. Resultado de mapeo de ontologías y tripletas:
únicamente las tripletas completas que
de tripletas ingresadas en la búsqueda corresponda al mismo número de tripletas devueltas con
respuestas correctas.
Capítulo I. Introducción
Arquitectura general de la herramienta desarrollada en esta investigación.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
este módulo es el encargado de extraer información contenida en las
gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo
Extracción y mapeo de ontologías: se encuentra destinado a la extracción de los elementos
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
utilizados para realizar mapeos entre los términos de las tripletas mediante el uso de técnicas de
alineamiento de ontologías (sintácticas y de aproximación semántica).
Resultado de mapeo de ontologías y tripletas: el último módulo se encarga de extraer
únicamente las tripletas completas que contengan información coherente; es decir, que el número
de tripletas ingresadas en la búsqueda corresponda al mismo número de tripletas devueltas con
Capítulo I. Introducción
5
Arquitectura general de la herramienta desarrollada en esta investigación.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
este módulo es el encargado de extraer información contenida en las
gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimos
se encuentra destinado a la extracción de los elementos
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
los términos de las tripletas mediante el uso de técnicas de
el último módulo se encarga de extraer
contengan información coherente; es decir, que el número
de tripletas ingresadas en la búsqueda corresponda al mismo número de tripletas devueltas con
Capítulo I. Introducción
6
1.4 Objetivos
1.4.1 Objetivo General
Desarrollar una herramienta que permita hacer búsqueda de información pertinente en ontologías de
dominio, mediante el alineamiento de ontologías con tripletas.
1.4.2 Objetivos específicos
1. Modificación de un algoritmo para el cálculo del grado de similitud de una tripleta con las
entidades candidato en diferentes ontologías de dominio.
2. Integración del módulo de tratamiento de lenguaje natural (Vázquez, 2010) y el módulo de
alineamiento de ontologías con tripletas.
1.5 Justificación y beneficios
Esta investigación pretende desarrollar una técnica que permita extraer información contenida
en ontologías por medio del tratamiento de estas. Este tratamiento compete a uso de técnicas de
alineamiento de ontologías lo que permite tener una mayor expresividad en los elementos que se
evalúan. El uso de técnicas de alineamiento en la extracción de información tiene la finalidad de
conseguir una probabilidad mayor de obtener mejores resultados. Este proyecto de investigación se
enfoca en el tratamiento ontológico de los elementos de las ontologías con los términos de las tripletas
de búsqueda.
Los beneficios que se obtienen con esta tesis son los siguientes:
1. El desarrollo de una técnica que permita extraer información contenida en ontologías a partir
de la inserción de tripletas de búsqueda las cuales deben contener como mínimo una
incógnita.
2. El tratamiento de los términos contenidos en tripletas que sean identificados como verbos y
nombre común por medio de la herramienta de etiquetado TreeTagger.
3. La extracción de información en múltiples ontologías de dominio.
4. La integración del módulo de extracción de información contenida en ontologías con diferentes
proyectos de análisis lingüísticos los cuales generen como resultado tripletas con los patrones
que recibe como entrada esta herramienta.
5. Identificación de patrones de búsqueda en instancias de ontologías.
6. Identificación de diferentes umbrales con respecto a los elementos ontológicos que se
evalúan.
7. Identificación e implementación de diferentes algoritmos para la comparación de cadenas de
texto derivadas de los elementos ontológicos.
Capítulo I. Introducción
7
Esta investigación deja un precedente importante en el área del tratamiento automático de
lenguaje natural. Los trabajos que se deriven del tratamiento de la consulta en lenguaje natural se
deben acoplar a la entrada de la herramienta la cual permite la inserción de tripletas con diferentes
patrones de búsqueda.
1.6 Alcance y limitaciones
1.6.1 Alcances
1. Selección de técnicas de alineamiento de ontologías por similitud de cadenas y aproximación
semántica.
2. Los resultados obtenidos de las ontologías serán entendibles para el usuario.
3. Se enriquecen los términos de las tripletas de consulta por medio de sinónimos.
4. Se realizan consultas en Español e Inglés.
1.6.2 Limitaciones
1. Se deberá de ingresar una tripleta bien formada (Sujeto, predicado, objeto) o una tripleta con
una incógnita (Sujeto, predicado, x ?) o una con un máximo dos incógnitas (x ?, predicado, y
?) así como una combinación de ellas.
2. Tiempo de procesamiento desconocido.
3. Las ontologías a consultar deben de estar previamente almacenadas en un repositorio y
validadas para su procesamiento.
Capítulo I. Introducción
8
1.7 Organización del documento
En el Capítulo I se detalla el problema existente en el uso y creación de ontologías donde se
definen los puntos que se atacaran con la presente investigación. El siguiente punto describe el marco
de trabajo de la tesis, objetivos generales de la investigación con los que se deben de cumplir, los
beneficios aportados y por último los alcances y las limitaciones que tendrá la investigación,
El Capítulo II describe conceptos utilizados en el presente trabajo de investigación. Se definen
los términos correspondientes a la mediación y tratamiento de ontologías, los recursos utilizados para
el tratamiento de ontologías y las técnicas utilizadas para realizar dichos tratamientos.
El Capítulo III se describe el Estado del arte presentado en este trabajo de investigación. En
este apartado se describen las categorías de los sistemas de alineamiento identificados que utilizan
diferentes técnicas para realizar alineamiento entre ontologías.
En el Capítulo IV se describe la metodología de solución aplicada para dar solución al
problema de la presente investigación. Se detallan cada uno de los módulos propuestos así como los
procesos que cada uno lleva a cabo para obtener los resultados esperados para cumplir con los
objetivos propuestos.
En el Capítulo V se presentan las pruebas que fueron realizadas conforme al estándar IEEE
829-1998. En él se describe la hipótesis presentada, convención de nombres a utilizar, plan de
pruebas, pruebas realizadas, análisis de los resultados y las pruebas fallidas.
El Capítulo VI se presenta las conclusiones a las cuales se llego con el desarrollo de la tesis
así como las aportaciones generadas y trabajos futuros que se derivan de esta tesis.
Capítulo II. Marco teórico
9
Capítulo 2. MARCO TEÓRICO En esta sección se describen los conceptos existentes en el presente trabajo de investigación;
donde se definen los términos correspondientes a la mediación y tratamiento de ontologías, los
recursos usados en el tratamiento de ontologías y las técnicas para realizar dichos tratamientos.
Capítulo II. Marco teórico
10
2.1 Ontologías
En (Gruber, 1993) se definen a las Ontologías como “una especificación de una
conceptualización”. En ese sentido Gruber afirma que una conceptualización es una visión abstracta y
simplificada del mundo que queremos representar con algún propósito. Otro enfoque que parte de
esta definición es descrita en (Huang et. al., 2010) donde los autores delimitan a esta
conceptualización y especificación por separado con la finalidad de dar una definición más clara que la
aportada por Gruber. Los autores en (Huang et. al., 2010) afirman que la “conceptualización es el
proceso que conduce a la extracción y la generalización de la información”. Así mismo también
definen a la especificación como la forma de describir a dicha conceptualización en un lenguaje
formal.
En la metodología descrita en (Corcho, 2005) se definen los elementos que tiene una
ontología. Estos elementos se detallan a continuación:
1. Conceptos: son tomados en un sentido más amplio. Estos conceptos son organizados en
taxonomías y unidos por una relación taxonómica o de subsunción entre ellos.
2. Relaciones: representan un tipo de asociación entre los conceptos del dominio. Existen 2
tipos de relaciones con más relevancia entre los conceptos de una ontología la primera de
ellas es la taxonómica y es una relación binaria que es definida por una etiqueta que describe
a un concepto que “es un” o “parte de”. El otro tipo de relación es la no-taxonómica definida
por etiquetas que describen una acción entre dos conceptos.
3. Instancias: se utilizan para representar elementos o individuos en una ontología.
4. Constantes: son valores numéricos que no cambian durante mucho tiempo
5. Atributos: son utilizados para describir las propiedades de instancias y de los conceptos. Los
cuales se derivan en dos tipos de atributos: los atributos de clases y de instancias. Los
atributos de clase no son heredados por las subclases ni por las instancias y los de instancias
son heredados por las subclases derivadas de la clase donde se definió hasta llegar a la
instancia.
6. Axiomas formales: son expresiones lógicas. Y se utilizan normalmente para especificar
restricciones en la ontología
7. Reglas: son utilizados para inferir el conocimiento de la ontología, en los valores de los
atributos e instancias de relaciones.
Capítulo II. Marco teórico
11
2.2 Mediación de ontologías
En esta subsección se definen los diferentes tratamientos de ontologías (alineamiento y
mapeo) los cuales fueron tomados de (Ehrig et al., 2005) y que se utilizan en el presente trabajo de
investigación, así como también el uso de otros términos relacionados.
1. Mediacion (Mediation): la mediación de ontologías es el nivel superior del proceso del
tratamiento entre ontologías heterogéneas. Ésta incluye la especificación y descubrimiento de
alineamientos entre ontologías.
2. Alineamiento (Alignment): dada dos ontologías, el alineamiento de una ontología con otra
significa que para cada entidad en la primera ontología se trata de encontrar una entidad
correspondiente en la segunda ontología. Por lo tanto una alineación es encontrar entidades
con una relación de igualdad de uno a uno entre entidades.
3. Combinación (Combining): en la combinación son usadas dos o más ontologías diferentes
para una tarea en donde la relación mutua es relevante. La relación de la combinación puede
ser de cualquier tipo, no solamente de identidad.
4. Integración (Integration): para la integración, una o más ontologías son reutilizadas para
crear una nueva ontología. Los conceptos se conservan con posibilidad de ser extendidos. El
origen se queda especificado por medio del espacio de nombres (del Inglés “namespace”).
Este acercamiento es interesante cuando las ontologías son de diferente dominio. Por medio
de la integración la nueva ontología cubre un dominio más grande. El alineamiento es un paso
anterior a la integración ya que por medio de ésta se conocen los términos que se sobreponen
y pueden ser conectados.
5. Igualamiento (Matching): trata de encontrar una correspondencia entre dos entidades. Estas
correspondencias no necesariamente deben ser las mismas en términos sintácticos sin
embargo deben de corresponder al mismo significado de los términos.
6. Mapeo (Mapping): el mapeo se utiliza para consultar diferentes ontologías. Un mapeo en
ontologías representa una función entre ontologías. La ontología original no se modificada
pero los axiomas adicionales describen como expresar los conceptos, relaciones e instancias
en términos de la segunda ontología. Los mapeos encontrados en este proceso son separan
de las propias ontologías. Casi siempre los mapeos se establecen en una dirección, por
ejemplo son aplican de la ontología 1 hacía la ontología 2.
7. Mezcla (Merging): en este caso se crea una nueva ontología a partir de dos o más
ontologías. La nueva ontología unifica y reemplaza a las ontologías utilizadas para su creación
sin poder identificar de que ontología proviene el término. El alineamiento también es un paso
anterior para conocer el solapamiento de los términos de las ontologías
Capítulo II. Marco teórico
12
8. Transformación (Transformation): cuando se transforman ontologías la semántica cambia
esto con la finalidad de que sean más adecuados para otros fines que las de origen.
9. Traducción (Translation): la traducción se define como una operación restringida a la
traducción de datos, que puede incluir sintaxis. Esta traducción es importante cuando se
requiere hacer alineamientos entre ontologías de diferentes idiomas así como de estructura,
como por ejemplo pasar una ontología RDF(s) a OWL
2.3 Técnicas de alineamiento de ontologías
En esta subsección se describen las técnicas de alineamiento de ontologías tomadas a partir
de las definiciones de (Euzenat, 2010) las cuales son descritas a continuación:
1. Técnicas terminológicas (puramente sintácticas). Basadas en la normalización de
cadenas, en la búsqueda de sub-cadenas o patrones y en la noción matemática de distancia,
bien entre una cadena de texto, es decir, conjunto de caracteres donde el orden sí es
importante o considerando que los nombres son conjunto de caracteres donde el orden no es
importante.
2. Técnicas terminológicas (de aproximación semántica). Se basan en la búsqueda de
sinónimos o términos en otros idiomas. Así como en el intento de hacer uso de estructuras
taxonómicas para detectar subsunciones.
3. Técnicas estructurales. Consiste en comparar los tipos de datos de los conceptos de ambas
ontologías, o en la pertenencia a espacios de nombres comunes.
4. Técnicas de comparación semántica. Consiste en el empleo de técnicas procedentes de la
lógica de descripciones y modelos para inferir relaciones que pudieran existir entre ontologías.
5. Técnicas lingüísticas avanzadas. Técnicas avanzadas objeto de investigación por parte de
disciplinas relacionadas con el Procesamiento del Lenguaje Natural.
2.4 Sistemas de extracción de información, recuperación de información y preguntas-respuestas
La definición de recuperación de información (IR del Inglés “Information Retrieval” ) dada en
(Manning, 2008) nos dice que la IR trata de encontrar material de naturaleza no estructurada que
satisface con la necesidad de obtener información en grandes colecciones de documentos.
Los sistemas de extracción de información (IE del Inglés “Information Extraction”) se derivan
de los sistemas de IR donde (Cowie, 1996) afirma que los sistemas de IE, son aquellos sistemas
capaces de procesar de forma selectiva las estructuras de los datos que encuentra en uno o más
textos estructurados o no estructurados. La extracción de información se realiza con técnicas de
procesamiento de lenguaje natural.
Capítulo II. Marco teórico
13
De acuerdo a la definición de (Valero et. al. 2010) dada para los sistemas de preguntas-
respuestas (QAS del Inglés “Question Answering Systems”) esta clase de sistemas consisten en un
flujo de procesamiento único que realiza 3 pasos de forma secuencial los cuales se enlistan a
continuación:
1. Análisis de la pregunta.
2. Documento del que se recuperara la información.
3. Selección de la respuesta.
El proyecto ironLP del que forma parte este trabajo de investigación, se considera un sistema
de preguntas-respuestas con la variante de que está basado en ontologías de dominio para responder
a las preguntas que se ingresan previamente en el módulo de tratamiento de lenguaje natural y que
posteriormente se tratan con el módulo de tratamiento ontológico para dar una respuesta adecuada a
la pregunta.
2.5 Recursos léxicos WordNet y EuroWordNet
El recurso léxico WordNet es según (Miller, 1995) una base de datos léxica, diseñada
para su uso bajo cualquier lenguaje de programación. Esta base de datos contiene verbos,
adjetivos y adverbios. Así mismo existen relaciones de sinonimia entre los términos en inglés
existentes en la base de datos lexicográfica de WordNet, estos conjuntos son llamados synsets.
En (Vossen,1998) se describe a EuroWordNet como una base de datos multilingüe
adaptada para diferentes idiomas de Europa incluidos el Español, está completamente basada
en WordNet y puede ser integrada para tener una mayor riqueza de recursos léxicos en
diferentes idiomas. Está conformada por verbos, adjetivos y adverbios e igual que WordNet está
conformado por conjuntos de sinónimos (synsets).
Los recursos léxicos utilizados para resolver los problemas de alineamiento de ontologías
son WordNet para el idioma Inglés y EuroWordNet para el idioma Español. En la mayoría de los
artículos descritos en el capítulo 3 del presente trabajo de investigación utilizan WordNet como
un recurso léxico para la desambiguación de términos.
En el presente trabajo de investigación se pretende utilizar ambos recursos para realizar
operaciones que incluyen la desambiguación semántica de términos por medio del
enriquecimiento de estos. Esto se realiza con la finalidad de obtener el grado de similitud de dos
términos y descartar las entidades que no son iguales en significado, aunque no coincidan
morfológica o sintácticamente.
Capítulo II. Marco teórico
14
2.6 JENA 2
JENA es una API para la construcción de aplicaciones de la Web semántica en el lenguaje
JAVA de código fuente abierto desarrollado por (McBride, 2002) en los laboratorios de programación
semántica de HP.
La API de JENA provee de métodos para explotar archivos RDF, RDFS, OWL, N3, N-Triples y
DAML, así como también de un motor de consulta SPARQL y un motor de inferencia basado en reglas
el cual puede ser extendido.
Los métodos se utuilizan para acceder a los elementos específicos de la ontología, estos
elementos son clases, relaciones ontológicas, instancias así como el acceso a elementos que son
extraídos haciendo inferencias utilizando el razonador basado en reglas.
Lo primero que se necesita realizar para trabajar con la API de JENA es crear un modelo de la
ontología en memoria, con la finalidad de acceder a todos los elementos del archivo OWL o DAML,
con la siguiente instrucción:
OntModel m = ModelFactory.createOntologyModel();
Esta instrucción permitirá acceder a los elementos de la ontología mediante la variable “m” la cual crea
diferentes tipos de modelos los cuales se describen en la tabla 2-1.
Tabla 2-1. Modelos definidos por JENA para el acceso a elementos de las ontologías.
OntModelSpec Lenguaje Razonador
OWL_MEM OWL full Ninguno
OWL_MEM_TRANS_INF OWL full inferencia transitiva clase jerarquía
OWL_MEM_RULE_INF OWL full razonador basado en reglas con las reglas de OWL
OWL_MEM_MICRO_RULE_INF OWL full razonador basado en reglas con las reglas de OWL
OWL_MEM_MINI_RULE_INF OWL full razonador basado en reglas con un subconjunto de reglas de OWL
OWL_DL_MEM OWL DL Ninguno
OWL_DL_MEM_RDFS_INF OWL DL razonador basado en reglas a nivel de implicaciones RDFS
No utiliza No utiliza No utiliza Inglés OWL Grafo con entidades mapeadas
OPTIMA (Kolli et al., 2008)
2 ontologías Similitud léxica de entidades candidato
Extrae sinónimos de WordNet
Busca homomorfismo entre los grafos
No utiliza No utiliza WordNet y Jena
Inglés N3, RDF y OWL
Grafo con entidades mapeadas
OLA (Euzenat, 2004a)
2 ontologías Similitud léxica de términos
Extrae sinónimos de WordNet
Se realizan mapeos entre grafos verificando la estructura de las propiedades
No utiliza No utiliza WordNet Inglés OWL/ DL
Taxonomía de las ontologías con términos alineados remarcados de azul y archivo de alineamiento
TooCom (Furst et al., 2009)
2 ontologías (convertidas a OCGL)
Similitud léxica de términos
No utiliza Basada en la estructura del grafo
Utiliza axiomas conceptuales
No utiliza No utiliza Inglés OCGL Resumen de entidades mapeadas y el coeficiente de similitud
MAF (Navas et al.,
2007)
Tradicional
2 ontologías Similitud léxica de términos
Extrae sinónimos de EuroWordNet
Comparación de conceptos según el tipo de dato
No utiliza No utiliza WordNet Español OWL Tabla de entidades mapeadas con grado de confianza
PowerMap (López et al.,
2006a)
Múltiples ontologías y tripletas
Similitud léxica de términos
Extrae sinónimos de WordNet, hiponimos e hiperónimos de SUMO
Mapeo de superconceptos y subconceptos
No utiliza No utiliza WordNet y Sumo
Inglés OWL Resultados de tipo semántico
FOAM (Erigh, 2005)
Múltiples ontologías
Similitud léxica de términos
No utiliza Verifica la taxonomía de la ontología
Utiliza motor de inferencia
No utiliza Kaon2 Inglés OWL/ DL
Archivo con entidades alineadas y con el grado de similitud
Capítulo III. Estado del arte
39
LOM (Li, 2004)
Tradicional
2 ontologías Similitud léxica de términos
Extrae sinónimos de WordNet hiponimos e hiperónimos de SUMO y MILO
Mapeo de superconceptos y subconceptos
No utiliza No utiliza WordNet SUMO y MILO
Inglés OWL Tabla de entidades mapeadas con grado de confianza
(Benslimane et al., 2007)
Múltiples ontologías
Similitud léxica de términos
Extrae sinónimos de WordNet
Mapeo de superconceptos y subconceptos
No utiliza No utiliza OWLAPI, y Java WordNet Library
Inglés OWL Tabla de entidades mapeadas con grado de confianza
(Kwak, 2010) Múltiples ontologías
Similitud léxica de términos
Extrae sinónimos de WordNet de SWSS extrae hiponimos, hiperónimos, homónimos y merónimos
Mapeo de superconceptos y subconceptos
No utiliza No utiliza WordNet y SWSS
Inglés OWL Lista de entidades mapeadas con grado de confianza
TESIS Múltiples ontologías y tripletas
Similitud léxica de términos
Uso de WordNet y EuroWordNet
No utiliza No utiliza No utiliza WordNet, EuroWordNet, Jena
Español e Inglés
OWL Página Web con resultados adecuados para el usuario final
Capítulo IV. Metodología de solución
40
Capítulo 4. METODOLOGÍA DE SOLUCIÓN En este apartado se describe la metodología aplicada para dar solución al problema de la
presente investigación. Esta investigación forma parte de una herramienta de búsquedas semánticas
basadas en ontologías llamada ironLP (por sus siglas en Inglés information retrieval using
ontologies and natural language processing). El componente que se describe en esta sección es
el encargado de extraer la información implícita en las ontologías para responder a los
cuestionamientos que se realizan por medio de la introducción de tripletas.
Capítulo IV. Metodología de solución
41
4.1 Arquitectura general
El componente de extracción de información a partir de ontologías utiliza técnicas que son
aplicadas en el alineamiento de ontologías para obtener un resultado. Las dos técnicas de
alineamiento de ontologías utilizadas son la comparación léxico-sintáctica y la aproximación
semántica.
La tabla 4-1 describe los patrones de búsqueda identificados como entrada de la herramienta.
Tabla 4-1. Tipos de tripletas identificadas como entrada al sistema.
Ab. Tripletas Descripción
A [ Subject ?, Predicate, Object ] Extrae las instancias de la ontología que contengan una similitud satisfactoria con la relación y el rango de los términos en la tripleta de búsqueda.
B [Subject, Predicate, Object? ] Extrae las instancias de la ontología que contengan una similitud satisfactoria con la relación y el dominio de los términos en la tripleta de consulta.
C [ Subject , Predicate ?, Object ] Extrae las instancias de la ontología donde el dominio y rango de la tripleta de búsqueda se encuentran relacionados entre sí.
D [Subject?, Predicate, Object ? ] Extrae las instancias de la ontología que son relacionadas por el predicado.
E [ Subject, is-a, Object?] Extrae la clase de la que se deriva la instancia en la taxonomía (Ej: El clarinete, es un, instrumento musical).
F [ Subject ?, is-a, Object ] Extrae instancias de la clase y subclases de la clase que se introduce en el rango.
G [Subject, Predicate, Object ] Extrae las instancias de las ontologías a las que corresponda el sujeto relación y objeto de la tripleta ingresada para realizar la búsqueda.
Al hacer uso de recursos externos se tiene la posibilidad obtener un porcentaje más alto de
encontrar términos que no son sintácticamente iguales; pero si, en su significado al hacer uso de
sinónimos que ayudan a encontrar una relación entre estos elementos. Por lo tanto, se incluyen un
vector de sinónimos para cada elemento de la tripleta que tenga esta información contenida en las
bases de datos lexicográficas para enriquecer estos términos con otros elementos.
Este componente tiene 3 módulos los cuales se especifican en
representa de forma general la metodología de solución propuesta.
En la figura 4-1 se observa la metodología de solución en conjunto.
Figura 4-1. Metodología de solución para la extracción de información contenida en ontologías.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
1. Extracción de términos: este módulo es el encargado de extraer información contenida en las
bases de datos léxico-gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo
al término correspondiente.
2. Extracción y mapeo de ontologías:
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
utilizados para realizar mapeos entre
alineamiento de ontologías (sintácticas y de aproximación semántica).
3. Resultado de mapeo de ontologías y tripletas:
únicamente las tripletas completas que
búsqueda del usuario.
Capítulo IV. Metodología de solución
Este componente tiene 3 módulos los cuales se especifican en la figura 4
representa de forma general la metodología de solución propuesta.
se observa la metodología de solución en conjunto.
Metodología de solución para la extracción de información contenida en ontologías.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
este módulo es el encargado de extraer información contenida en las
gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo
Extracción y mapeo de ontologías: se encuentra destinado a la extracción de los elementos
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
utilizados para realizar mapeos entre los términos de las tripletas mediante el uso de técnicas de
alineamiento de ontologías (sintácticas y de aproximación semántica).
Resultado de mapeo de ontologías y tripletas: el último módulo se encarga de extraer
únicamente las tripletas completas que contengan información concerniente al contexto de la
Capítulo IV. Metodología de solución
42
la figura 4-1 donde se
Metodología de solución para la extracción de información contenida en ontologías.
A continuación se describe brevemente el funcionamiento de cada unos de los módulos.
este módulo es el encargado de extraer información contenida en las
gráficas de WordNet y EuroWordNet de cada término contenido de la
tripleta. También se realiza la identificación de cada término así como la asignación de sinónimos
se encuentra destinado a la extracción de los elementos
contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son
los términos de las tripletas mediante el uso de técnicas de
el último módulo se encarga de extraer
ontengan información concerniente al contexto de la
Capítulo IV. Metodología de solución
43
4.1.1 Extracción de términos
El primer módulo llamado “extracción de términos” identifica cada uno de los elementos de la
tripleta así como su incógnita. Esta identificación se realiza para establecer la posición de la incógnita
o incógnitas dentro de la tripleta así como del tipo de elemento que es ingresado en ella. El desarrollo
del ejemplo que se utiliza para enseñar el funcionamiento de la metodología de solución está basado
en los patrones de búsqueda G, G y B de la tabla 4-1.
En la tabla 4-2 se aprecian las tripletas de entrada que recibe el prototipo generado de esta tesis.
Tabla 4-2. Entrada del prototipo para la búsqueda de información en ontologías.
[ comunicaron, argumento1, la Agencia Meteorológica Japonesa ][ comunicaron, argumento2, temblor ][ temblor, espacio, x ? ]
Posteriormente se realiza un conteo del número de tripletas ingresadas así como la validación
de éstas. Este punto del proceso identifica el número de tripletas que se ingresaron como se aprecia
en la tabla 4-3.
Tabla 4-3. Conteo de tripletas ingresadas.
1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
2. [ comunicaron, argumento2, temblor ]
3. [ temblor, espacio, x ? ]
Número de tripletas ingresadas: 3
El módulo de “extracción de términos” identifica al elemento que contiene la tripleta o tripletas
anidadas incluyendo la incógnita que se desea encontrar como se muestra en la tabla 4-4.
Tabla 4-4. Identificación de elementos contenidos en las tripletas de entrada.
1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
1.1 Sujeto : comunicaron
1.2 Predicado: argumento1
1.3 Objeto: la Agencia Meteorológica Japonesa
Capítulo IV. Metodología de solución
44
2. [ comunicaron, argumento2, temblor ]
2.1 Sujeto : comunicaron
2.2 Predicado : argumento2
2.3 Objeto: temblor
3. [ temblor, espacio, x ? ]
3.1 Sujeto: temblor
3.2 Predicado : espacio
3.3 Incógnita: x ?
En esta etapa del módulo de “extracción de términos” se procede a identificar la categoría
gramatical a la que corresponde cada uno de los términos contenidos en las tripletas. El etiquetador
TreeTagger realiza la identificación de la categoría gramatical y se procede a extraer el verbo o
nombre común que identifica el etiquetador.
En la tabla 4-5 se detalla la acción que sucede en esta parte de la metodología de solución propuesta.
Tabla 4-5. Identificación de la categoría gramatical de los términos existentes con TreeTagger.
1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
1.1 Sujeto : comunicaron
1.1.1 Categoría gramatical: verbo en infinitivo ( VLfin )
3.2.1 Categoría gramatical: es identificado como un nombre común ( NC )
3.2.1.1 Nombre común: espacio
1.3.14 Stop Words: no contiene
3.2.2 Cadena final: espacio
3.3 Incógnita: x ?
3.4 Categoría gramatical: desconocida
Las tripletas ingresadas dentro de la herramienta por lo menos en una tripleta debe existir una
incógnita y como máximo 2 en la misma. La incógnita de la tripleta es el elemento que se requiere
conocer o por el cual se pregunta.
4.1.2 Extracción y mapeo de ontologías
El segundo módulo denominado “Extracción y mapeo de ontologías” es el encargado de
extraer las ontologías necesarias para realizar la búsqueda de información. Este módulo también
extrae los elementos de la ontología; es decir; extrae las instancias, relaciones y clases de la ontología
con la finalidad de realizar mapeos entre los elementos de las tripletas ingresadas.
La extracción de los elementos contenidos en la ontología se realiza con la API de JENA
desarrollada en los laboratorios de semánticos de HP por (McBride, 2002). El mapeo de estos
Capítulo IV. Metodología de solución
48
elementos se determina por el grado de similitud del elemento de la ontología y el término de la
tripleta, esto con el objetivo de obtener un grado de confianza de las cadenas que va desde 0 hasta 1.
El resultado obtenido en la comparación de cadenas de texto se realiza con los algoritmos
(Levensthein,1965), (Needleman&Wunsch, 1970) y (Monge&Elkan, 1996) y se encuentran
implementadas dentro de la librería SimMetric desarrollada por (Chapman, 2005). A continuación de
describen los elementos necesarios para la implementación de cada algoritmo en la herramienta:
1. El algoritmo que se utiliza en cadenas pequeñas de un máximo de 5 caracteres es el
algoritmo de (Levenshtein, 1965) el cual se usa para comparar clases e instancias y
relaciones.
2. El siguiente algoritmo es el de (Nedleman & Wunch, 1970) implementado en la mayoría de las
relaciones e instancias que tiene una longitud mayor a 5 y de no más de 14 caracteres de
longitud.
3. El último algoritmo es el de (Monge&Elkan, 1996) en donde se usa para calcular sobre
cadenas con longitudes mayores a 14 caracteres.
Se utilizan diferentes umbrales para comparar y extraer la información contenida en las
ontologías. En la tabla 4-7 se especifican los umbrales y el elemento ontológico al cual se aplican:
Tabla 4-7. Elementos ontológicos y umbrales establecidos.
Elemento Umbral
Clase .90
Relación .80
Instancia .70
En este módulo se leen las ontologías que se encuentran clasificadas por dominio y
subdominio en la base de datos en donde se encuentran guardadas las direcciones de las ontologías
dentro del repositorio.
En todos los patrones de búsqueda que se describen en la tabla 4-1 se realizan
comparaciones sintácticas de los términos contenidos en las tripletas y los elementos de la ontología
de forma directa haciendo una correspondencia en el tipo de elemento a comparar. Si el resultado de
esa comparación es menor al umbral definido en la tabla 4-7 se procede a comparar el elemento de la
ontología correspondiente con los elementos contenidos en los vectores de sinónimos de cada
Capítulo IV. Metodología de solución
49
término de las tripletas, esto se hace, hasta encontrar un elemento que tenga un grado de similitud por
arriba del umbral definido y se considere como una respuesta correcta.
Siguiendo con el ejemplo del módulo de “extracción de términos” de la tabla 4-5 se realiza el
mapeo de los términos contenidos en las tripletas con los existentes en las ontologías.
En la tabla 4-8 se aprecia la información contenida en la ontología la cual tiene una estructura
que se deriva de (Reyes, 2011) que debe ser mapeada correctamente para extraer la respuesta a la
consulta ingresada de la tabla 4-2 la respuesta que se desea obtener es la instancia de la tripleta 3 en
la posición del objeto.
Tabla 4-8. Información contenida en la ontología de búsqueda.
1. [ anunció, argumento 1, la agencia meteorológica japonesa]
2. [ anunció argumento 2 sismo]
3. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]
Los elementos ontológicos se tratan para eliminar palabras comúnmente conocidas como
“palabras vacías” (ver anexo A). con la finalidad de encontrar el verbo en las instancias que se utilizan
como relaciones. El reconocimiento de las categorías gramaticales se realiza por medio del
etiquetador TreeTagger que es una herramienta de etiquetado gramatical desarrollado por (Schmid,
1994) para realizar anotaciones de texto basado en árboles de decisión.
En la tabla 4-9 se muestra un ejemplo del procesamiento previo de los elementos ontológicos para realizar el mapeo de estos con los términos de las tripletas.
Tabla 4-9. Tratamiento de elementos ontológicos.
1. [ anunció, argumento 1, la agencia meteorológica japonesa]
1.1 Sujeto: anunció
1.1.1 Elemento: Instancia
1.1.2 Categoría gramatical: no encontrada por TreeTagger
1.1.3 Stop Words: no contiene
1.1.4 Cadena final: anunció
1.2 Predicado: argumento1
1.2.1 Categoría gramatical: no encontrada por TreeTagger
1.2.2 Elemento: Instancia de relación
Capítulo IV. Metodología de solución
50
1.2.3 Stop Words: no contiene
1.2.4 Cadena final: argumento1
1.3 Objeto: la agencia meteorológica japonesa
1.3.1 Elemento: Instancia
1.3.2 Categoría gramatical: no encontrada por TreeTagger
2.1.2 Categoría gramatical: no encontrada por TreeTagger
2.1.3 Stop Words: no contiene
2.1.4 Cadena final: anunció
2.2 Predicado: argumento 2
2.2.1 Categoría gramatical: no encontrada por TreeTagger
2.2.2 Elemento: Instancia de relación
2.2.3 Stop Words: no contiene
2.2.4 Cadena final: argumento 2
2.3 Objeto: sismo
2.3.1 Elemento: Instancia
2.3.2 Categoría gramatical: nombre común (NC)
2.3.2.1 Nombre común: sismo
2.3.3 Stop Words: no contiene
2.3.4 Cadena final: sismo
3. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]
3.1 Sujeto: sismo
3.1.1 Elemento: Instancia
3.1.2 Categoría gramatical: nombre común
3.1.2.1 Nombre común: sismo
3.1.3 Stop Words: no contiene
3.1.4 Cadena final: sismo
3.2 Predicado: espacio
Capítulo IV. Metodología de solución
51
3.2.1 Categoría gramatical: nombre común (NC)
3.2.1.1 Nombre común: espacio
3.2.2 Elemento: Instancia de relación
3.2.3 Stop Words: no contiene
3.2.4 Cadena final: espacio
3.3 Objeto: epicentro a 66 km al este de Sendai y a una profundidad de 256 km
3.3.1 Elemento: Instancia
3.3.2 Categoría gramatical: no encontrada por TreeTagger
3.3.3 Stop Words: a, al, este, de, y, una.
3.3.4 Cadena final: epicentro 66 km Sendai profundidad 256 km
La tripleta 1 de la ontología es la primera en ser mapeada con los términos de la tripleta 1 de la consulta del usuario que se específico en la tabla 4-2.
En la tabla 4-10 se desarrolla el ejemplo del mapeo de la tripleta contenida en la ontología junto al tratamiento previo que se realizó con la tripleta de búsqueda 1 descrita en la tabla 4-3.
Tabla 4-10. Mapeo de términos de la tripleta de búsqueda número 1.
1. [ anunció, argumento 1, la agencia meteorológica japonesa]
En esta fase del módulo de “selección de entidades” se realizan los mapeos
correspondientes con las cadenas finales obtenidas en cada uno de los tratamientos previos de
Capítulo IV. Metodología de solución
57
cada elemento. Se reestructuran las tripletas con las cadenas finales obtenidas quedando de la
siguiente manera:
1. Tripleta de la ontología: [ sismo, espacio, epicentro a 66 km al este de Sendai y a una
profundidad de 256 km ]
2. Tripleta de búsqueda: [ temblor, espacio, x ? ]
Análisis de comparación sintáctica y de aproximación semántica.
El siguiente paso es la obtención del grado de similitud sintáctica de cada par de términos
de ambas tripletas sin comparar el elemento la incógnita.
1. [ sismo, espacio,
2. [ temblor, espacio, x ? ]
En el caso donde la tripleta corresponde al patrón B de búsqueda se comienza por el
mapeo de la relación para obtener la similitud de ésta.
1. [ sismo, espacio,
2. [ temblor , espacio, temblor ]
El grado de similitud obtenido por el algoritmo (Needleman&Wunch, 1970) implementado
es de 1.0.
El segundo elemento que se utiliza para el mapeo es el contenido en la posición del sujeto.
1. [ sismo, espacio,
2. [ temblor, espacio, x ?]
El algoritmo de (Levenshtein, 1965) genera como resultado un grado de confianza de
0.142 y no cumple con el umbral establecido para ser seleccionado como una respuesta correcta.
Para obtener un mejor resultado se realiza la comparación sintáctica de los sinónimos que se
obtuvieron en el módulo de “extracción de términos” de las tripletas de búsqueda.
En el vector de sinónimos del término “temblor” de la tripleta de búsqueda se encuentra el
sinónimo “sismo” el cual se compara sintácticamente con el término contenido en la tripleta de la
ontología, el valor que se obtiene es de 1.0. Se reformula la tripleta la cual queda de la siguiente
manera.
epicentro a 66 km al este de Sendai y a una profundidad de 256 km]
epicentro a 66 km al este de Sendai y a una profundidad de 256 km]
epicentro a 66 km al este de Sendai y a una profundidad de 256 km]
Capítulo IV. Metodología de solución
58
1. [ sismo, espacio,
2. [ sismo, espacio, x ?]
El último paso a realizar en este proceso es el seleccionar la tripleta bien formada de
ontología y marcar el objeto de la misma para contestar a la incógnita que contiene la
1. [ sismo, espacio,
Resultados:
[ sismo, espacio,
Esta tripleta se agrega al vector de resultados correspondientes a la segunda tripleta de
búsqueda.
Todas las tripletas que contengan resultados son vectorizados. Estos resultados se extraen en
la forma sujeto, predicado, objeto con la finalidad de eliminar la incógnita y ofrecer una tripleta
completa sin contener ningún elemento faltante. Con la finalidad de cumplir la respuesta a la consulta
ingresada en la tabla 4-2. El último módulo se encarga de filtrar los resultados para presentarlos
adecuados a la consulta del usuario.
4.1.3 Resultado de mapeo de ontologías
Los resultados son obtenidos de la salida del módulo de extracción y mapeo de ontologías los
cuales se encuentran sin depurar. La depuración de resultados consiste en comparar el número de
tripletas ingresadas en la búsqueda con el numero de tripletas encontradas en las ontologías las
cuales deben ser iguales o mayores a las ingresadas. Esto se hace para no dar respuestas
incorrectas si una ontología no cumple con el número de respuestas (tripletas completas) sus
resultados no son visualizados por la herramienta.
El filtro de resultados es un módulo que permite la extracción correcta de los elementos que
deben ser extraídos a partir de la consulta del usuario.
En la tabla 4-13 se muestra un ejemplo del funcionamiento del filtro de resultados el cual se
basa en el agrupamiento de elementos de los términos comunes.
epicentro a 66 km al este de Sendai y a una profundidad de 256 km]
epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]
epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]
Capítulo IV. Metodología de solución
59
Tabla 4-13. Filtro de resultados de la consulta.
1. [ comunicaron, argumento1, la agencia meteorológica japonesa ]
1.1 [ anunció, argumento 1, la agencia meteorológica japonesa]
2. [ comunicaron, argumento2, temblor ]
2.1 [ anunció argumento 2, sismo ]
3. [ temblor, espacio, x ? ]
3.1 [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256
km ]
El filtro compara los resultados vectorizados de cada tripleta de la consulta con la
siguiente en la posicion del sujeto y objeto hasta encontrar el elemento que es igual a él.
1. [ anunció, argumento 1, la agencia meteorológica japonesa ]
2. [ anunció, argumento 2, sismo ]
3. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km
]
En la tabla 4-14 se describe el algoritmo que se utiliza para realizar la búsqueda de información por
medio de tripletas en las ontologías objetivo.
Tabla 4-14. Algoritmo utilizado para la extracción de información contenida en ontologías.
Sea A el conjunto de tripletas de la ontología.
B el conjunto de elementos que se van a buscar.
C el conjunto vacío.
1. Seleccione un elemento x de B
2. Seleccione un elemento y de A.
2.1 z = búsqueda(x,y)
2.2 C = C + z
3. Se repiten los pasos 1-2 hasta terminar con los elementos de B.
4. Si C es subconjunto de A, entonces la búsqueda es correcta.
Capítulo V. Pruebas
60
Capítulo 5. PRUEBAS En este capítulo se presentan las pruebas que fueron realizadas conforme al estándar IEEE 829-1998.
En él se describe la hipótesis presentada, convención de nombres a utilizar, plan de pruebas, pruebas
realizadas, análisis de los resultados y las pruebas fallidas.
Capítulo V. Pruebas
61
5.1 Hipótesis
La extracción de información contenida en ontologías de esta investigación, se basa en la
identificación de patrones de consulta por medio de tripletas, éstas se ingresan para la recuperación
de información y debe contener por lo menos una incógnita en alguna de las tripletas o tripleta
ingresadas. Esta incógnita contenida en la tripleta es el término que se desconoce el cual será
identificado en la ontología para extraer la tripleta bien formada (sin incógnitas). Esta tripleta otorga la
suficiente información para extraer el término faltante. La información que se desea extraer de las
tripletas anidadas debe estar ligada por lo menos por un término del dominio o rango en las demás
tripletas.
5.2 Convención de nombres
En la tabla 5-1 se definen los nombres que se utilizan para cada prueba definida por los
patrones que se identificaron para la extracción de información.
Tabla 5-1. Convención de nombres utilizado en las pruebas del prototipo.
Abreviatura Descripción
MapTool Herramienta de mapeo.
En Pruebas para el idioma Inglés.
Es Pruebas en el idioma Español.
Triple Tripletas en el orden sujeto, predicado y objeto.
A Extrae las instancias del dominio que cumplan con el rango y la relación.
B Extrae las instancias del rango que cumplan con el dominio y la relación.
C Extrae las instancias que son relacionadas por el predicado.
D Extrae las instancias del dominio y rango que se encuentren relacionadas entre sí.
E Extrae la clase de la que se deriva la instancia en la taxonomía.
F Extrae instancias de las subclases de la clase que se introduce en el rango.
G Extrae las instancias que se encuentren en el dominio y rango de la tripleta así como de la relación; es decir extrae los términos que se encuentren en
Capítulo V. Pruebas
62
cada uno de los elementos de la tripleta en la ontología
Las pruebas estarán definidas por un sólo tipo de tripleta o por una serie de tripletas anidadas
para hacer más expresiva la consulta. Para una consulta de tripleta simple en el idioma Español se
define la siguiente convención:
MapTool –Es-Triple-A-01.
Para pruebas del idioma Español de dos tripletas define la siguiente convención:
MapTool –Es-Triple-AB-01
Cada vez que se agregue una tripleta, se añade el tipo de patrón que esta definido por la letra del
alfabeto en la tabla 4-1.
5.3 Plan de pruebas
5.3.1 Introducción
El presente documento describe el plan de pruebas de la herramienta para la extracción de
información contenida en ontologías el cual se basa en el estándar (IEEE 829, 1998) para realizar las
pruebas de software necesarias para su aprobación.
Las pruebas realizadas tendrán la finalidad de aportar a la herramienta mejoras sustanciales,
con el objetivo de mejorar la herramienta para su uso en la extracción de información existente en
ontologías de dominio.
El documento de plan de pruebas tiene los siguientes puntos a tratar:
1. Elementos de prueba: se describen los elementos que se utilizan para realizar pruebas
sobre la herramienta en este caso las tripletas de consulta.
2. Características a ser probadas: se definen cuales son las características de la herramienta
que se prueban para posteriormente hacer las validaciones sobre esta.
3. Características que no serán probadas: se describen las propiedades de las pruebas que
no tiene ningún tipo de incidencia en las pruebas realizadas.
4. Enfoque: las pruebas se realizan partiendo de una entrada que específica la información que
es extraída.
5. Pruebas a realizar: se establecen los tipos de pruebas que se realizan con la herramienta en
este apartado se definen los patrones de búsqueda de la herramienta.
6. Criterio de éxito/fracaso de los casos de prueba: se describe el tipo de evaluación que se
toma en cuenta para saber si la prueba es exitosa o no.
Capítulo V. Pruebas
63
7. Criterio de suspensión y de reanudación: en este punto se definen cuales son los criterios
que se usan para suspender y reanudar las pruebas así como si es necesario seguir con
dicha prueba.
8. Tarea de pruebas: define todo lo necesario para llevar a cabo las labores de prueba de la
herramienta.
9. Liberación de pruebas: es la aprobación final partiendo de los criterios de evaluación y
aprobación de las pruebas a realizar.
10. Requisitos ambientales: son los requisitos de hardware y software que son necesarios y que
se usan en las pruebas de la herramienta.
11. Responsabilidades: se especifican a los responsables directos así como las tareas que debe
realizar cada uno de ellos.
12. Riesgos y contingencias: los riesgos se obtienen conforme se desarrollan las pruebas así
como el plan para contingencias que se proponga.
13. Procedimiento de pruebas y resultados: se procede a realizar de manera efectiva las
pruebas en la herramienta, así como también a documentar los resultados que se obtengan
de las pruebas a elaborar si estas sean correctas o no.
5.3.2 Elementos de prueba
Las pruebas tienen como fin validar y verificar la extracción de información contenida en
ontologías por medio de la inserción de consultas elaboradas y mapeadas a tripletas. Esto
considerando que las consultas son correctas y las tripletas que se ingresen tienen como mínimo una
incógnita.
En la realización de las pruebas, se van a ingresar una consulta con elementos de las tripletas
(sujeto, predicado y objeto) en ella, las cuales deben contener por lo menos una incógnita. Las
tripletas deben tener al menos un elemento que pueda relacionarse con las demás si se tratase de
tripletas anidadas. Esta entrada a la herramienta debe de ser ingresada de manera correcta para
realizar a la extracción de información que se requiere.
Algunas de las relaciones que se utilizan para la realización de las pruebas en el idioma Español están
definidas en la tabla 5-2 que se presenta a continuación.
Tabla 5-2. Verbos utilizados en las ontologías del idioma Español para las pruebas realizadas.
Las características a probar están definidas en la metodología de solución propuesta las cuales se
describen de manera detallada a continuación:
1. Identificación del idioma: se debe realizar la selección adecuada de los recursos existentes
para el idioma Español.
2. Validación de patrones de la tripleta: la herramienta debe identificar patrones en la tripleta
de consulta para la extracción de información.
3. Extracción de fenómenos lingüísticos: se necesita extraer los sinónimos y verbos
relacionados para el idioma Español.
Capítulo V. Pruebas
67
4. Comparación sintáctica: se valida que la comparación sintáctica correcta de los términos
contenidos en las ontologías y las tripletas con diferentes algoritmos de comparación de
cadenas como son (Monge&Elkan, 1996), (Needleman&Wunsch, 1970) y (Levenshtein,
1965).
5. Comparación de aproximación semántica: ésta se realiza con los recursos lexicográfico
externos de EuroWordNet para el Español.
6. Validación de resultados: se revisa que los resultados sean los esperados y que los
resultados sean los existentes en las ontologías así como de su coherencia.
5.3.4 Características que no serán probadas
Las siguientes características no forman parte de la evaluación:
1. El tiempo de procesamiento de una o múltiples ontologías.
2. El diseño de la interfaz de usuario basado en mejores prácticas de accesibilidad y usabilidad
Web.
3. El funcionamiento del analizador TreeTagger.
4. Los elementos de las bases de datos lexicográficas (WordNet y EuroWordNet).
5. La introducción patrones en las tripletas de consulta, diferentes a los patrones de extracción
establecidos.
6. Uso de versiones de software diferentes a los definidos en requisitos ambientales.
7. La extracción de información en ontologías codificadas en OWL 2.
5.3.5 Pruebas a realizar
En la tabla 5-3 se describen las pruebas a realizar sobre la herramienta de extracción de
información contenida en ontologías.
Tabla 5-3. Casos de prueba de la herramienta de extracción de información contenida en ontologías
Prueba Descripción
MapTool-Es-Triple-Dom-Sub-A Este patrón de búsqueda extrae las instancias encontradas en el dominio de la tripleta ya que ésta contiene la incógnita en esta posición y mediante la similitud existente con sus otros dos elementos es posible extraer la información correspondiente.
MapTool-Es-Triple-Dom-Sub-AA La búsqueda realizada con este patrón se basa en encontrar la incógnita del dominio de las dos tripletas.
MapTool-Es-Triple-Dom-Sub-B Con este patrón se busca la incógnita existente dentro del rango en la tripleta con ayuda de los términos existentes en la relación y el dominio.
Capítulo V. Pruebas
68
MapTool-Es-Triple-Dom-Sub-BB La búsqueda realizada con este patrón debe encontrar la incógnita del rango de las dos tripletas.
MapTool-Es-Triple-Dom-Sub-BG La búsqueda realizada con este patrón trata de encontrar la incógnita del rango en la tripleta B ya que la tripleta G no contiene incógnitas.
MapTool-Es-Triple-Dom-Sub-BGG La búsqueda realizada con este patrón se usa para encontrar la incógnita del rango en la tripleta B ya que las dos tripletas G no contiene incógnitas.
MapTool-Es-Triple-Dom-Sub-BGGG La búsqueda realizada con este patrón obtiene la incógnita del rango de la tripleta B ya que las dos tripletas G no contiene incógnitas.
MapTool-Es-Triple-Dom-Sub-E En esta búsqueda se obtiene la clase inmediata a la instancia que se especifico en el dominio de la tripleta.
MapTool-Es-Triple-Dom-Sub-F La búsqueda extrae instancias de la clase que se introduce en el rango de la tripleta, así como las instancias derivadas de esta clase en las subclases.
MapTool-Es-Triple-Dom-Sub-GGGB Esta búsqueda necesita en encontrar la incógnita en el rango de la tripleta B ya que las tres tripletas G no contiene incógnitas.
MapTool-Es-Triple-Dom-Sub-GB Este patrón de búsqueda encuentra todos los elementos ingresados en la tripleta G para continuar con la tripleta B la cual contiene la incógnita que se desea conocer.
MapTool-Es-Triple-Dom-Sub-GBB Este patrón de búsqueda se utiliza para obtener todos los elementos ingresados en la tripleta G para continuar con las tripletas B la cuales contienen las incógnitas en el rango que se desean conocer.
MapTool-Es-Triple-Dom-Sub-GBG Con este patrón de búsqueda se realiza la extracción de los elementos de la tripleta contenida en la tripleta G para posteriormente utilizar esas tripletas y compararlas con las tripletas generadas en la segunda tripleta la cual contiene la incógnita en el rango y es diferenciada por la letra B por último los resultados son comparados nuevamente con los términos existentes con los resultados obtenidos de la segunda tripleta G.
MapTool-Es-Triple-Dom-Sub-GGB Este patrón de búsqueda obtiene todos los elementos ingresados en las dos tripletas G para continuar con los elementos de la tripleta B la cual contiene la incógnita en el rango.
En todos los casos de prueba especificados en la tabla 5-3 se verifica que se realicen las
comparaciones sintácticas y de aproximación semántica que corresponden para obtener una
respuesta correcta.
Capítulo V. Pruebas
69
5.3.6 Enfoque
Las pruebas a realizar están enfocadas en probar la herramienta en la extracción de
información contenida en ontologías de manera coherente; es decir, que el número de tripletas
ingresadas en la consulta del usuario deben ser encontradas y contener la información de la ontología
que se está procesando para su extracción. La herramienta no realiza el análisis previo de la consulta
en lenguaje natural.
5.3.7 Criterio de éxito/fracaso de los casos de prueba
Los casos de prueba que se describen en la tabla 5-3 del presente documento, se basan en la
comparación de los resultados obtenidos contra los existentes en las ontologías para validar de
manera efectiva la prueba.
Se considera que una prueba ha pasado con éxito cuando los resultados obtenidos coincidan
con los resultados esperados para cada uno de los casos de prueba.
En caso de que la prueba no resulte con exitosa, se analizan las causas y se realizan las
modificaciones necesarias hasta obtener los resultados esperados; si no se obtuviera la respuesta que
se solicita se etiqueta como prueba fallida.
5.3.8 Criterios de suspensión y requerimientos de reanudación
No se establece ningún criterio de suspensión de la prueba. Cuando se presente el escenario
de que la prueba no cumple con los resultados esperados, ésta se corrige las veces que sea
necesario hasta lograr el resultado esperado o en su defecto se describen las razones que no hacen
posible obtener un resultado correcto.
5.3.9 Tareas de prueba
Las tareas de prueba de este plan se describen en la tabla 5-4:
Tabla 5-4. Tareas de prueba a ejecutar en el desarrollo del plan de pruebas.
Tarea Habilidades Responsabilidad
Planificación Conocimiento del estándar IEEE 829 para la realización de pruebas sobre software.
L.S.C. Felipe Antonio Román Albores.
Diseño Conocimiento de la herramienta y sus alcances, así como de los objetivos de la presente investigación.
L.S.C. Felipe Antonio Román Albores.
Ejecución Conocimiento de la herramienta para la extracción de información contenida en ontologías
L.S.C. Felipe Antonio Román
Capítulo V. Pruebas
70
y sus limitantes. Albores.
Depuración Conocimiento de lenguaje de programación JAVA, API de JENA y de Framework para el desarrollo de aplicaciones Web.
L.S.C. Felipe Antonio Román Albores.
Evaluación Conocimiento de los objetivos e hipótesis de investigación de este trabajo así como sus alcances y limitaciones.
L.S.C. Felipe Antonio Román Albores
5.3.10 Liberación de pruebas
Las pruebas realizadas se verifican con la información contenida en las ontologías que se
consultan, esto con el fin de validar correctamente los resultados obtenidos de la corrida de la
herramienta en cada una de las pruebas. Si los resultados obtenidos son coherentes a la información
que se solicitó y esta información se encuentra dentro de la ontología se toma como una prueba válida
y es aceptada.
5.3.11 Requisitos ambientales
A continuación se describen las características de hardware y software del ambiente de
pruebas, estas especificaciones se muestran en la tabla 5-5.
Tabla 5-5. Requisitos de hardware y software de la herramienta desarrollada.
Hardware Software
Servidor Power Edge T410 Sistema operativo: Ubuntu Server 10.04
2 Intel QuadCore Xeon a 2.53 Ghz HT, 8 M Cache
Servidor Web: Apache 2.2.14 y Tomcat 6
1 HD 160 Gb Maquina virtual de JAVA:JDK 1.6
1 HD 1 Tb Manejador de base de datos: Mysql 5.1
API: JENA 2
Etiquetador: TreeTagger
Navegador Web: Google chrome con soporte para Java Script.
5.3.12 Responsabilidades
El responsable directo de las pruebas de la actual investigación recae en su totalidad en el
L.S.C Felipe Antonio Román Albores, quien es el responsable de la documentación de los resultados
obtenidos.
Capítulo V. Pruebas
71
5.3.13 Riesgos y contingencias
Los errores generados por la herramienta se documentan y se lleva un historial de las
contingencias que se llegaran a presentar en la depuración de las pruebas. El mejoramiento de la
herramienta será realizado por el responsable de las pruebas y autor de este documento.
5.3.14 Aprobación
El plan de pruebas deberá ser aprobado por la directora de tesis, Dra. Azucena Montes
Rendón y los revisores el Dr. Hugo Estrada Esquivel, Dr. Juan Gabriel González Serna y el Dr. David
Pinto Avendaño.
5.4 Casos de prueba
En este apartado se describen los casos de prueba así como los resultados esperados de
cada una de las pruebas que se describieron en la sección de pruebas a realizar. Los casos de
pruebas que se describen a continuación tienen la finalidad de tener una métrica de éxito y fracaso de
la herramienta desarrollada para evaluar su efectividad así como la de otorgar un ejemplo del tipo de
consulta que se realiza en cada caso.
1. MapTool-Es-Triple-Dom-Sub-A: Este patrón de búsqueda extrae las instancias encontradas en
el dominio de la tripleta ya que contiene la incógnita en esta posición. El resultado se obtiene al
realizar las comparaciones entre los elementos del la tripleta que se conocen como en el ejemplo
5-1:
[ x ?, informo, falla del lanzamiento ]
Ejemplo 5-1.Tripleta simple del patrón A con la incógnita en el dominio.
2. MapTool-Es-Triple-Dom-Sub-AA: La búsqueda realizada con este patrón se basa en encontrar
la incógnita del dominio de las dos tripletas con los elementos de la misma que son ingresados.
La tripleta que se muestra en el ejemplo 5-2 es de este tipo:
[ x ?, sucedió en, Iztacalco ][ x ?, tiene tiempo, 18:00 ]
Ejemplo 5-2. Tripleta anidada con la incógnita en el dominio de ambas tripletas.
3. MapTool-Es-Triple-Dom-Sub-B: Con este patrón se busca la incógnita existente dentro del
rango en la tripleta con ayuda de los términos existentes en la relación y el dominio es posible
obtener el resultado correcto. El ejemplo 5-3 es una muestra de estas tripletas de búsqueda.
[ falla lanzamiento, tiene espacio, x ? ]
Ejemplo 5-3.Tripleta simple con la incógnita en el rango de la tripleta.
4. MapTool-Es-Triple-Dom-Sub-BB: La búsqueda realizada con este patrón se centra en encontrar
la incógnita del rango de las dos tripletas ingresadas como en el ejemplo 5-4.
Capítulo V. Pruebas
72
[replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ][replica de 6.4 grados sacude de nuevo Fukushima, tiene_lugar_pub, x ? ]
Ejemplo 5-4.Tripleta anidada con la incógnita en el rango de ambas tripletas.
5. MapTool-Es-Triple-Dom-Sub-BG: La búsqueda realizada con este patrón trata de encontrar la
incógnita del rango en la tripleta B ya que la tripleta G no contiene incógnitas como se aprecia en
el ejemplo 5-5.
[ examina, argumento1, x ? ][ examina, argumento2, los productos importados de Japón ]
Ejemplo 5-5.Tripleta anidada con la incognita únicamente en la tripleta B.
6. MapTool-Es-Triple-Dom-Sub-BGG: La búsqueda realizada con este patrón se requiere obtener
la incógnita del rango en la tripleta B ya que las dos tripletas G no contiene incógnitas; este tipo
de consulta se muestra en el ejemplo 5-6.
[ postergo, argumento1, x ? ][ postergo, argumento2, la misión ][ postergo , argumento3, para evitar que se sobre pusiera con una nave rusa ]
Ejemplo 5-6.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y dos tripletas bien formadas.
7. MapTool-Es-Triple-Dom-Sub-BGGG: La búsqueda realizada con este patrón debe obtener la
incógnita del rango de la tripleta B ya que las tres tripletas G no contiene incógnitas. En el
ejemplo 5-7 se presenta este tipo de consultas.
[informo, argumento1, x ? ][informo,argumento2 ,lucha ][lucha,argumento1 ,los técnicos ][lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]
Ejemplo 5-7.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y tres tripletas bien formadas.
8. MapTool-Es-Triple-Dom-Sub-E: En esta búsqueda se obtiene la clase inmediata a la instancia
que se expresa en el dominio de la tripleta. En el ejemplo 5-8 se presenta una consulta de este
tipo.
[cuerpo de bomberos, is-a, x ? ]
Ejemplo 5-8.Consulta simple de tripleta taxonómica con la incógnita en el rango.
9. MapTool-Es-Triple-Dom-Sub-F: La búsqueda extrae instancias de la clase que se introduce en
el rango de la tripleta, así como las instancias derivadas de esta clase en las subclases; este tipo
de consultas se observa en el ejemplo 5-9 que se presenta a continuación.
[ x ?, is-a, acontecimientos ]
Ejemplo 5-9.Consulta simple de tripleta taxonómica con la incógnita en el dominio.
10. MapTool-Es-Triple-Dom-Sub-GGGB: Esta búsqueda trata de encontrar la incógnita en el rango
de la tripleta A ya que las tres tripletas G no contiene incógnitas como se observa en el ejemplo
5-10.
[ hallan gen, pertenece a, nueva variante ][nueva variante, reduce, hipertensión ][hipertension, afecta a, adultos de la Union Europea ][hallan gen, coordinan, x ? ]
Ejemplo 5-10. Consulta de tripletas anidadas con la incógnita en el rango de la tripleta A y dos
Capítulo V. Pruebas
73
tripletas de tipo G sin incógnitas.
11. MapTool-Es-Triple-Dom-Sub-GB: Este patrón de búsqueda pretende obtener todos los
elementos ingresados en la tripleta G para continuar comparándolos con las tripletas completas
en B la cual contiene la incógnita que se desea conocer. En el ejemplo 5-11 se observa estas
consultas anidadas.
[hallazgo gen, corresponde a, nueva variante][ nueva variante, regula, x ? ]
Ejemplo 5-11.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y una tripleta de tipo G sin incógnitas.
12. MapTool-Es-Triple-Dom-Sub-GBB: Este patrón de búsqueda se examinan todos los elementos
ingresados en la tripleta G para continuar con las tripletas B la cuales contienen las incógnitas en
el rango que se desean conocer. En el ejemplo 5-12 se observa el tipo de consultas de esta
categoría.
[ explosión, fue controlada por, cuerpo de bomberos][ explosión, provoco, x ? ][explosión, afecto, x ? ]
Ejemplo 5-12.Consulta de tripletas anidadas con las incógnita en el rango de las tripletas B y una tripleta de tipo G sin incógnitas al principio.
13. MapTool-Es-Triple-Dom-Sub-GBG: Con este patrón de búsqueda se realiza la extracción de los
elementos de la tripleta contenida en la tripleta G para posteriormente utilizar esas tripletas y
compararlas con las tripletas generadas en la segunda tripleta la cual contiene la incógnita en el
rango y es diferenciada por la letra B. El ejemplo 5-13 se presenta a continuación.
[llevara, argumento1, el Endeavour][llevara, argumento2, x?][llevara, argumento3, para que sea instalado fuera de la estación espacial ]
Ejemplo 5-13.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas de tipo G sin incógnitas.
14. MapTool-Es-Triple-Dom-Sub-GGB: Este patrón de búsqueda debe obtener todos los elementos
ingresados en las dos tripletas G para continuar con los elementos de la tripleta B la cual contiene
la incógnita en el rango. El ejemplo 5-14 representa esta categoría a probar.
[ comunicaron, argumento1, la Agencia Meteorológica Japonesa ][ comunicaron, argumento2, temblor ][ temblor, espacio, x ? ]
Ejemplo 5-14.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas de tipo G sin incógnitas.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿ Quién informó acerca de la falla del lanzamiento?
realizar cambios, quedando de la siguiente manera:
1. [ x ?, informo acerca de, falla del
En el cuadro de texto de la figura
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-1. Resultado correcto de la consulta MapTool
Observaciones:
Esta prueba se realizó con el mapeo sintáctico de los términos de las tripletas y los elementos de la
ontología debido a que la TreeTagger no logró
de texto “informo acerca de” que tiene la función del predicado en dicha tripleta; sin embargo se
obtiene el resultado esperado en la incógnita de la tripleta mediante la similitud sintáctica realizada.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-A-1
Resultado:
Quién informó acerca de la falla del lanzamiento? se generó
realizar cambios, quedando de la siguiente manera:
[ x ?, informo acerca de, falla del lanzamiento ]
En el cuadro de texto de la figura 5-1 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
con el mapeo sintáctico de los términos de las tripletas y los elementos de la
ido a que la TreeTagger no logró identificar el verbo “informar” derivado de la cadena
de texto “informo acerca de” que tiene la función del predicado en dicha tripleta; sin embargo se
obtiene el resultado esperado en la incógnita de la tripleta mediante la similitud sintáctica realizada.
elipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
74
generó la tripleta sin
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-A-1.
con el mapeo sintáctico de los términos de las tripletas y los elementos de la
derivado de la cadena
de texto “informo acerca de” que tiene la función del predicado en dicha tripleta; sin embargo se
obtiene el resultado esperado en la incógnita de la tripleta mediante la similitud sintáctica realizada.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Que sucedió a las 18:00 horas en Iztacalco?
cambios, quedando de la siguiente manera:
1. [x?, sucedió en, Iztacalco]
2. [x?, tiene unidad temporal, 18:00]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-2. Resultado incorrecto de la consulta MapTool
Observaciones:
Esta prueba es errónea debido a que la herramienta no indaga en las propiedades de las instancias
y la instancia de propiedad “18:00”
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-AA-2
Resultado:
¿Que sucedió a las 18:00 horas en Iztacalco? se generaron las tripletas sin realizar
cambios, quedando de la siguiente manera:
[x?, sucedió en, Iztacalco]
[x?, tiene unidad temporal, 18:00]
figura 5-2 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub
Esta prueba es errónea debido a que la herramienta no indaga en las propiedades de las instancias
“18:00” no puede ser mapeada con el elemento de la tripleta.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
75
Resultado:
se generaron las tripletas sin realizar
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-AA-2.
Esta prueba es errónea debido a que la herramienta no indaga en las propiedades de las instancias
no puede ser mapeada con el elemento de la tripleta.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Qué originó la falla del lanzamiento
cambios, quedando de la siguiente manera:
1. [falla lanzamiento, origino, x ?]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-3. Resultado correcto de la consulta
Observaciones:
En esta prueba se realizó con el mapeo sintáctico de los términos de las tripletas y los elementos de
la ontología debido a que la TreeTagger no
tripleta es así como se mapearon sintácticamente los términos de la tripleta logrando obtener el
resultado esperado.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-B-3
Resultado:
Qué originó la falla del lanzamiento? se generó la tripleta sin realizar
cambios, quedando de la siguiente manera:
[falla lanzamiento, origino, x ?]
la figura 5-3 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
con el mapeo sintáctico de los términos de las tripletas y los elementos de
la ontología debido a que la TreeTagger no logró identificar el verbo “originar” en el predicado de la
tripleta es así como se mapearon sintácticamente los términos de la tripleta logrando obtener el
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
76
Resultado:
la tripleta sin realizar
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-B-3.
con el mapeo sintáctico de los términos de las tripletas y los elementos de
en el predicado de la
tripleta es así como se mapearon sintácticamente los términos de la tripleta logrando obtener el
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Cuándo y dónde se publicó la noticia sobre la réplica de 6.4 grados sacude de
nuevo Fukushima? se generaron las tripletas siguientes:
1. [replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]
2. [replica de 6.4 grados sacud
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-4. Resultado correcto de la consulta MapTool
Observaciones:
En este caso en particular no existe un verbo que cumpla con la función de unir a las tripletas; sin
embargo, existe una cadena de texto
extracción de información, esta consulta es muy particular ya que se solicita información concerniente
al texto por lo que las relaciones de ambas tripletas son específicas de la meta ontologí
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-BB-4
Resultado:
¿Cuándo y dónde se publicó la noticia sobre la réplica de 6.4 grados sacude de
se generaron las tripletas siguientes: [replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]
[replica de 6.4 grados sacude de nuevo Fukushima, tiene_lugar_pub, x ? ]
figura 5-4 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
En este caso en particular no existe un verbo que cumpla con la función de unir a las tripletas; sin
embargo, existe una cadena de texto que se localiza por medio de similitud sintáctica para realizar la
extracción de información, esta consulta es muy particular ya que se solicita información concerniente
al texto por lo que las relaciones de ambas tripletas son específicas de la meta ontologí
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
77
Resultado:
¿Cuándo y dónde se publicó la noticia sobre la réplica de 6.4 grados sacude de
[replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]
e de nuevo Fukushima, tiene_lugar_pub, x ? ]
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-BB-4.
En este caso en particular no existe un verbo que cumpla con la función de unir a las tripletas; sin
por medio de similitud sintáctica para realizar la
extracción de información, esta consulta es muy particular ya que se solicita información concerniente
al texto por lo que las relaciones de ambas tripletas son específicas de la meta ontología OntoEvento.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Quién examina los productos importados de Japón?
sin ninguna modificación en los términos de las tripletas con respecto a las existentes en las
ontologías, quedando de la siguiente manera:
1. [ examina, argumento1, x ? ]
2. [ examina, argumento2, los productos importados de
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-5. Resultado correcto de la consulta MapTool
Observaciones:
La extracción de información existente en la ontolo
comparación de la similitud sintáctica entre los términos existentes en las t
elementos de la ontología con la finalidad de extraer la incógnita existente en las tripletas ingresadas.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-BG-5
Resultado:
¿Quién examina los productos importados de Japón? se generaron las tripletas
sin ninguna modificación en los términos de las tripletas con respecto a las existentes en las
ontologías, quedando de la siguiente manera: [ examina, argumento1, x ? ]
[ examina, argumento2, los productos importados de Japón ]
figura 5-5 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
La extracción de información existente en la ontología en esta prueba se realiza
comparación de la similitud sintáctica entre los términos existentes en las tripletas de búsqueda y los
elementos de la ontología con la finalidad de extraer la incógnita existente en las tripletas ingresadas.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
78
Resultado:
se generaron las tripletas
sin ninguna modificación en los términos de las tripletas con respecto a las existentes en las
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-BG-5.
gía en esta prueba se realiza por medio de la
ripletas de búsqueda y los
elementos de la ontología con la finalidad de extraer la incógnita existente en las tripletas ingresadas.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Quién postergó la misión para evitar que se sobrepusiera con el arribo de una
nave de carga rusa? se derivan las siguientes tripletas:
1. [ postergo, argumento1, x ? ]
2. [ postergo, argumento2, la misión ]
3. [ postergo , argumento3,
En el cuadro de texto de la figura 5
procede a dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-6. Resultado correcto de la consulta MapTool
Observaciones:
La extracción de la información contenida en la ontología se extrae
realizaron modificaciones en las instancias que tienen la función de verbo y que unen a las tripletas
para anidarlas en ese sentido se cumplen con los umbrales establecidos en la herramienta para hacer
la recuperación correcta de los datos.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-BGG-6
Resultado:
¿Quién postergó la misión para evitar que se sobrepusiera con el arribo de una
se derivan las siguientes tripletas:
[ postergo, argumento1, x ? ]
[ postergo, argumento2, la misión ]
[ postergo , argumento3, para evitar que se sobre pusiera con una nave rusa ]
figura 5-6 se ingresan las tripletas anidadas; para ejecutar la prueba se
procede a dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
ón contenida en la ontología se extrae de manera correcta ya que no se
iones en las instancias que tienen la función de verbo y que unen a las tripletas
para anidarlas en ese sentido se cumplen con los umbrales establecidos en la herramienta para hacer
la recuperación correcta de los datos.
Román Albores
Cargo:
Autor
Capítulo V. Pruebas
79
Resultado:
¿Quién postergó la misión para evitar que se sobrepusiera con el arribo de una
para evitar que se sobre pusiera con una nave rusa ]
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-BGG-6.
de manera correcta ya que no se
iones en las instancias que tienen la función de verbo y que unen a las tripletas
para anidarlas en ese sentido se cumplen con los umbrales establecidos en la herramienta para hacer
Autor
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Quién informo sobre la lucha de los técnicos para controlar los reactores de
la central de Fukushima? se generaron las tripletas siguientes:
1. [informo, argumento1, x ? ]
2. [informo,argumento2 ,lucha ]
3. [lucha,argumento1 ,los técnicos ]
4. [lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-7. Resultado correcto de la consulta MapTool
Observaciones:
La información extraída por medio de las tripletas ingresadas corresponde a la información que
cumple con la similitud necesaria para contestar la incógnita que existe en la tripleta 1.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-BGGG-7
Resultado:
¿Quién informo sobre la lucha de los técnicos para controlar los reactores de
se generaron las tripletas siguientes:
[informo, argumento1, x ? ]
[informo,argumento2 ,lucha ]
[lucha,argumento1 ,los técnicos ]
[lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]
figura 5-7 se ingresan las tripletas anidadas; para ejecuta
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BGGG
La información extraída por medio de las tripletas ingresadas corresponde a la información que
cumple con la similitud necesaria para contestar la incógnita que existe en la tripleta 1.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
80
Resultado:
¿Quién informo sobre la lucha de los técnicos para controlar los reactores de
[lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]
se ingresan las tripletas anidadas; para ejecutar la prueba se
BGGG-7.
La información extraída por medio de las tripletas ingresadas corresponde a la información que
cumple con la similitud necesaria para contestar la incógnita que existe en la tripleta 1.
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Cuáles son los acontecimientos ?
quedando de la siguiente manera:
1. [ x ?, is-a, acontecimientos ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-8. Resultado correcto de la consulta
Observaciones:
Esta prueba trata de obtener las instancias de la clase y subclases de la que se hace referencia en el
rango de la tripleta; para resolver la incógnita se debe realizar una consulta RDF caracterizada por la
relación taxonómica “is-a” y la clase en el rango
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-F-8
Resultado:
¿Cuáles son los acontecimientos ? se generó la tripleta sin realizar cambios,
quedando de la siguiente manera:
a, acontecimientos ]
figura 5-8 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
Esta prueba trata de obtener las instancias de la clase y subclases de la que se hace referencia en el
rango de la tripleta; para resolver la incógnita se debe realizar una consulta RDF caracterizada por la
y la clase en el rango.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
81
Resultado:
la tripleta sin realizar cambios,
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-F-8.
Esta prueba trata de obtener las instancias de la clase y subclases de la que se hace referencia en el
rango de la tripleta; para resolver la incógnita se debe realizar una consulta RDF caracterizada por la
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Que es el cuerpo de bomberos ?
quedando de la siguiente manera:
1. [ cuerpo de bomberos, is
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-9. Resultado correcto de la consulta MapTool
Observaciones:
Esta prueba trata de obtener la clase inmediata a la que se asocia una instancia para resolver la
incógnita de la tripleta se debe realizar un
“is-a” para llegar a deducir la clase a la que la instancia pertenece.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-E-9
Resultado:
¿Que es el cuerpo de bomberos ? se generó la tripleta sin realizar cambios,
quedando de la siguiente manera:
cuerpo de bomberos, is-a, x ? ]
figura 5-9 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
Esta prueba trata de obtener la clase inmediata a la que se asocia una instancia para resolver la
incógnita de la tripleta se debe realizar una consulta RDF caracterizada por la relación taxonómica
para llegar a deducir la clase a la que la instancia pertenece.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
82
la tripleta sin realizar cambios,
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-E-9.
Esta prueba trata de obtener la clase inmediata a la que se asocia una instancia para resolver la
a consulta RDF caracterizada por la relación taxonómica
Caso de prueba:
MapTool-Es-Triple-Dom-Sub
De la pregunta ¿ Quienes coordinan el hallazgo de un gen que pertenece a una nueva variante
que reduce la hipertensión que afecta a adultos de la Unión Europea?
sin realizar cambios, quedando de la siguiente manera:
1. [ hallazgo gen, pertenece a, nueva variante]
2. [ nueva variante, disminuye, hipertensión]
3. [ hipertensión, afecta a, adultos de la Unión Europea]
4. [ hallazgo gen, coordinó, x ? ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-10. Resultado incorrecto de la consulta MapTool
Observaciones:
El resultado fallido de esta prueba es debido a la posición de las incógnitas dentro de las tripletas de
consulta lo cual para obtener la información correspondiente a la consulta se debe ingresar las
siguientes tripletas anidadas:
1. [ hallazgo gen, coordinaron, x ? ]
2. [ hallazgo gen, pertenece a, nueva variante ]
3. [nueva variante, reduce, hipertensión]
4. [hipertensión, afecta a, adultos de la Unión Europea ]
El resultado obtenido de esta consulta reestructurada es el que se desea obtener dentro del marco
de la consulta en lenguaje natural para responder a la incógnita de la tripleta 1.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Sub-GGGB-10
Resultado:
Quienes coordinan el hallazgo de un gen que pertenece a una nueva variante
que reduce la hipertensión que afecta a adultos de la Unión Europea? se generaron las tripletas
sin realizar cambios, quedando de la siguiente manera:
go gen, pertenece a, nueva variante]
[ nueva variante, disminuye, hipertensión]
[ hipertensión, afecta a, adultos de la Unión Europea]
[ hallazgo gen, coordinó, x ? ]
figura 5-10 se ingresan las tripletas anidadas; para ejecutar
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-
fallido de esta prueba es debido a la posición de las incógnitas dentro de las tripletas de
consulta lo cual para obtener la información correspondiente a la consulta se debe ingresar las
[ hallazgo gen, coordinaron, x ? ]
hallazgo gen, pertenece a, nueva variante ]
[nueva variante, reduce, hipertensión]
[hipertensión, afecta a, adultos de la Unión Europea ]
El resultado obtenido de esta consulta reestructurada es el que se desea obtener dentro del marco
lenguaje natural para responder a la incógnita de la tripleta 1.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
83
Resultado:
Quienes coordinan el hallazgo de un gen que pertenece a una nueva variante
se generaron las tripletas
se ingresan las tripletas anidadas; para ejecutar la prueba se
-GGGB-10.
fallido de esta prueba es debido a la posición de las incógnitas dentro de las tripletas de
consulta lo cual para obtener la información correspondiente a la consulta se debe ingresar las
El resultado obtenido de esta consulta reestructurada es el que se desea obtener dentro del marco
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Quién descubrió la nueva variante a la cual
se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:
1. [ hallazgo gen, corresponde, nueva variante ]
2. [ hallazgo gen, descubrió, x ? ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-11. Resultado incorrecto de la consulta
Observaciones:
En este caso de prueba no se obtienen los resultados esperados debido a que
en la tripleta 2 no debe de estar en la posición del objeto ya que en la ontología se encuentra en el
sujeto; las tripletas correctas serian las siguientes:
1. [ hallazgo gen, corresponde, nueva variante ]
2. [ x ?, descubrió, nueva varia
Por ello no es posible realizar el mapeo correcto de los términos contenidos en las tripletas con los
elementos de la ontología.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-GB-11
Resultado:
¿Quién descubrió la nueva variante a la cual corresponde el hallazgo del gen?
se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:
[ hallazgo gen, corresponde, nueva variante ]
[ hallazgo gen, descubrió, x ? ]
figura 5-11 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub
En este caso de prueba no se obtienen los resultados esperados debido a que la incógnita existente
en la tripleta 2 no debe de estar en la posición del objeto ya que en la ontología se encuentra en el
las tripletas correctas serian las siguientes:
[ hallazgo gen, corresponde, nueva variante ]
[ x ?, descubrió, nueva variante ]
Por ello no es posible realizar el mapeo correcto de los términos contenidos en las tripletas con los
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
84
Resultado:
corresponde el hallazgo del gen?
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-GB-11.
la incógnita existente
en la tripleta 2 no debe de estar en la posición del objeto ya que en la ontología se encuentra en el
Por ello no es posible realizar el mapeo correcto de los términos contenidos en las tripletas con los
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Que provocó y afectó la explosión que fue controlada por el Cuerpo de
bomberos? se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:
1. [ explosión, fue controlada por, cuerpo de bomberos]
2. [ explosión, provoco, x ? ]
3. [explosión, afecto, x ? ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar para extraer la información de la ontología.
Figura 5-12. Resultado correcto de la consulta MapTool
Observaciones:
En esta consulta se encontró la raíz del verbo, dado por la relación en la tripleta el cual se deriva en
“controlar” y no contiene sinónimos dentro de la base de datos de EuroWordNet por lo que se
procedió a realizar el mapeo por medio de similitud sintáctica con el verbo existente en la ontología el
cual es el mismo, posteriormente se realizaron los mismo pasos para tr
verbal de los verbos “afecto” y
verbos dejándolos de la misma manera para realizar el mapeo de la similitud de cadenas de texto y
así extraer la información concerniente a la incógnita en las dos últimas tripletas.
Responsable:
LSC. Felipe Antonio Román Albor
Capítulo V. Pruebas
Dom-Sub-GBB-12
Resultado:
¿Que provocó y afectó la explosión que fue controlada por el Cuerpo de
se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:
[ explosión, fue controlada por, cuerpo de bomberos]
explosión, provoco, x ? ]
[explosión, afecto, x ? ]
figura 5-12 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
En esta consulta se encontró la raíz del verbo, dado por la relación en la tripleta el cual se deriva en
y no contiene sinónimos dentro de la base de datos de EuroWordNet por lo que se
procedió a realizar el mapeo por medio de similitud sintáctica con el verbo existente en la ontología el
cual es el mismo, posteriormente se realizaron los mismo pasos para tratar de identificar la raíz
y “provoco” donde el etiquetador no realizó la identificación de estos
verbos dejándolos de la misma manera para realizar el mapeo de la similitud de cadenas de texto y
así extraer la información concerniente a la incógnita en las dos últimas tripletas.
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
85
Resultado:
¿Que provocó y afectó la explosión que fue controlada por el Cuerpo de
se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:
se ingresan las tripletas anidadas; para ejecutar la prueba se
Sub-GBB-12.
En esta consulta se encontró la raíz del verbo, dado por la relación en la tripleta el cual se deriva en
y no contiene sinónimos dentro de la base de datos de EuroWordNet por lo que se
procedió a realizar el mapeo por medio de similitud sintáctica con el verbo existente en la ontología el
atar de identificar la raíz
la identificación de estos
verbos dejándolos de la misma manera para realizar el mapeo de la similitud de cadenas de texto y
Caso de prueba:
MapTool-Es-Triple-Dom
De la pregunta ¿Qué llevará el Endeavour para que sea instalado fuera de la estación espacial?
se generaron las siguientes tripletas:
1. [llevara, argumento1, el Endeavour]
2. [llevara, argumento2, x?]
3. [llevara, argumento3, para que sea instalado fuera de la estación espacial ]
En el cuadro de texto de la figura 5
en el botón buscar, el cual ejecuta evento par
Figura 5-13. Resultado correcto de la consulta MapTool
Observaciones:
La información extraída por medio de las tripletas ingresadas cumple con la similitud necesaria en la
tripleta 2 y 3 en donde el texto ingresado en el rango es mayor al umbral de la instancia establecido el
cual es 0.7.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
Dom-Sub-GBG-13
Resultado:
¿Qué llevará el Endeavour para que sea instalado fuera de la estación espacial?
generaron las siguientes tripletas:
[llevara, argumento1, el Endeavour]
[llevara, argumento2, x?]
[llevara, argumento3, para que sea instalado fuera de la estación espacial ]
figura 5-13 se ingresan estas tripletas y se procede a ejecutarla dando clic
en el botón buscar, el cual ejecuta evento para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub
La información extraída por medio de las tripletas ingresadas cumple con la similitud necesaria en la
tripleta 2 y 3 en donde el texto ingresado en el rango es mayor al umbral de la instancia establecido el
Román Albores
Cargo:
Autor
Capítulo V. Pruebas
86
Resultado:
¿Qué llevará el Endeavour para que sea instalado fuera de la estación espacial?
[llevara, argumento3, para que sea instalado fuera de la estación espacial ]
se ingresan estas tripletas y se procede a ejecutarla dando clic
a extraer la información de la ontología.
Sub-GBG-13.
La información extraída por medio de las tripletas ingresadas cumple con la similitud necesaria en la
tripleta 2 y 3 en donde el texto ingresado en el rango es mayor al umbral de la instancia establecido el
Autor
Caso de prueba:
MapTool-Es-Triple-Dom-
De la pregunta ¿Donde ocurrió el sismo que anunció la Agencia Meteorológica Japonesa ?
generaron las tripletas siguientes modificando el nombre común
verbo “anunciar” que tiene en su vector de sinónimos el verbo
“comunicaron” quedando de la siguiente manera:
1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
2. [ comunicaron,argument
3. [ temblor, espacio, x ? ]
En el cuadro de texto de la figura 5
debe dar clic en el botón buscar la cual dispara el evento para extraer la información de la ontología.
Figura 5-14.Resultado correcto de la consulta MapTool
Observaciones:
El verbo “comunicar” se encuentra dentro del vector de sinónimos del verbo
tanto es mapeado de manera correcta por la herramienta así como la palabra
“temblor” el cual es su sinónimo, así como la similitud de la cadena existente en el rango de la
tripleta 1.
Responsable:
LSC. Felipe Antonio Román Albores
Capítulo V. Pruebas
-Sub-GGB-14
Resultado:
¿Donde ocurrió el sismo que anunció la Agencia Meteorológica Japonesa ?
generaron las tripletas siguientes modificando el nombre común “sismo” por “temblor”
que tiene en su vector de sinónimos el verbo “comunicar” derivado de la palabra
quedando de la siguiente manera:
[ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]
[ comunicaron,argumento2, temblor ]
[ temblor, espacio, x ? ]
figura 5-14 se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar la cual dispara el evento para extraer la información de la ontología.
Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-
se encuentra dentro del vector de sinónimos del verbo “anunciar”
tanto es mapeado de manera correcta por la herramienta así como la palabra
el cual es su sinónimo, así como la similitud de la cadena existente en el rango de la
LSC. Felipe Antonio Román Albores
Cargo:
Autor
Capítulo V. Pruebas
87
¿Donde ocurrió el sismo que anunció la Agencia Meteorológica Japonesa ? se
“temblor” así como el
derivado de la palabra
se ingresan las tripletas anidadas; para ejecutar la prueba se
debe dar clic en el botón buscar la cual dispara el evento para extraer la información de la ontología.
GGB-14.
“anunciar” por lo
tanto es mapeado de manera correcta por la herramienta así como la palabra “sismo” por
el cual es su sinónimo, así como la similitud de la cadena existente en el rango de la
Capítulo V. Pruebas
88
5.5 Análisis de resultados
El objetivo principal de realizar las pruebas fue el comprobar la metodología de solución
propuesta y mejorarla logrando hacerla más eficiente; así como también comprobar la hipótesis
propuesta en el plan de pruebas y la identificación de patrones de búsqueda más recurrentes en las
ontologías.
Las consultas se realizaron sobre ontologías del dominio de noticias. La mayoría de las
pruebas realizadas se llevaron a cabo sobre un tipo de ontologías específicas para la representación
de texto en ontologías de dominio. Esta meta ontología se describe en (Reyes, 2011) donde utiliza
para la representación de eventos en la figura 5-15 se aprecia el conjunto de conceptos (T-Box) de la
meta ontología OntoEvento.
Figura 5-15. Estructura de la meta ontología OntoEvento en (Reyes, 2011).
Las consultas en lenguaje natural realizadas para las pruebas fueron obtenidas a partir del
contenido existente en las ontologías de (Reyes, 2011a). El número total de ontologías utilizadas en
las pruebas fueron 13. Partiendo de las consultas en lenguaje natural se realizó la conversión de las
preguntas de manera manual a tripletas ya que ésta es la entrada de la herramienta para la extracción
de información a partir de ontologías de la presente investigación.
Tiene_arg3
Tiene_espacio
Es_un
Es_un
Tiene_arg1
Tiene_arg2
Tiene_tiempo
Es_un
Es_un
Urbano
Evento
Efecto
provoca
Causante
Causado_por
Espacio
Geográfico
Acción
Argumento1
Argumento 2
Argumento 3
Unidad_Temporal
Nominalizació
n
Es_un
Intervalo
Instant
Es_un
Capítulo V. Pruebas
89
Las pruebas que se realizaron se encuentran dentro del (ver anexo C). Estas pruebas fueron
elaboradas a partir de los patrones de búsqueda identificadas en el apartado de pruebas a realizar.
En total fueron 70 pruebas de las cuales la herramienta reflejó el 88.57% de efectividad logrando
responder correctamente 62 preguntas de diferentes patrones de consulta contra 8 preguntas
erróneas obteniendo el 11.43 % restante del total de las pruebas realizadas.
A continuación se presenta la tabla 5-6 donde se define el número de consultas realizadas por
patrón, el patrón de consulta simple o anidada, para posteriormente especificar el número de
consultas respondidas correctamente y las consultas incorrectas del patrón de consulta que se
empleo.
Tabla 5-6. Resumen de las pruebas realizadas.
Consultas Patron de consulta Correctas Incorrectas
1 MapTool-Es-Triple-Dom-Sub-A 1 0
1 MapTool-Es-Triple-Dom-Sub-AA 0 1
4 MapTool-Es-Triple-Dom-Sub-B 4
1 MapTool-Es-Triple-Dom-Sub-BB 1 0
14 MapTool-Es-Triple-Dom-Sub-BG 12 2
8 MapTool-Es-Triple-Dom-Sub-BGG 8 0
1 MapTool-Es-Triple-Dom-Sub-BGGG 1 0
1 MapTool-Es-Triple-Dom-Sub-E 1 0
1 MapTool-Es-Triple-Dom-Sub-F 1 0
1 MapTool-Es-Triple-Dom-Sub-GGGB 0 1
24 MapTool-Es-Triple-Dom-Sub-GB 21 3
1 MapTool-Es-Triple-Dom-Sub-GBB 1 0
6 MapTool-Es-Triple-Dom-Sub-GBG 6 0
6 MapTool-Es-Triple-Dom-Sub-GGB 5 1
70 62 8
El resultado del análisis de las pruebas elaboradas se presenta en la tabla 5-7 en resumen:
Tabla 5-7. Número de preguntas y porcentaje de efectividad de la herramienta.
Preguntas Porcentaje
Correctas 62 88.57%
Incorrectas 8 11.43%
Total 70 100%
En la figura 5-16 se presenta el porcentaje redondeado de efectividad de la herramienta
respecto a las pruebas realizadas en el presente plan de pruebas.
Figura 5-16. Porcentaje de efectividad de la herramienta de
Las pruebas elaboradas se utilizaron para el mejoramiento de la herramienta. Con las pruebas
se logró identificar el uso de múltiples valores en los umbrales utilizados para obtener una respuesta
correcta.
A continuación se presenta la
umbrales utilizados.
Tabla 5-8. Relaciones de elementos ontológicos y los umbrales utilizados.
Elemento
Clase
Relación
Instancia
En las pruebas realizadas se
para realizar la comparación de las cadenas de texto en las relaciones era poco e
sentido se optó por implementar otros algoritmos que se adecuaran al tipo de cadenas de texto que se
estaban evaluando logrando así un mejoramiento en los resultados obtenidos en la similitud de
cadenas.
Efectividad de la herramienta
Capítulo V. Pruebas
se presenta el porcentaje redondeado de efectividad de la herramienta
respecto a las pruebas realizadas en el presente plan de pruebas.
Porcentaje de efectividad de la herramienta de extracción de información.
Las pruebas elaboradas se utilizaron para el mejoramiento de la herramienta. Con las pruebas
identificar el uso de múltiples valores en los umbrales utilizados para obtener una respuesta
enta la tabla 5-8 especificando los elementos de la ontología y los
Relaciones de elementos ontológicos y los umbrales utilizados.
Elemento Umbral
Clase .90
Relación .80
Instancia .70
En las pruebas realizadas se logró identificar que el algoritmo (Monge&Elkan, 1996) utilizado
para realizar la comparación de las cadenas de texto en las relaciones era poco e
por implementar otros algoritmos que se adecuaran al tipo de cadenas de texto que se
estaban evaluando logrando así un mejoramiento en los resultados obtenidos en la similitud de
89%
11%
Efectividad de la herramienta
Correctas
Incorrectas
Capítulo V. Pruebas
90
se presenta el porcentaje redondeado de efectividad de la herramienta
extracción de información.
Las pruebas elaboradas se utilizaron para el mejoramiento de la herramienta. Con las pruebas
identificar el uso de múltiples valores en los umbrales utilizados para obtener una respuesta
especificando los elementos de la ontología y los
Relaciones de elementos ontológicos y los umbrales utilizados.
identificar que el algoritmo (Monge&Elkan, 1996) utilizado
para realizar la comparación de las cadenas de texto en las relaciones era poco efectivo. En este
por implementar otros algoritmos que se adecuaran al tipo de cadenas de texto que se
estaban evaluando logrando así un mejoramiento en los resultados obtenidos en la similitud de
Capítulo V. Pruebas
91
El algoritmo utilizado en cadenas pequeñas de un máximo de 5 caracteres fue el algoritmo de
(Levenshtein, 1965) utilizado para comparar clases e instancias y relaciones. El otro algoritmo
(Nedleman&Wunch, 1970) fue utilizado en la mayoría de las relaciones e instancias que tiene una
longitud mayor a 5 y de no más de 14 caracteres de longitud. El algoritmo (Monge&Elkan, 1996) se
utiliza en cadenas con longitudes mayores a 14 caracteres. Con el uso de estos algoritmos derivados
de la librería SimMetric (Chapman, 2005) se obtienen mejores resultados que usando únicamente un
algoritmo para la tarea de comparación de cadenas de texto.
5.5.1 Justificación de las pruebas fallidas
Se presentaron dos problemas en la mayoría de los casos de prueba que resultaron
incorrectos debido a que el etiquetador TreeTagger no reconoce algunos tiempos verbales siendo la
más frecuente los verbos en pretérito indicativo.
El segundo problema encontrado fue en la base de datos de EuroWordNet ya que se
encuentra en una versión incompleta; lo cual hace que algunas pruebas realizadas sobre los verbos
no encuentren verbos relacionados al que se está utilizando para extraer el vector de sinónimos y no
es posible realizar un mapeo de esta palabra con otras existentes en los términos que representan al
verbo dentro de la tripleta.
Capítulo VI. Conclusiones
92
Capítulo 6. CONCLUSIONES En este capítulo se describen los resultados obtenidos con el desarrollo de la presente
investigación. Se presentan las conclusiones finales del desarrollo de la herramienta para la
extracción de información contenida en ontologías de dominio. Se presentan las aportaciones del
presente trabajo de tesis así como también trabajos futuros que se derivan de esta investigación.
Capítulo VI. Conclusiones
93
6.1 Conclusiones
Los patrones de las tripletas de búsqueda identificados en esta investigación se pueden
combinar en relación a la salida del análisis de la consulta de lenguaje natural. Esto permite que la
herramienta generada de esta investigación se adapte a otros proyectos donde se requiera extraer
información de ontologías de dominio. En relación a este apartado las ontologías que se encuentren
dentro del repositorio deben tener una estructura conocida por el ingeniero de ontologías para obtener
mejores resultados en la extracción de la información.
En el presente trabajo de investigación se utilizaron dos componentes para la identificación y
enriquecimiento de términos que recibe como entrada el prototipo para la extracción de información
contenida en ontologías de dominio. El primer componente que se utilizó en esta investigación fue el
etiquetador TreeTagger el cual identifica los verbos y nombres comunes para un mejor procesamiento.
Estos verbos se encuentran en las tripletas de búsqueda así como en los elementos de la ontología en
los que se identificaban las raíces verbales para realizar un mapeo con un grado de confianza más
alto. El segundo componente es la base de datos lexicográfica de EuroWordNet para el
enriquecimiento de los términos de las tripletas. En este punto se utilizan los sinónimos de los
términos identificados de los nombres comunes y verbos siempre que estos contengan información en
la base de datos. Este enriquecimiento de los términos generan más probabilidades para realizar
mapeos con los elementos que se extraen de la bases de datos.
Se implementaron 3 diferentes tipos de algoritmos para la comparación de cadenas de texto
con los cuales se obtienen mejores resultados. Los algoritmos son aplicados dependiendo de la
longitud de la cadena así como el elemento ontológico que se evalué.
1. El algoritmo (Levenshtein, 1965) es utilizado cuando las cadenas de texto son menores o
iguales a 5 caracteres de longitud. Se aplica a las instancias e instancias de relaciones que
tienen la función de relación en donde en la mayoría de los casos sirven para unir una tripleta
con otra. Para este caso en particular se obtienen mejores resultados que los generados por
los algoritmos propuestos por (Monge&Elkan, 1996) y (Needleman&Wunch, 1970).
2. El algoritmo (Needleman&Wunch, 1970) es utilizado en cadenas de texto mayores a 5
caracteres y menores o iguales a 14 caracteres de longitud. Es aplicado en instancias,
instancias de relaciones y clases. Este algoritmo obtiene mejores resultados en cadenas de
texto que se encuentran con estas restricciones.
3. El algoritmo (Monge&Elkan, 1996) se utiliza únicamente para las instancias ontológicas donde
la longitud de la cadena supera los 14 caracteres, esto se debe a que el algoritmo es el que
mejor resultados obtiene en cadenas de texto grandes.
Capítulo VI. Conclusiones
94
Se identificaron 3 diferentes umbrales para obtener mejores resultados en el mapeo de los
elementos de las tripletas con los elementos de las ontologías de dominio en relación al tipo de
elemento ontológico que se evalúa.
1. El umbral que se estableció para determinar si una clase es mapeada sintácticamente
correcta fue de 0.9. Este valor es el mayor de los umbrales ya que la extracción de las
instancias correspondientes a este método exige tener la mejor similitud entre los conceptos.
2. El umbral de las relaciones se estableció en 0.8 ya que en varias ocasiones el etiquetador
TreeTagger no lograba encontrar la raíz verbal debido al tiempo en el que se encontraba
definido en la ontología o en las tripletas de búsqueda dicha instancia.
3. Las Instancias se establecieron en el umbral de 0.7 debido a que existen instancias
representadas por cadenas de texto muy largas.
La herramienta generada a partir de esta investigación se presenta como una forma novedosa
para realizar la extracción de información por medio de ontologías de dominio utilizando para ello
técnicas de alineamiento de ontologías. Por lo que permite tener una mayor flexibilidad para realizar
esa tarea en comparación al uso de un lenguaje de consulta estándar como lo es SPARQL.
6.2 Aportaciones
Las principales aportaciones realizadas en el estudio de la extracción de información en
ontologías con la herramienta desarrollada a partir de la presente investigación son los siguientes:
A. En esta investigación se realizó el tratamiento de los verbos en el idioma español con ayuda del
etiquetador TreeTagger lo que permite obtener el contexto de la consulta del usuario. Los verbos
representan acciones sobre distintos elementos de una oración o consulta se desean conocer.
B. La búsqueda de información se realiza en múltiples ontologías de dominio, logrando obtener un
mayor alcance en los resultados de las consultas ejecutadas por el usuario.
C. El enriquecimiento de los elementos que se utilizan para obtener una mayor expresividad y así
obtener mejores resultados al utilizar sinónimos para comparar a los elementos de las ontologías.
D. La integración con diferentes herramientas que se encargan de analizar preguntas elaboradas en
lenguaje natural siempre y cuando generen tripletas en el modo de los patrones establecidos en la
presente investigación.
E. Integración de bases de datos lexicográficas de WordNet y EuroWordNet para realizar la
extracción de información en ontologías elaboradas en el idioma Inglés y Español
respectivamente.
F. Se aplicaron diferentes algoritmos para la comparación de cadenas de texto así como de
diferentes umbrales para la obtención de mejores resultados.
Capítulo VI. Conclusiones
95
No obstante, es necesario realizar un tratamiento previo de la consulta en lenguaje natural
para realizar una mejor extracción de la información utilizando la herramienta de mapeo de tripletas
con ontologías, ya que esta investigación recibe como entrada el resultado de un módulo previo de
análisis del lenguaje natural a tripletas.
La unión de los dos módulos genera una herramienta completa para la búsqueda de
información basada en preguntas-respuestas mediante el uso de ontologías para responder las
interrogantes que se presentan.
6.3 Trabajos futuros
Partiendo de los resultados de las pruebas, conclusiones y aportaciones generadas en esta
investigación se logró obtener una serie de actividades que ayudarían a mejorar y validar el presente
trabajo de investigación. Estas actividades son listadas a continuación:
A. Pruebas de ironLP basándose en la herramienta completa; es decir, probar los módulos de
(Vázquez, 2010) y la presente investigación para que por medio de un gold estándar validado se
obtengan el porcentaje real de efectividad de ironLP.
B. Pruebas de la herramienta de mapeo de ontologías de dominio generada para el idioma Inglés.
C. Integración e implementación de métodos que exploten axiomas que se encuentren establecidos
en las ontologías.
D. Integración e implementación de métodos para la extracción de información contenida en
instancias de propiedades así como en las relaciones de estas propiedades.
E. Extender la herramienta para que pueda leer ontologías en codificadas en OWL 2.
F. Integrar un módulo para la generación de consultas en SPARQL al término de la identificación de
todos los elementos que se desean extraer.
G. Visualizador de textos a partir de la instancia encontrada.
Estas actividades que se proponen tienen la finalidad de generar nuevos proyectos de
investigación. Se pretende darle continuidad a la presente investigación para mejorarla en medida que
se integren los trabajos futuros a la misma y mejorar también el buscador semántico ironLP que se
encuentra en desarrollo.
Referencias
96
REFERENCIAS (Berners-Lee, 2000) Berners Lee T., “Semantic Web - XML2000”. [en linea],
http://www.w3.org/2000/Talks/1206-xml2k-tbl, Recuperado el 28
de marzo de 2010.
(Benslimane, 2007) Benslimane S. M., Bensaber D. A., “Ontology mapping for
querying heterogeneous information”. Año 2007.
(Chapman, 2005) Sam Chapman, (2005). “SimMetric: An open source extensible
library of Similarity and Distance Metrics”. Revisado el día:
[lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
informo argumento 1 la empresa gestora de la planta tepco
informo argumento 2 luchan
luchan argumento 1 los tecnicos
luchan argumento 2 para controlar los reactores accidentados de la central nuclear japonesa de fukushima
Si
14 [ agrego, argumento1, el portavoz de Tokyo Electric Power ]
[ agrego, argumento2, x ? ]
Idioma: Español Dominio: Noticias
Subdominio: Desastres
añadio argumento 1 el portavoz de tokyo electric power añadio argumento 2 desconocemos si hay hubo algun impacto en las instalaciones pues los trabajadores salieron del area
Si
15 [se cotizaba, argumento1, el barril de petróleo tipo Brent del Mar del Norte ]
[ se cotizaba, argumento2, el mercado electrónico Intercontinental Petroleum Exchange ] [se cotizaba, tiempo, x ?]
Idioma: Español
Dominio: Noticias Subdominio: Finanzas
se cotizaba argumento 1 el barril de petroleo tipo brent del mar del norte se cotizaba argumento 2 en el mercado electronico intercontinental petroleum exchange ICE se cotizaba tiempo este jueves
Si
16 [se ubica, argumento1, el Brent ]
[se ubica, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Finanzas
se ubica argumento 1 el brent se ubica argumento 2 en 12.199 dolares
Si
17 [cotizo, argumento1, la canasta de la Organización de Países Exportadores de Petróleo]
[cotizo, argumento2, x ? ]
Idioma: Español
Dominio: Noticias Subdominio: Finanzas
cotizo argumento 1 la canasta de la organizacipon de paises exportadores de petroleo OPEP cotizo argumento 2 en 11.762 dolares lo que represento una alza de 1.02 dolares 0.88 por ciento respecto al cierre del martes
Si
18 [cayo, argumento1, x?]
[cayo, argumento2, 31 centavos de dólar respecto al cierre del
Idioma: Español
Dominio: Noticias
La búsqueda realizada no causo ninguna respuesta. No
Referencias
115
miércoles] Subdominio: Finanzas
19 [ fue hospitalizado, argumento1, x?]
[ fue hospitalizado, argumento2, en estado crítico ]
Idioma: Español
Dominio: Noticias
Subdominio: Internacionales
hospitalizado argumento 1 alencar ex vicepresidente brasileno
hospitalizado argumento 2 en estado critico
Si
20 [ comunicaron,argumento1,el hospital Sirio Libanes de Sao Paulo]
[ comunicaron, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Internacionales
anuncio argumento 1 el hospital sirio libanes de sao paulo anuncio argumento 2 el ex vicepresidente de brasil jose alencar volvio a ser internado hoy a raiz de fuertes dolores abdominales y se encuentra en estado critico
Si
21 [ goberno, argumento1, x ? ]
[ goberno, espacio, Brasil ]
[ goberno, tiempo, entre 2003 y 2010]
Idioma: Español
Dominio: Noticias
Subdominio: Internacionales
gobernó argumento 1 luiz inacio lula da silva
gobernó espacio Brasil
gobernó tiempo entre 2003 y 2010
Si
22 [administraron, argumento1, x ? ] [administraron, espacio, Brasil ]
gobernó espacio brasil gobernó tiempo entre 2003 y 2010
Si
24 [batallado, argumento1, el político de 79 años de edad]
[batallado, argumento2, x?]
Idioma: Español
Dominio: Noticias
Subdominio: Internacionales
lucha argumento 1 el politico de 79 anos de edad lucha argumento 2 contra un cancer desde 1997
Si
25 [ dejaron, argumento1, 6 cuerpos ]
[ dejaron, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Nacionales
dejan argumento 1 6 cuerpos dejan espacio sobre autopista del sol
Si
26 [ encontraron, argumento1, los Idioma: Español encontraron argumento 1 agentes de la PME Si
Referencias
116
agentes de la PME]
[ encontraron,argumento2, x ? ]
Dominio: Noticias
Subdominio: Nacionales
encontraron argumento 2 un automóvil tipo accord abandonado y con manchas de sangre
27 [ hallaron, argumento1, los agentes de la PME ] [ hallaron, argumento2, x ? ]
Idioma: Español
Dominio: Noticias Subdominio: Nacionales
encontraron argumento 1 agentes de la PME encontraron argumento 2 un automóvil tipo accord abandonado y con manchas de sangre
Si
28 [ enfrentamiento, argumento1, entre grupos armados ]
[ enfrentamiento, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Nacionales
enfrentamiento argumento 1 entre grupos armados enfrentamiento espacio en la comunidad santana municipio de choix
Si
29 [replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]
[replica de 6.4 grados sacude de nuevo Fukushima, tiene_lugar_pub, x ? ]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
replica de 6 4 grados sacude de nuevo fukushima tiene lugar pub tokio japon
replica de 6 4 grados sacude de nuevo fukushima tiene fecha pub martes 29 de marzo de 2011
Si
30 [ fueron dañados, argumento1, seis reactores] [ fueron dañados, argumento2, x ?]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
dañados por argumento 1 seis reactores dañados por argumento 2 terremoto
Si
31 [ fueron afectados, argumento1, seis reactores ]
[ fueron afectados,argumento2,x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
dañados por argumento 1 seis reactores dañados por argumento 2 terremoto
Si
32 [ temblor, tiempo, x ? ] Idioma: Español Dominio: Noticias
Subdominio: Desastres
sismo tiempo este jueves sismo tiempo a las 23:32 horas
Ontología: JR-DS-01
sismo tiempo dia 11
sismo tiempo 19:54 hora local
sismo tiempo 11 de marzo
terremoto tiempo hoy
Ontología: UN-DS-01
Si
33 [ sismo, tiempo, x ? ] Idioma: Español sismo tiempo este jueves Si
Referencias
117
Dominio: Noticias
Subdominio: Desastres
sismo tiempo a las 23:32 horas
Ontología: JR-DS-01
sismo tiempo día 11 sismo tiempo 19:54 hora local
sismo tiempo 11 de marzo
terremoto tiempo hoy
Ontología: UN-DS-01
34 [ temblor, tiempo, Hoy ]
[ temblor, espacio, x ? ]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
terremoto tiempo hoy terremoto espacio noreste de Japón
Si
35 [terremoto, tiempo, Hoy]
[terremoto, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
terremoto tiempo hoy terremoto espacio noreste de Japón
Si
36 [ sismo, tiempo, Hoy ]
[ sismo, espacio, x ? ]
Idioma: Español
Dominio: Noticias Subdominio: Desastres
terremoto tiempo hoy terremoto espacio noreste de Japón
Si
37 [sismo, tiempo, Hoy ]
[sismo, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
terremoto tiempo hoy terremoto espacio noreste de Japón
Si
38 [ tsunami, espacio, las zonas de la costa noreste ]
[ tsunami, tiempo, x ? ]
Idioma: Español Dominio: Noticias
Subdominio: Desastres
tsunami espacio zonas de la costa noreste tsunami tiempo día 11
Si
39 [ tsunami, espacio, la costa
noreste ]
[ tsunami, tiempo, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
tsunami espacio zonas de la costa noreste tsunami tiempo día 11
Si
40 [ examina, argumento1, x ? ] [ examina, argumento2, los productos importados de Japón ]
Idioma: Español Dominio: Noticias
Subdominio: Desastres
examina argumento 1 taiwan
examina argumento 2 los productos importados de Japón
Si
Referencias
118
41 [ están investigando, argumento1,
x ? ]
[ están investigando, argumento2, los productos de Japón ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
examina argumento 1 Taiwán
examina argumento 2 los productos importados de japon
Si
42 [ anuncio, argumento1, un funcionario isleño ]
[ anuncio, argumento2, x ? ]
[ anuncio, tiempo, Hoy ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
anuncio argumento 1 un funcionario isle o anuncio argumento 2 Taiwán ha detectado niveles de radiación superiores a lo normal pero que no suponen peligro para la salud en el embalaje de cartón de fideos importados de Japón
anuncio tiempo hoy
Si
43 [ comunicado, argumento1, funcionario isleño ]
[ comunicado, argumento2, x ? ]
[ comunicado, tiempo, Hoy ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
anuncio argumento 1 un funcionario isle o anuncio argumento 2 Taiwán ha detectado niveles de radiación superiores a lo normal pero que no suponen peligro para la salud en el embalaje de cartón de fideos importados de Japón
anuncio tiempo hoy
Si
44 [ detecta, argumento1, Taiwán ]
[ detecta, argumento2, radiación en fideos japoneses ]
[ detecta, espacio, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
detecta argumento 1 taiwan
detecta argumento 2 radiación en fideos japoneses detecta espacio taiwan
Si
45 [ examina, argumento1, Taiwan ]
[ examina, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
examina argumento 1 Taiwán examina argumento 2 los productos importados de japon
Si
46 [ investigando, argumento1,
Taiwan ]
[ investigando, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Desastres
examina argumento 1 Taiwán examina argumento 2 los productos importados de Japón
Si
47 [ pidió, argumento1, el perredista ]
[ pidió, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Policiacos
pidió argumento 1 el perredista pidió argumento 2 esperar los resultados que arrojen la consulta ciudadana realizada este domingo en territorio mexiquense
Si
Referencias
119
48 [ ha exigido, argumento1, el perredista ]
[ ha exigido, argumento2, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Policiacos
La búsqueda realizada no causo ninguna respuesta. No
49 [ reitero, argumento1, x ? ] [ reitero, argumento2, que no será el abanderado de una eventual alianza política con el Partido Acción Nacional (PAN) ]
Idioma: Español Dominio: Noticias
Subdominio: Policiacos
reitera argumento 1 alejandro encinas rodríguez
reitera argumento 2 que no será el abanderado de una eventual alianza entre este organismo político y el partido acción nacional PAN
Si
50 [ dijo, argumento1, el perredista ] [ dijo, argumento2, que celebra que se realicen ejercicios ciudadanos ]
[ dijo, tiempo, x ? ]
Idioma: Español Dominio: Noticias
Subdominio: Policiacos
dijo argumento 1 el perredista dijo argumento 2 celebra que se realicen ejercicios ciudadanos dijo tiempo alrededor de las 19:30 horas
Si
51 [ ha manifestado, argumento1, el perredista ] [ ha manifestado, argumento2, celebra que se realicen ejercicios ciudadanos ] [ ha manifestado, tiempo, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio: Policiacos
La búsqueda realizada no causo ninguna respuesta. No
52 [ señalo, argumento1, el exjefe del Gobierno del Distrito federal ] [ señalo, argumento2, x ? ] [ señalo, espacio, su cuenta de Twitter ]
Idioma: Español
Dominio: Noticias Subdominio: Policiacos
señalo argumento 1 el ex jefe del gobierno del distrito federal señalo argumento 2 lo que quiero reiterar es que no voy a participar en una eventual alianza entre mi partido el PRD y el PAN lo digo con toda claridad
señalo espacio su cuenta en twitter
Si
53 [ explosión, controlaron, x ? ] [ explosión, fue originada por, almacenamiento de material pirotécnico ]
Idioma: Español Dominio: Noticias
Subdominio:
explosión fue controlado por cuerpo de bomberos
explosión causado por almacenaba material pirotécnico
Si
54 [ explosión, fue controlada por, cuerpo de bomberos] [ explosión, provoco, x ? ] [explosión, afecto, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio:
explosión fue controlado por cuerpo de bomberos explosión provoca cerrar la calzada canal de tezontle
explosión afecto sies viviendas
Si
Referencias
120
55 [ explosión, fue originado por, el almacenamiento de material pirotécnico ] [ explosión, tiene unidad temporal, x ? ]
Idioma: Español
Dominio: Noticias
Subdominio:
explosión causado por almacenaba material pirotécnico explosión tiene unidad temporal temporal 1