Page 1
Utilidad de los datos enlazados
para la terminología
Jorge Gracia
Ontology Engineering Group
Dpto. de Inteligencia Artificial
Universidad Politécnica de Madrid
[email protected]
Jornada sobre “TERMINESP y la terminología del español”
Representación de la Comisión Europea en España, Madrid
28 de octubre de 2016
Page 2
Recursos lingüísticos
en la Web
2
2
Page 3
Recursos lingüísticos en la Web
Recursos Lingüísticos Electrónicos
• corpus
• lexicones
• diccionarios
• “wordnets”
• terminologías
• etc.
3
Page 4
Recursos lingüísticos en la Web
Actualmente…
• En formatos heterogéneos
• Diferentes esquemas de representación
• APIs no estándar
• Aislados entre sí (“data silos”)
• Diferentes niveles de acceso (desde “mándame un email” a servicios
web)
• Múltiples catálogos de recursos lingüísticos con diferentes metadatos y
esquemas de representación
Por tanto... el descubrimiento y reutilización de RLs resulta costoso en
tiempo y esfuerzo
4
Page 5
*Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell
“Red”
Etimología: Del latin “rete”
Género: “f”
Definición: “Conjunto de
ordenadores o de equipos
informáticos conectados entre
sí….”
“Red”
Traducciones: “xarxa”(ca), “rede”(ga), …
“Red”
Norma: UNE 21302-131
Inglés: network
Alemán: Netzwerk
“Red”
Pronunciation: [red]
Grammar category: sustantivo femenino
Singular: “red”
Plural: “redes”
“Red_de_computadores”
Category: redes informáticas
Image
Recursos lingüísticos en la Web
“Red” (de
ordenadores)
5
Page 6
*Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell
“Red”
Etimología: Del latin “rete”
Género: “f”
Definición: “Conjunto de
ordenadores o de equipos
informáticos conectados entre
sí….”
“Red”
Traducciones: “xarxa”(ca), “rede”(ga), …
“Red”
Norma: UNE 21302-131
Inglés: network
Alemán: Netzwerk
“Red”
Pronunciation: [red]
Grammar category: sustantivo femenino
Singular: “red”
Plural: “redes”
“Red_de_computadores”
Category: redes informáticas
Image
Recursos lingüísticos en la Web
Información
complementaria
pero no conectada
6
Page 7
Datos enlazados para los
recursos lingüísticos
7
Page 8
Datos enlazados
Prinicipos de los Datos Enlazados
(linked data principles)
1. Usar URIs (Uniform Resource Identifiers) para identificar
“cosas” en la Web
2. Usar HTTP URIs para que la gente pueda acceder a
esos identificadores y obtener algo
3. Cuando alguien accede a una URI, debe proporcionarse
información útil sobre el recurso que identifica (en RDF)
4. Incluir enlaces a otras URIs, para que se puedan
descubrir más cosas.
8
8
Page 9
Datos enlazados
9
9
Page 10
Datos enlazados
Red
Phonetic form
Form
numbersingular
[RED]
Form
plural
[REDES]
Phonetic form
number
Red
Sense
written form
“red”@es
Sense
written form
“xarxa”@ca
translation
Red
image
Red
Sense Sense
translation written form
“red” “network”
written form
Red
written form
Form
gender
femenine
“red”
10
Page 11
Datos enlazados
Red
Phonetic form
Form
numbersingular
[RED]
Form
plural
[REDES]
Phonetic form
number
Red
Sense
written form
“red”@es
Sense
written form
“xarxa”@ca
translation
Red
image
Red
Sense Sense
translation written form
“red” “network”
written form
Red
written form
Form
gender
femenine
“red”
11
Page 12
Datos enlazados
Algunos BENEFICIOS de los recursos lingüísticos
como datos enlazados
• Agregación e integración de recursos lingüísticos
• Los datos se exponen de manera estandarizada (SPARQL)
• Se facilita el descubrimiento de los datos
• Uso de vocabularios acordados para representar contenido
lingüístico
NIFNLP Interchange Format
12
12
Page 13
Datos enlazados
Linguistic Linked Data Cloud
Aparición de la “nube de datos lingüísticos enlazados”
Linguistic Linked Open Data (LLOD) cloud
13
http://linguistic-lod.org/llod-cloud
13
Page 14
El modelo lemon-ontolex
14
Page 15
lemon-ontolex
15
El núcleo del modelo
https://www.w3.org/2016/05/ontolex/
Page 16
lemon-ontolex
16
El módulo vartrans
Page 17
Datos enlazados en
terminologías:
Terminoteca RDF
17
Page 18
Terminesp TERMCAT IATEOtras
terminologías
Terminoteca RDF
18
Page 19
Terminoteca RDF
TERMINOTECA RDF como demostrador del potencial de los datos enlazados en terminologías
• Basado en Terminesp y Termcat
• Multilingüe: inglés, catalán, francés, italiano, sueco, alemán, latín
http://linguistic.linkeddata.es/terminoteca/
19
Page 20
Terminesp
TERMINESP es la base de datos terminológica creada por AETER
(Asociación Española de Terminología) en base a la terminología
contenida en las normas UNE (AENOR)
>30,000 términos técnicos con definiciones (en español)
Variedad de dominios: aeronáutica, agricultura, ingeniería eléctrica, …
Traducciones al Inglés, francés, alemán, italiano, sueco
Denominación científica (latín)
20
http://www.wikilengua.org/index.php/Wikilengua:Terminesp
Page 21
Terminesp
4
http://www.wikilengua.org/index.php/Wikilengua:Terminesp
21
Page 22
Termcat
http://www.termcat.cat/en/Terminologia_Oberta/
TERMCAT es el centro de terminología de la lengua catalana,
responsable de la Terminologia Oberta:
Gran variedad de dominios. [En nuestro prototipo: Internet y sociedad
de la información, Telecomunicaciones, Industria electrónica]
Traducciones al español, inglés y francés
Siglas, abreviaturas, sinónimos,…
22
Page 23
Termcat
http://www.termcat.cat/en/Terminologia_Oberta/
23
Page 24
Terminoteca RDF
Conversión de TERMINESP y TERMCAT a datos enlazados:
De acuerdo al modelo lemon-ontolex
Cada elemento lingüístico (lexical entry, lexical form, lexical sense,
translation, …) identificado con una URI
Creación de conceptos en skos para dar cuenta de la información
semántica
En TERMINESP:
>30000 conceptos creados
Añadida información de categorías gramaticales (part-of-speech)
Añadido el tipo de sintagma (nominal, adjetival, preposicional, …)
En TERMCAT:
> 7000 conceptos creados (tres dominios)
24
Page 25
Terminoteca RDF
25
DE ES
SV
IT
FR
EN
ES
FR
EN
CA
Page 26
Terminoteca RDF
26
DE ES
SV
IT
FR
EN
CA
Terminoteca-RDF
Page 27
Terminoteca RDF
27
Page 28
Terminoteca RDF
28
Page 29
Terminoteca RDF
29
Page 30
Terminoteca RDF
Interfaz web para obtener traducciones directas
http://linguistic.linkeddata.es/terminoteca/search/
30
Page 31
Terminoteca RDF
31
Motor SPARQL para búsquedas semánticas más complejas
http://linguistic.linkeddata.es/terminoteca/sparql-editor/
Page 32
Terminoteca RDF
Ejemplo: “Dame traducciones al catalán [Termcat] y al alemán [Terminesp]
del término en español ‘amplificador’, indicando el origen de los datos y el
dominio de aplicación.”
32
wr_target provenance subject
"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s
ocietat%20de%20la%20informacio.xml"Electrònica"@ca
"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr
onica%20i%20dels%20materials%20electrics.xml"Electrònica"@ca
"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s
ocietat%20de%20la%20informacio.xml"Societat de la informació"@ca
"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr
onica%20i%20dels%20materials%20electrics.xml"Societat de la informació"@ca
"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s
ocietat%20de%20la%20informacio.xml"Telecomunicacions"@ca
"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr
onica%20i%20dels%20materials%20electrics.xml"Telecomunicacions"@ca
"Verstärker"@de http://www.wikilengua.org
"Verstärket"@de http://www.wikilengua.org
Page 33
Terminoteca RDF
33
Ejemplo: “Dame las siglas [de Termcat] asociadas a las entradas en inglés
que vengan de Terminesp [y que no tenían siglas asociadas, inicialmente].”
label initialism
"code division multiple access"@en "CDMA"@en
"time division multiple access"@en "TDMA"@en
"light-emitting diode"@en "LED"@en
"unipolar transistor"@en "FET"@en
"N-channel field-effect transistor"@en "N-FET"@en
"database management system"@en "DBMS"@en
"frequency division multiple access"@en "FDMA"@en
"low-noise amplifier"@en "LNA"@en
"automatic gain control"@en "AGC"@en
"programmable logic controller"@en "PLC"@en
"alternating current"@en "AC"@en
"direct current"@en "DC"@en
"programmable logic device"@en "PLD"@en
Page 35
Conclusiones
• Los datos enlazados pueden ser de utilidad para los recursos
lingüísticos en general y las terminologías en particular
• Iniciativa Terminoteca RDF: crear un grafo unificado de
terminologías en España basado en técnicas de datos enlazados
• Validación y enriquecimiento de los datos, y enlazado a otras
fuentes
• Futuros pasos:
• Enlace con otras terminologías y fuentes de datos (ej.: IATE, DBpedia,
Apertium)
• Evolución más allá de estado de “prototipo” de investigación
• Interacción más directa con los propios procesos de
creación/validación/publicación de datos de Terminesp y Termcat
35
Page 36
¡Gracias!
36Ontology Engineering Group