-
UNIVERSIDAD PONTIFICIA DE SALAMANCA CAMPUS DE MADRID ESPAA
WEB SEMANTICA
ARTICULO: SISTEMAS BASADOS EN VOZ UTILIZANDO VOICEXML
Autor: Ing. Carlos Alvarado Quintana Doctorando de Ingeniera
Informtica
Programa de Ingeniera de Software
Agosto, 2006
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page2
INDICE
RESUMEN 3
I. INTRODUCCION 4
1.1. Enunciado del Problema 4
1.2. Delimitacin del Estudio 4
1.3. Tesis 4
II. MARCO TEORICO
2.1 Definiciones del estndar VoiceXML 5
2.2 Referencias W3C respecto a VoiceXML 12
2.3 Aplicaciones 15
2.4 Otros conceptos relativos a Voice XML y Web Semantica 17
III. SISTEMAS BASADOS EN VOZ
3.1 Aportes de VoiceXML a los Sistemas Basados en Voz 18
3.2 Ejemplos de Cdigo VoiceXML 23
CONCLUSIONES 25
BIBLIOGRAFA 28
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page3
RESUMEN VoiceXML es una especificacin propuesta por la W3C que
tiene como objetivo
crear archivos XML, llamados documentos, que puedan reproducir
sonido
digitalizado, sonido sintetizado usando la tecnologa TTS,
reconocer informacin
ingresada por el usuario (tonos DTMF) y reconocer palabra y/o
frases
pronunciadas por una persona, todo esto usando un dispositivo
telefnico
(telfono clsico, celular o cualquier otra variante).
VoiceXML esta basado completamente en XML, es decir necesita que
el
documento VoiceXML bien estructurado para que pueda ser
reconocido como
correcto. Esto no ocurre con HTML, pero s con XHTML.
Actualmente esta especificacin se encuentra en la versin 2.1 la
cual ha recibido
el estado de "Recomendado" por parte de la W3C, faltndole muy
poco para ser
declarada oficialmente como estndar, aunque en estos momentos ya
es un
estndar "de facto" y crea una serie de ventajas significativas
en los desarrollos
basados en web, entrega de contenidos para las aplicaciones
interactivos en
respuesta a la voz.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page4
I. INTRODUCCIN
Estos estndares evolucionan a travs de un proceso de
maduracin
conducido por los principios de pragmatismo y eficacia. Entre
los ejemplos
que resultan familiares para todos se incluyen HTTP, HTML, WAP,
TCP/IP,
XML, y VoiceXML. Normalmente son realizados por ingenieros de
software
de varias compaas que colaboran bajo los auspicios de
organizaciones
como W3C, OASIS, OMA, ISO e IETF.
Voice Extensible Markup Language (VoiceXML o VXML). Es una
especificacin propuesta por la W3C que tiene como objetivo crear
archivos
XML, llamados documentos, que puedan reproducir sonido
digitalizado,
sonido sintetizado usando la tecnologa TTS(1), reconocer
informacin
ingresada por el usuario (tonos DTMF(2)) y reconocer palabra y/o
frases
pronunciadas por una persona, todo esto usando un dispositivo
telefnico
(telfono clsico, celular o cualquier otra variante) VoiceXML
esta basado
completamente en XML.
1.1. Enunciado del Problema .
El aporte de la tecnologa VoiceXML en los sistemas basados en
voz
dirigindola especficamente en el mbito de la web semntica.
1.2. Delimitaciones del Estudio. El Estudio estar limitado al
mbito de la especificacin del VoiceXML por
W3C como estndar de XML para Aplicaciones de Web Semntica,
actualmente en la versin 2.0. y en proceso de Aprobacin la
versin 2.1.
1.3. Tesis Anlisis de la Norma W3C de VoiceXML 3.0 como aporte a
los sistemas basados en voz
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page5
II. MARCO TEORICO 2.1 Definiciones del estndar VoiceXML
Los orgenes de VoiceXML empezaron en 1995 como un lenguaje
diseado
de dialogo basado en XML buscando simplificar los procesos de
desarrollo
de aplicaciones de reconocimiento de voz, fue un proyecto de
AT&T
llamado Phone Markup Language (PML). Como AT&T reorganizado,
los
grupos de AT&T, Lucent y Motorola continuaron trabajando en
sus propios
lenguajes PML.
En 1998, W3C realizo una conferencia sobre browsers de voz. Para
este
tiempo, AT&T y Lucent tenan variantes significativas de sus
PML
originales, mientras Motorola haba desarrollado VoxML e IBM
estaba
desarrollando su propio SpeechML. Muchos otros participantes de
la
conferencia estuvieron tambin haciendo desarrollos similares de
lenguajes
para el diseos de dilogos; por ejemplo, HP's TalkML and
PipeBeach's
VoiceHTML.
Luego AT&T, IBM, Lucent, y Motorola formaron el Foro de
VoiceXML para
agrupar sus esfuerzos. La misin del Foro fue definir un estndar
de diseo
de lenguajes de dialogo para que los desarrolladores puedan
usarlo para
construir sus aplicaciones de dilogos. Ellos escogieron XML como
el
lenguaje bsico para estos esfuerzos porque es sencillo para
todos, se
adapta y va en concordancia con los cambios tecnolgicos.
En el ao 2000, el Foro de VoiceXML libero al publico la versin
1.0 de
VoiceXML. Shortly thereafter, VoiceXML 1.0 fue sometido por W3C
como la
base para la creacin de un Nuevo estndar internacional. VoiceXML
2.0 es
el resultado de este trabajo a travs de la colaboracin de
compaas
miembros de W3C, otros grupos de trabajo de W3C, y el publico en
general,
en especial desarrolladores independientes. Actualmente se
esta
trabajando en la aprobacin de la versin 2.1
(http://www.w3.org/TR/2005/CR-voicexml21-20050613/), y el
desarrollo de
VoiceXML Versin 3.0
(http://www.w3c.es/Prensa/2005/nota051206_ssml).
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page6
VoiceXML es un lenguaje de etiquetas que sigue las reglas
sintcticas de
XML con reglas semnticas que permiten la creacin de aplicaciones
de
voz. VoiceXML se puede utilizar para crear pginas tanto estticas
como
dinmicas ya que, al igual que HTML, se puede embeber en
programas
escritos en lenguajes de programacin como Java o C#. Se trata de
un
lenguaje que permite la comunicacin entre el hombre y la mquina
de
forma hablada, es decir, es posible, por ejemplo, acceder a
Internet usando
simplemente la voz. No es necesario mencionar el gran avance que
esto
supondra para las personas invidentes; podran acceder a gran
parte de la
informacin de Internet sin que su discapacidad supusiese un
impedimento
para ello. Para poder describir como funciona podemos guiarnos
del
siguiente grfico:
Figura 1. Arquitectura VoiceXML
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page7
De esta figura podemos obtener los siguientes enunciados:
APPLICATION HOSTING ENVIROMENT
Llamado tambin "Document Server". Es un ambiente que genera
dinmicamente documentos VoiceXML. Bsicamente esta compuesto por
3
componentes.
1. Web Server: Servidor Web que recibe HTTP Request y enva
HTTP
Response con un documento VoiceXML.
2. Application Server: Servidor de aplicaciones que mantiene una
lgica de negocio que sobre la base de los parmetros enviados por el
Web
Server genera documentos VoiceXML.
3. Database: Base de Datos de la cual se obtiene informacin para
generar los documentos VoiceXML
VOICEXML INTERPRETER
Aplicacin que recibe un documento VoiceXML y lo interpreta, es
decir
procesa las etiquetas que dicho documento contiene.
VOICEXML INTERPRETER CONTEXT
Modulo del VoiceXML Interpreter que monitorea las posibles
actividades
que los usuarios realizan mientras se esta interpretando un
documento
VoiceXML, por ejemplo el usuario podra presionar desconectarse
(colgar el
telfono), lo generara que cancelacin de la interpretacin del
documento.
IMPLEMENTATION PLATFORM
Este componente viene a ser el Browser en si, pues cada empresa
puede
desarrollar su propio VoiceXML Browser el cual aparte de
interpretar un
documento VoiceXML puede implementar mecanismos de cache,
procesamiento de llamadas telefnicas, etc.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page8
Estos son los componentes generales de la arquitectura de
VoiceXML, sin
embargo hay empresas que desarrollan VoiceXML Browsers y le
adicionan
funcionalidades no detalladas en la especificacin, lo cual no
ocurre solo
con VoiceXML sino con casi todas las especificaciones.
Alcances de VoiceXML El lenguaje describe la interaccin
humano-maquina entregada por
sistemas de respuesta de voz lo que incluye:
Salida de dilogos Sintetizados(text -to-speech). Salida de
archivos de audio. Reconocimiento de entradas habladas.
Reconocimiento de entradas DTMF. Grabacin de entradas habladas.
Control de flujo de dilogos. Los rasgos de telefona tales como
llamar, transferir y desconectar. EL lenguaje provee medios para
recolectar caracteres y/o entradas
habladas, asignando al documento de entrada peticiones de
variables definidas, y tomando decisiones que afectan la
interpretacin de documentos escritas en el idioma. Un
documento
puede unirse a otros documentos a travs de los identificadores
del
Recurso Universales (URIs).
Principios de Diseo sobre VoiceXML
VoiceXML es una aplicacin de XML.
El lenguaje entrega portabilidad de servicios a travs de la
abstraccin de recursos sobre tipos de plataformas.
El idioma acomoda la diversidad de la plataforma en los formatos
del archivo audio soportados, formatos de gramtica hablada, y
esquemas URI. Mientras los productores de plataformas pueden
soportar varios
formatos de gramticas el lenguaje requiere un formato de
gramtica
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page9
comn llamado Forma XML de W3C formato de reconocimiento de
gramtica hablada, facilita la interoperabilidad.
Similarmente,
mientras varios formatos de audio para escuchar y grabar
pueden
ser soportados.
El lenguaje soporta fcilmente la autora para tipos comunes de
interacciones.
EL lenguaje a sido definido bien semnticamente preservando el
intento del autor por mantener el comportamiento de las
interacciones con el usuario.
Las heursticas del cliente no son necesarias para determinar la
interpretacin de los elementos del documento.
El lenguaje posee un mecanismo de control de flujo. El lenguaje
habilita la separacin de un servicio lgico de un
comportamiento interactivo.
No esta pensado para un trabajo computacional extensivo,
operaciones con bases de datos, o legar operaciones al sistema.
Este asume que puede ser manejado por recursos fuera del
interprete de documentos, es decir el servidor de
documentos.
Lgica de servicio general, administracin de estados, generacin
de dilogos, y secuencias de dilogos son asumidas para residir
fuera
del interprete de documentos.
El lenguaje entrega caminos para enlazar documentos usando URIs,
y tambin enviar datos a l servidor de scripts usando URIs.
VoiceXML entrega vas para identificar exactamente que dato
enviar al servidor, y cual mtodo HTTP (get o post) usar para el
envi.
El lenguaje no requiere que los autores del documento
especifiquen lo recursos de dialogo asignados o no asignados, o por
concurrencia.
La localizacin de recursos e hilos de control pueden ser
manejados
por la implementacin de plataformas.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page10
Requisitos de la Plataforma Esta seccin perfila los requisitos
en las plataformas del hardware /
software que apoyarn a un intrprete de VoiceXML.
Adquisicin de Documentos. Se espera que el interprete de
contexto adquiera documentos para que el interprete de VOICEXML
acte. EL
protocolo URI de http debe ser soportado. En algunos casos,
el
documento requerido es generado por la interpretacin de
documentos
de VOICEXML, mientras otras peticiones son generadas por el
interprete de contexto en respuesta a los eventos fuera del
alcance del
lenguaje, por ejemplo una llamada entrante. Cuando los emisores
de
peticin de documentos son va http, e interprete de contexto
se
identifica a si mismo como "User-Agent" variable de encabezado
con el
valor "/", por ejemplo, "acmebrowser/1.2"
Salida de Audio. La implementacin de la plataforma debe soportar
salida de audio usando archivos y text -to-speech (TTS). La
plataforma
debe ser capaz de hacer secuencias libremente TTS y salidas
en
formato audio. Los archivos de audio son referidos por una URL.
El
lenguaje especifica los requerimientos de formatos de archivos
de que
sern soportados (ver apndice A) formatos de archivos de
audio
adicionales tambin pueden ser soportados
Entrada de Audio. La implementacin de la plataforma es requerida
para detectar y reportar caracteres y/o entradas habladas
simultneamente y el control de la deteccin de la duracin del
intervalo
de entrada con un cronmetro cuya longitud es especificada por
un
documento de VOICEXML.
En la mayora de los reportes por caracteres (por ejemplo,
DTMF)
ingresados por el usuario. Las Plataformas deberan soportar el
formato
de gramtica descrito en Forma XML de W3C formato de
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page11
reconocimiento de gramtica hablada. Tambin debera soportar
el
formato de gramtica descrito en Forma aumentada BNF forma XML
de
W3C formato de reconocimiento de gramtica hablada .
Debe ser capaz de recibir dinmicamente datos de gramtica de
reconocimiento de dilogos.
Debe ser capaz de usar datos de gramtica de dialogo en forma XML
de
W3C formato de reconocimiento de gramtica hablada .
Tambin debe ser capaz recibir datos de gramticas de
reconocimiento
de dilogos Forma aumentada BNF forma XML de W3C formato de
reconocimiento de gramtica hablada, y puede soportar otros
formatos
como el formato de gramtica jspeech o formatos propietarios.
Algunos
elementos VoiceXML Contienen Datos de gramtica de dialogo;
otros
refieren a daos de gramtica de dilogos a travs de una URI.
EL
reconocimiento de dilogos debe ser capaz de acomodar
actualizaciones dinmicas de los dilogos de entrada por el cual
esta
escuchando a travs de un mtodo especificado de datos de
gramtica
de dilogos. Tambin debe ser capaz de grabar el audio recibido
desde
el usuario. La implementacin de la plataforma debe ser capaz de
crear
la grabacin disponible a una variable request.
Transferencia. La plataforma debe ser capaz de suportar la
creacin de una conexin compartida a travs de una red de
comunicacin, como el telfono.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page12
2.2 Referencias W3C respecto a VoiceXML
El W3C fue creado para guiar la Web hacia su potencial mximo
mediante
el desarrollo de protocolos comunes que promuevan su evolucin
y
garanticen la interoperabilidad. Se trata de un Consorcio de la
industria
internacional gestionado conjuntamente por el Laboratorio de
Ciencias de la
Computacin e Inteligencia Artificial del MIT (MIT CSAIL) en los
Estados
Unidos, el Consorcio Europeo para la Investigacin en Informtica
y
Matemticas (ERCIM) en Francia y la Universidad de Keio, en Japn.
Los
servicios que proporciona el Consorcio incluyen un archivo de
informacin
sobre el World Wide Web para desarrolladores y usuarios, y
varios
prototipos y aplicaciones de ejemplo para demostrar el uso de
estas nuevas
tecnologas. Hasta la fecha, ms de 400 organizaciones son
Miembros del
Consorcio.
VoiceXML Versin 3.0 El W3C avanza en nuevas extensiones para las
tecnologas de voz y la
Web La nueva versin de SSML incluye caractersticas de
internacionalizacin; VoiceXML 3.0 incorpora la verificacin del
usuario.
El 6 de diciembre de 2005: El Consorcio World Wide Web (W3C)
anunci
un nuevo trabajo sobre extensiones para componentes de la
Infraestructura
de Interfaz del Habla que ampliar la funcionalidad del Lenguaje
de
Etiquetado de Sntesis del Habla para lenguajes asiticos y de
otros pases,
y que incluye caractersticas de verificacin del usuario en la
nueva versin
3.0 de VoiceXML. Al cubrir ambas reas se expande tanto el
alcance como
la funcionalidad de la infraestructura planteada por W3C.
La extensin de verificacin del usuario ser incluida en VoiceXML
3.0 Otra caracterstica que los usuarios demandan a los servicios
telefnicos y
a la Web es la verificacin del usuario.
"Los robos, el fraude, el phishing, el terrorismo e incluso el
alto coste de
restablecer contraseas ha aumentado el inters en proporcionar
seguridad
biomtrica para todos los canales de comunicacin, incluyendo el
telfono",
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page13
dijo Ken Rehor de Vocalocity que fue elegido recientemente
presidente del
foro de VoiceXML, y es a su vez uno de los participantes del
Grupo de
Trabajo del Navegador por Voz del W3C. "La verificacin del
usuario y su
identificacin no son slo soluciones biomtricas para asegurar
las
transacciones telefnicas y las comunicaciones, puede funcionar
de forma
armnica con el reconocimiento de voz y la sntesis del habla en
la
distribucin de VoiceXML".
Hasta ahora, la mayora de los proveedores han compensado la
falta de
esta caracterstica llevando a cabo una solucin personalizada
para sus
servicios. El resultado ha sido un conjunto de tecnologas
divergentes que
no son interoperables. Gracias a la contribucin del Comit de
Biomtrica
del Usuario del Foro de VoiceXML, el Grupo de Trabajo del
Navegador por
Voz del W3C ha sido capaz de identificar las caractersticas
necesarias
para un mdulo estandarizado de verificacin del habla. El Grupo
de
Trabajo se encuentra actualmente tratando estos requisitos.
El Grupo de Trabajo internacionaliza SSML
El Lenguaje de Etiquetado de Sntesis del Habla (SSML),
Recomendacin
del W3C desde el 2004, est diseado para proporcionar un lenguaje
de
etiquetado basado en XML como apoyo a la generacin de habla
sinttica
en la Web y en otras aplicaciones. El papel principal del
lenguaje de
etiquetado es proporcionar a los autores de contenido
sintetizable una
forma estndar para controlar aspectos del habla como son la
pronunciacin, el volumen, el todo, la frecuencia, etc. a travs
de diferentes
plataformas de sntesis.
Estos atributos son esenciales, pero existen atributos
adicionales que
pueden ser incluso ms importantes para idiomas concretos. Por
ejemplo,
el chino mandarn, el idioma actualmente ms extendido en el
mundo,
tambin tiene la singularidad de los tonos - el mismo carcter
escrito puede
tener mltiples pronunciaciones y significados en funcin del tono
utilizado.
Dada la profusin de telfonos mviles en China - aproximadamente
ms
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page14
de un billn - la extensin de SSML para el mandarn es esencial
para
poder satisfacer las necesidades del mercado. La inclusin de
extensiones
para el japons, coreano y otros idiomas asegurar una mayor
participacin
en la Web a nivel mundial.
En la infraestructura de Interfaz del habla del W3C, VoiceXML
controla
cmo la aplicacin interacta con el usuario. Por otro lado, el
Lenguaje de
Etiquetado de Sntesis del Habla (SSML) se utiliza para
comandos
hablados, y la Especificacin de Gramtica de Reconocimiento del
Habla
(SRGS) para guiar a los reconocedores de voz a travs de
gramticas que
describen respuestas esperadas desde los usuarios.
Otras especificaciones de este entorno incluyen el Control de
Llamada del
Navegador por voz (CCXML), que proporciona soporte para el
control de
llamadas telefnicas para VoiceXML y otros sistemas de dilogo
e
interpretacin semntica para el reconocimiento del habla (SI),
que va a
definir la forma en la que las gramticas del habla se unen a
semnticas de
aplicacin.
Figura 2. VoiceXML como Integrador de la Interaccin mediante
Voz.
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page15
Todo esto converge en el esfuerzo que viene realizando el W3C
para
desarrolla estndares que soportan diferentes modos de
interaccin: auditiva, visual y tctil. Es posible acceder a la Web a
travs de la voz o el
teclado, el ratn o el lpiz. Podr igualmente escuchar comandos
hablados
y audio, as como ver informacin representada en grficos. Ha
esta
concepcin se le conoce como la Web Multimodal.
W3C est desarrollando la Infraestructura de interaccin
Multimodal con el
objetivo de:
Extender la Web permitiendo de esta forma diferentes modos de
interaccin
Aumentar la interaccin de persona a ordenador y de persona a
persona
Mejorar la usabilidad Web en los dispositivos mviles.
2.3 Aplicaciones de VoiceXML
Actualmente no todo el mundo posee un ordenador, por lo que
carecen de
la posibilidad de acceder a Internet. Pero lo que s tiene casi
todo el mundo
es un telfono, y con VoiceXML es posible el acceso a Internet
desde el
telfono simplemente usando la voz. para ello el usuario realizar
una
llamada al nmero que se ha asignado a la pgina, cuando se reciba
esta
llamada, el navegador vocal buscar la URL en donde reside dicha
pgina.
Adems el uso del telfono mvil est cada ms extendido y sus
caractersticas (son pequeos, ligeros, baratos y tienen bateras
de larga
duracin) les hacen mucho ms porttiles que los ordenadores. Con
el
telfono mvil se puede acceder a la informacin desde cualquier
lugar y en
cualquier momento, adems puede utilizarse para aplicaciones que
no es
posible llevar a cabo sobre un ordenador (como los servicios
basados en
localizacin) y cada vez son ms utilizados para acceder a
Internet. Por otra
parte, si tenemos en cuenta sus limitadas posibilidades (
pantallas
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page16
pequeas, reducida memoria... ) a la hora de acceder a la
informacin de
Internet en modo texto, VoiceXML parece la solucin perfecta.
El acceso a Internet va voz se realiza mediante los Portales de
Voz en los
que se permite interactuar automticamente con los clientes por
medio de
conversin texto a voz, reconocimiento de voz y DTMF (pulsacin
de
tonos). El acceso al servicio del Portal de Voz se realiza
mediante una
llamada de telfono. La plataforma funciona como elemento
intermediario,
estableciendo la conexin entre el usuario que realiza la llamada
y el
servicio.
Pero el acceso a Internet va voz no es la nica posibilidad que
ofrece el
uso de esta tecnologa, puede ser aplicada en numerosos y
diversos
sectores:
Recuperacin de informacin Comercio electrnico: tiene sentido slo
si el usuario ya conoce el
producto o dispone de un catlogo
Atencin al cliente Aplicaciones financieras: cotizacin de
acciones, banca... Servicios telefnicos como marcacin por voz.
Acceso a informacin de los conductores Acceso al correo electrnico
Aplicaciones Intranet para control de inventario, realizacin de
pedidos...
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page17
2.4 Otros conceptos relativos a Voice XML y Web Semantica
VoiceXML Gateway
Figura 3. Escenario de Aplicacin VoiceXML
El Gateway VoiceXML hace las funciones de navegador, aportando
un nivel
de presentacin basado en la reproduccin y reconocimiento de la
voz
(Voice Browser). Puede residir en un Router o RAS
Si los equipos utilizados no cuentan con capacidades de Voice
Browser, o
estas son limitadas, tiene otra alternativa que es la de usar
MRCP y puede
usar los servicios de sistemas ASR y TTS.
El VoiceXML GW puede interoperar con buzones de correo,
servicios SIP,
H.323, etc.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page18
Figura 4. Portabilidad de las Aplicaciones con VoiceXML
Gateway
III. SISTEMAS BASADOS EN VOZ
3.1 Aportes de VoiceXML a los Sistemas Basados en Voz Caso de
Telefnica Mviles de Espaa:
Telefnica I+D ha venido desarrollando, a lo largo de los ltimos
aos, un
amplio abanico de servicios de voz para redes mviles que ofrecen
a los
clientes nuevas prestaciones, que facilitan el acceso a
informacin
relacionada con los clientes que estos desean conocer o que
ofrecen
nuevas posibilidades de acceso a contenidos de informacin sin
necesidad
de utilizar otro aparato que el telfono.
Con las plataformas y los servicios que han sido desarrollados
por
Telefnica I+D es posible acceder a funciones que antes quedaban
fuera
del alcance de los clientes, como acceder al buzn de voz
personal cuando
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page19
se encuentra en el extranjero o poder recibir la notificacin de
las llamadas
recibidas cuando se encuentre sin posibilidad de atenderla.
Tambin es
posible conocer de forma cmoda y rpida informacin valiosa para
el
cliente, como es el consumo que se ha realizado en su telfono
hasta el
momento, el saldo de su tarjeta prepago, los correos electrnicos
de su
cuenta personal o sus citas. Otra posibilidad que ofrecen los
servicios
desarrollados es la de poder acceder desde el telfono a la
informacin de
las ltimas noticias, las cotizaciones de bolsa o la cartelera de
cines de una
ciudad y recibir los contenidos tanto de forma hablada como en
forma de
mensaje corto.
Adems se anticipa la utilizacin del telfono en un entorno muy
apropiado
para su uso, como es el automvil, con funciones de utilidad como
es el
guiado hacia un destino requerido o la consulta de informacin
basada en
localizacin. Ms an, se facilita la comunicacin de los
clientes,
ofrecindoles servicios que permiten hacer una llamada a una
persona de
su agenda vocal o comunicar con un grupo de personas. Asimismo
se
anticipan servicios que integran voz y datos por medio de una
tecnologa
avanzada para, por ejemplo, enviar por voz un mensaje corto. En
el mbito
de la personalizacin de servicios se ha creado un servicio con
el que se
permite seleccionar el saludo que un cliente coloca en su buzn
de voz.
Adems, se extiende al mbito de los servicios de voz a las
nuevas
terminales (como las PDAs), que abren la opcin a nuevos tipos
de
servicios. Por ltimo, se proporcionan sistemas que sirven para
mejorar el
nivel de servicio ofrecido por los operadores, al facilitar las
pruebas y la
supervisin de sus servicios.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page20
El desarrollo de estos servicios se ha realizado con las
tecnologas y
plataformas desarrolladas por Telefnica I+D para el desarrollo
de servicios:
Tecnologa del Habla. Tanto para reconocimiento de habla como
para Sntesis de Voz la tecnologa de Telefnica I+D es lder para
castellano,
lenguas cooficiales de Espaa y portugus de Brasil. Los servicios
vocales
avanzados y los portales de voz utilizan estas tecnologas de
manera
intensiva.
Plataforma Multiservicio. Se trata de una plataforma de altas
prestaciones, alta disponibilidad y escalable sobre la que se
despliegan los
servicios desarrollados. Esta plataforma integra la tecnologa
del habla de
Telefnica I+D, adems de la de suministradores comerciales que
la
complementan con otros idiomas, como ingls, francs, alemn,
italiano,
etc.
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page21
Se puede llevara a cabo una clasificacin de los servicios en las
siguientes
categoras:
Servicios Corporativos. Son servicios en los cuales se ofrece el
servicio a
los usuarios que pertenecen a una corporacin.
Dentro de esta categora est disponible el servicio de Consulta
de
Consumo para Clientes Corporativos.
Servicios de Mensajera. En estos servicios se ayuda a los
clientes a
entablar comunicacin por medios alternativos al de la voz. Como
ejemplo
podemos citar el servicio de Mensajera Mvil Avanzado que permite
el
acceso al correo electrnico mediante la voz en diferentes
idiomas.
Portales de Voz. Los contenidos, disponibles en Internet son
accedidos por
voz. Dentro de los portales de voz se puede hacer una
clasificacin
atendiendo al tipo de contenidos a los que se est accediendo, de
acuerdo
con la presentada en la siguiente figura:
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page22
Otro aporte importante Hoy en da a los sistemas basados en voz
es lo
referente a la Web Multimodal, El W3C est desarrollando la
Infraestructura
de Interaccin Multimodal con el objetivo de que sirva como base
para crear
aplicaciones multimodales mediante lenguajes de etiquetado,
scripting,
estilos y otros recursos.
Interaccin mediante voz La interaccin a travs de la voz permite
evitar las limitaciones fsicas, en lo
que se refiere a teclado y representacin grfica, que presentan
los cada
vez ms pequeos dispositivos mviles. La voz proporciona una
alternativa
accesible para utilizar el teclado o la pantalla. Esto adquiere
gran
importancia en los coches y en otras situaciones donde es
necesario que
tanto nuestras manos como nuestra vista queden libres.
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page23
3.2 Ejemplos de Cdigo de VoiceXML
Para poder entender ejemplos de cdigo primero describiremos el
aspecto
de una aplicacin VoiceXML:
Una sesin VoiceXML se inicia cuando el telfono del cliente
alcanza al
Gateway, en este instante se inicia la aplicacin.
Una aplicacin est constituida por un conjunto de dialog states.
Por lo que
el usuario siempre se encuentra dentro de un dialog. Desde un
dialog se
puede saltar a travs de un URL a otro dialog.
Hay dos tipos de dialog: forms y menus; Un form presenta y
recoge informacin (voz o DTMF) y un menu presenta al usuario
diferentes opciones y permite la transicin a otros dialog
Speech Synthesis Markup Language (SSML) define los aspectos
relativos a
reproduccin de audio y sntesis de voz: pronunciacin, gnero,
edad,
volumen, tono y nfasis.
Para el reconocimiento de voz, cada dialog emplea una Grammar.
En una
Grammar se establecen las palabras y declaraciones que vlidas
como
respuesta.
Tras el reconocimiento, la Grammar retorna variables a la
aplicacin
VoiceXML en curso. Una Grammar puede residir como un elemento
ms
dentro de la aplicacin (inline) o bien, puede ser referenciada:
fichero.grxml
Speech Recognition Grammar Specification (SRGR) que es quien
establece
el uso de XML como sintaxis para la programacin de Grammars.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page24
A Continuacin Un Ejemplo de una Aplicacin VoiceXML y su
Grammar
con las respuestas posibles:
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page25
Algunas consideraciones sobre la sintaxis de su codificacin:
Entrada de datos: ,
Seleccionar gramticas:
Asignacin de variables: y
Reproduccin de un clip de audio:
Grabacin de la voz:
Definicin de mens: y
Condicionales y saltos: , ,, y
Anidar dilogos:
Control de la sesin: , ,
Incluir scripts ECMA/CTSA:
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page26
CONCLUSIONES
Internet condensa gran cantidad de informacin que hasta ahora
slo era
accesible a travs de un navegador. Abrir paso para que todo este
contenido
pueda volcarse sobre otros dispositivos es un reto que los
portales de voz han
asumido y han superado, ya que ofrecen la posibilidad de obtener
esta
informacin a travs de un telfono, ya sea mvil o fijo, con la
movilidad,
flexibilidad y facilidad de acceso que esto supone.
El VoiceXML facilita el desarrollo de portales de voz ya que
permite construir
dilogos hablados de forma sencilla, ofreciendo al usuario una
forma alternativa de
interaccin. Su influencia ha sido decisiva en las nuevas
aplicaciones de telefona
y el hecho de estar aprobado por el W3C, y avalado por AT&T,
Lucent
Technologies, Motorola e IBM (y otras 350 empresas que en la
actualidad son
miembros del Foro VoiceXML), hace que sus posibilidades de
difusin sean
enormes.
Sin embargo hay que tener en cuenta que no son todo ventajas, ya
que la voz no
es como un teclado, no se trata de un conjunto de tonos
constantes y universales.
Siempre se producirn errores en el reconocimiento de la voz, en
la comprensin
o simplemente al convertir la voz a texto. Adems a la hora de
introducir datos con
la voz hay que tener en cuenta que existen gramticas que recogen
las entradas
vlidas y por mucho vocabulario que abarquen estas gramticas
siempre quedar
alguna que no contemple. Otro problema es la Gran variedad de
lenguajes y
dialectos que existen y que dependen aun del lado usuario el de
definirlo, por
ahora se sigue los esfuerzos para ampliar estos estndares a
nuevos idiomas.
Pero no slo se presentan inconvenientes en el reconocimiento de
la voz, sino
tambin a la hora de sintetizarla. La conversin texto a voz
permite sintetizar voz a
partir de textos con una calidad muy alta, de hecho en un futuro
no muy lejano se
supone que no se podr distinguir una voz sintetizada de una voz
pregrabada.
Esto permite emitir por la lnea telefnica de forma natural
informacin muy
variada y flexible. As, en los nuevos sistemas de respuesta
telefnica automtica
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page27
el llamante puede interactuar hablando de forma natural y
solicitar informacin
muy diversa mientras que el sistema responde con voz
sintetizada. Pero la voz
sintetizada no es humana, eso est claro, y esto hace la
comunicacin muy
impersonal, algo que no gusta a la mayora de la gente. Quin no
ha dicho
alguna vez odio hablar con esta maquina?, y eso es precisamente
lo que se
pretende con VoiceXML: hablar con las mquinas. Sin embargo, Se
sigue
avanzando con este estndar aplicando nuevas tcnicas que nos
permitan
acceder a la comunicacin plural entre hombre maquina.
Podemos concluir tambin que con la integracin del Hombre a esta
gran red de
redes como es la Internet se hace cada vez mucho ms necesario
poder acceder
de una manera mltiple, en este sentido la W3C sigue
desarrollando esfuerzos
para la accesibilidad multimodal, El nuevo trabajo anunciado, as
como los planes
sobre caractersticas adicionales para VoiceXML 3.0 en la
verificacin del usuario,
constituyen hoy un momento idneo para que nuevas compaas,
investigadores y
otros interesados, estn unindose al esfuerzo de W3C y participen
en los ltimos
desarrollos de las tecnologas de voz y la Web.
Entre los contribuyentes potenciales estn aquellos procedentes
del sector
empresarial y de la investigacin presentes por toda Asa, en las
reas de idiomas
asiticos y la verificacin del usuario, para permitir la mejor
especializacin en el
desarrollo de estndares que realmente cubran las necesidades de
los usuarios
Web a nivel mundial.
Carlos Alvarado Quintana
www.complejocartavio.com.pe/semanticaweb/voicexml.html Nota: Se
ha desarrollado una Pagina referida Al Tema en esta direccin
conteniendo el trabajo desarrollado, artculos relacionados,
Bibliografa, Link a paginas de referencia.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page28
BIBLIOGRAFA
[IBM 2001] VoiceXML Programmers Guide, IBM documentation.
Noviembre del 2001.
[Wiley 2002] Sharma, Chetan., VoiceXML : strategies and
techniques for effective voice application development with
VoiceXML 2.0 Wiley 2002.
[W3C 2002] The World Wide Web Consorcium W3C, Voice Extensible
Markup Language (VoiceXML) Version 2.0 2002.
http://www.w3.org/TR/2004/RECvoicexml2020040316/
[Foro 2004] VXIDiscuss. 2004. Foro de discusin sobre VoiceXML y
todos los aspectos relacionados con el intrprete OpenVXI 2.0:
http://www.speechinfo.org/vxi-discuss/.
[Burnett 2002] Burnett, D. C., M. R. Walker, A. Hunt. 2002.
Speech Synthesis Markup Language Version 1.0. W3C Working Draft.
http://www.w3.org/TR/speech-synthesis.
VoiceXML Forum (http://www.voicexml.org/) Intel Telecom
Products
(http://www.intel.com/design/network/products/telecom/index.htm)
Especificacin: http://www.w3.org/Voice/ http://www.voicexml.org.
cVoiceXMLForum. Tutoriales: Gua a VoiceXML:
http://www.w3.org/Voice/Guide/ VoiceXMLReview:
http://www.voicexmlreview.org Portal sobre VoiceXML
http://www.kenrehor.com/voicexml/ http://www.tellme.com Portal de
Voz. Implementaciones: http://www.i6net.com Proyecto MCMS Gestion
de Contenidos Multimodal http://www.intervoice.com
OmviaMediaServerconexploradorcompatibleconVoiceXML2.0.
http://www.fundacionucm.es/www.once.es Proyecto ONCE: Eliminacin de
Barreras Mediante La Tecnologa del Habla.
http://www.verbio.comAppliedTechnologiesonLanguageandSpeechS.L,http://www.softwareag.com
Desarrollo de Proyectos Web Multimodal
http://www1.softwareag.com/Corporate/Solutions/XML_Solutions/mobile_sol
Herramientas: http://studio.tellme.com/ Herramienta de
Desarrollo sobre VoiceXML www.verbio.com Empresa ATLAS, producto
basado en VoiceXML: Dialog@
-
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page29
Grupos de Inters
Grupo de Aplicaciones del Procesado de Seales: rea Procesamiento
del Lenguaje Natural. Universidad Politcnica de Madrid.
Investigador Principal: Luis A. Hernndez Gmez Persona de contacto:
Luis A. Hernndez Gmez URL: http://www.gaps.ssr.upm.es/ E-mail:
[email protected] Direccin Postal: ETSI Telecomunicaciones.
Despacho C-330. Ciudad Universitaria s/n. 28040 Madrid. Espaa
Grupo de Estructuras de Datos y Lingstica Computacional.
Universidad de Las Palmas de Gran Canaria. Investigador
Principal: Octavio Santana Surez Persona de contacto: Jos R. Prez
Aguilar URL: http://www.gedlc.ulpgc.es E-mail: [email protected]
Direccin Postal: Edificio de Informtica. Departamento de Informtica
y Sistemas. Universidad de Las Palmas de Gran Canaria. Campus
Universitario de Tafira. 35017 Las Palmas de Gran Canaria.
Grupo ECA-SIMM.
Universidad de Valladolid Investigador Principal: Valentn
Cardeoso Persona de contacto: Valentn Cardeoso Payo URL:
http://eca-simm.infor.uva.es E-mail: [email protected] Direccin
Postal: Escuela Tcnica Superior de Ingeniera Informtica.
Departamento de Informtica (ATC, CCIA, LSI). Campus Miguel Delibes
s/n. 47011 VALLADOLID.
Otros Trabajos de Investigacin Referentes al tema: [Granel 2001]
R. Lpez-Czar, R. Granell. Sistema de Dilogo Basado en VoiceXML
para Proporcionar Informacin de Viajes en Tren. Universidad de
Granada. www.sepln.org/revistaSEPLN/revista/33/33-Pag171.pdf
[Gemini 2002] R. Crdoba, L.F. DHaro, J.M. Montero, J. Ferreiros,
J. Macas-
Guarasa, J.D. Romeral, J.M. Pardo. Generacin semiautomtica de
aplicaciones de dilogo multimodales: Proyecto GEMINI. Grupo de
Tecnologa del Habla. Departamento de Ingeniera Electrnica.
Universidad Politcnica de Madrid. www.gemini-project.org
www-gth.die.upm.es/~macias/doc/pubs/telecomi+d03/abstract/resumen_Telecom_I+D_gemini.PDF
[Oropeza 2006] Oropeza Rodriguez, Jose Luis. Algoritmos y
Metodos para el Reconocimiento de Voz en Espaol Mediante Silabas.
Centro de Investigaciones en computacin = IPN, Mexico, 2006.
www.ejournal.unam.mx/compuysistemas/vol09-03/CYS09307.pdf
[Hops 2004] Gatius, Martha, Gonzales, Maritzel. The Project
HOPS: Enabling an Intelligent Natural Languaje Based Hub for the
Deplpyment of Advance Semantically Enriched Multi-channel Mass
Scale OnLine Public Services. Universitat Politecnica de Catalua,
Espaa, 2004. http://www.bcn.es/hops/index.htm
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page30
AUTOR:
ALVARADO QUINTANA CARLOS ALBERTO Ingeniero de Computacin y
Sistemas colegiado, egresado de la Escuela de ICS de Universidad
Privada Antenor Orrego, Maestra en Administracin de Negocios MBA
UCV-Univ. Miami, Actualmente he culminado el segundo ao de
Doctorado en Ingeniera de Software en la Universidad Pontificia de
Salamanca Madrid Espaa, Diplomado en Gerencia de Proyectos y
Calidad en la Pontificia Universidad Catlica del Per y PMI,
Diplomado en Gerencia de TI en ESAN y un Post Grado Tecnologas de
la Informacin en CADEM. Catedrtico de diferentes Universidades de
Trujillo, como es UPAO y UPN en cursos de Administracin de
Proyectos. Me he desempeado como Jefe de Sistemas y Gerente de
Proyectos, he tenido la Jefatura de Sistemas de Complejo
Agroindustrial Cartavio 1998-2007, he sido Jefe de Proyectos de
desarrollo de software integrado sobre Visual Studio y SQL Server
(mdulos backoffice: Logstica, Recursos Humanos, Contabilidad,
Comercial y Financiero). Tengo experiencia Laboral de ms de 8 aos
asumiendo Jefaturas de Sistemas en diversas empresas
Agroindustriales, he tenido Gerencias de Proyectos de Implementacin
de ERP como Biosalc, Spring y Sapiens, he participado como Lder de
Tecnologa y de Procesos en un programa de excelencia operacional en
Cartavio y Casagrande con preparacin para la Implementacin de
SAP.
Email: [email protected]