Articulo de Invest VoiceXML

UNIVERSIDAD PONTIFICIA DE SALAMANCA CAMPUS DE MADRID ESPAA

WEB SEMANTICA

ARTICULO: SISTEMAS BASADOS EN VOZ UTILIZANDO VOICEXML

Autor: Ing. Carlos Alvarado Quintana Doctorando de Ingeniera Informtica

Programa de Ingeniera de Software

Agosto, 2006

UNIVERSIDADPONTIFICIADESALAMANCA 2006

[VoiceXML] Page2

INDICE

RESUMEN 3

I. INTRODUCCION 4

1.1. Enunciado del Problema 4

1.2. Delimitacin del Estudio 4

1.3. Tesis 4

II. MARCO TEORICO

2.1 Definiciones del estndar VoiceXML 5

2.2 Referencias W3C respecto a VoiceXML 12

2.3 Aplicaciones 15

2.4 Otros conceptos relativos a Voice XML y Web Semantica 17

III. SISTEMAS BASADOS EN VOZ

3.1 Aportes de VoiceXML a los Sistemas Basados en Voz 18

3.2 Ejemplos de Cdigo VoiceXML 23

CONCLUSIONES 25

BIBLIOGRAFA 28


[VoiceXML] Page3

RESUMEN VoiceXML es una especificacin propuesta por la W3C que tiene como objetivo

crear archivos XML, llamados documentos, que puedan reproducir sonido

digitalizado, sonido sintetizado usando la tecnologa TTS, reconocer informacin

ingresada por el usuario (tonos DTMF) y reconocer palabra y/o frases

pronunciadas por una persona, todo esto usando un dispositivo telefnico

(telfono clsico, celular o cualquier otra variante).

VoiceXML esta basado completamente en XML, es decir necesita que el

documento VoiceXML bien estructurado para que pueda ser reconocido como

correcto. Esto no ocurre con HTML, pero s con XHTML.

Actualmente esta especificacin se encuentra en la versin 2.1 la cual ha recibido

el estado de "Recomendado" por parte de la W3C, faltndole muy poco para ser

declarada oficialmente como estndar, aunque en estos momentos ya es un

estndar "de facto" y crea una serie de ventajas significativas en los desarrollos

basados en web, entrega de contenidos para las aplicaciones interactivos en

respuesta a la voz.


[VoiceXML] Page4

I. INTRODUCCIN

Estos estndares evolucionan a travs de un proceso de maduracin

conducido por los principios de pragmatismo y eficacia. Entre los ejemplos

que resultan familiares para todos se incluyen HTTP, HTML, WAP, TCP/IP,

XML, y VoiceXML. Normalmente son realizados por ingenieros de software

de varias compaas que colaboran bajo los auspicios de organizaciones

como W3C, OASIS, OMA, ISO e IETF.

Voice Extensible Markup Language (VoiceXML o VXML). Es una

especificacin propuesta por la W3C que tiene como objetivo crear archivos

XML, llamados documentos, que puedan reproducir sonido digitalizado,

sonido sintetizado usando la tecnologa TTS(1), reconocer informacin

ingresada por el usuario (tonos DTMF(2)) y reconocer palabra y/o frases

pronunciadas por una persona, todo esto usando un dispositivo telefnico

(telfono clsico, celular o cualquier otra variante) VoiceXML esta basado

completamente en XML.

1.1. Enunciado del Problema .

El aporte de la tecnologa VoiceXML en los sistemas basados en voz

dirigindola especficamente en el mbito de la web semntica.

1.2. Delimitaciones del Estudio. El Estudio estar limitado al mbito de la especificacin del VoiceXML por

W3C como estndar de XML para Aplicaciones de Web Semntica,

actualmente en la versin 2.0. y en proceso de Aprobacin la versin 2.1.

1.3. Tesis Anlisis de la Norma W3C de VoiceXML 3.0 como aporte a los sistemas basados en voz


[VoiceXML] Page5

II. MARCO TEORICO 2.1 Definiciones del estndar VoiceXML

Los orgenes de VoiceXML empezaron en 1995 como un lenguaje diseado

de dialogo basado en XML buscando simplificar los procesos de desarrollo

de aplicaciones de reconocimiento de voz, fue un proyecto de AT&T

llamado Phone Markup Language (PML). Como AT&T reorganizado, los

grupos de AT&T, Lucent y Motorola continuaron trabajando en sus propios

lenguajes PML.

En 1998, W3C realizo una conferencia sobre browsers de voz. Para este

tiempo, AT&T y Lucent tenan variantes significativas de sus PML

originales, mientras Motorola haba desarrollado VoxML e IBM estaba

desarrollando su propio SpeechML. Muchos otros participantes de la

conferencia estuvieron tambin haciendo desarrollos similares de lenguajes

para el diseos de dilogos; por ejemplo, HP's TalkML and PipeBeach's

VoiceHTML.

Luego AT&T, IBM, Lucent, y Motorola formaron el Foro de VoiceXML para

agrupar sus esfuerzos. La misin del Foro fue definir un estndar de diseo

de lenguajes de dialogo para que los desarrolladores puedan usarlo para

construir sus aplicaciones de dilogos. Ellos escogieron XML como el

lenguaje bsico para estos esfuerzos porque es sencillo para todos, se

adapta y va en concordancia con los cambios tecnolgicos.

En el ao 2000, el Foro de VoiceXML libero al publico la versin 1.0 de

VoiceXML. Shortly thereafter, VoiceXML 1.0 fue sometido por W3C como la

base para la creacin de un Nuevo estndar internacional. VoiceXML 2.0 es

el resultado de este trabajo a travs de la colaboracin de compaas

miembros de W3C, otros grupos de trabajo de W3C, y el publico en general,

en especial desarrolladores independientes. Actualmente se esta

trabajando en la aprobacin de la versin 2.1

(http://www.w3.org/TR/2005/CR-voicexml21-20050613/), y el desarrollo de

VoiceXML Versin 3.0 (http://www.w3c.es/Prensa/2005/nota051206_ssml).


[VoiceXML] Page6

VoiceXML es un lenguaje de etiquetas que sigue las reglas sintcticas de

XML con reglas semnticas que permiten la creacin de aplicaciones de

voz. VoiceXML se puede utilizar para crear pginas tanto estticas como

dinmicas ya que, al igual que HTML, se puede embeber en programas

escritos en lenguajes de programacin como Java o C#. Se trata de un

lenguaje que permite la comunicacin entre el hombre y la mquina de

forma hablada, es decir, es posible, por ejemplo, acceder a Internet usando

simplemente la voz. No es necesario mencionar el gran avance que esto

supondra para las personas invidentes; podran acceder a gran parte de la

informacin de Internet sin que su discapacidad supusiese un impedimento

para ello. Para poder describir como funciona podemos guiarnos del

siguiente grfico:

Figura 1. Arquitectura VoiceXML


[VoiceXML] Page7

De esta figura podemos obtener los siguientes enunciados:

APPLICATION HOSTING ENVIROMENT

Llamado tambin "Document Server". Es un ambiente que genera

dinmicamente documentos VoiceXML. Bsicamente esta compuesto por 3

componentes.

1. Web Server: Servidor Web que recibe HTTP Request y enva HTTP

Response con un documento VoiceXML.

2. Application Server: Servidor de aplicaciones que mantiene una lgica de negocio que sobre la base de los parmetros enviados por el Web

Server genera documentos VoiceXML.

3. Database: Base de Datos de la cual se obtiene informacin para generar los documentos VoiceXML

VOICEXML INTERPRETER

Aplicacin que recibe un documento VoiceXML y lo interpreta, es decir

procesa las etiquetas que dicho documento contiene.

VOICEXML INTERPRETER CONTEXT

Modulo del VoiceXML Interpreter que monitorea las posibles actividades

que los usuarios realizan mientras se esta interpretando un documento

VoiceXML, por ejemplo el usuario podra presionar desconectarse (colgar el

telfono), lo generara que cancelacin de la interpretacin del documento.

IMPLEMENTATION PLATFORM

Este componente viene a ser el Browser en si, pues cada empresa puede

desarrollar su propio VoiceXML Browser el cual aparte de interpretar un

documento VoiceXML puede implementar mecanismos de cache,

procesamiento de llamadas telefnicas, etc.


[VoiceXML] Page8

Estos son los componentes generales de la arquitectura de VoiceXML, sin

embargo hay empresas que desarrollan VoiceXML Browsers y le adicionan

funcionalidades no detalladas en la especificacin, lo cual no ocurre solo

con VoiceXML sino con casi todas las especificaciones.

Alcances de VoiceXML El lenguaje describe la interaccin humano-maquina entregada por

sistemas de respuesta de voz lo que incluye:

Salida de dilogos Sintetizados(text -to-speech). Salida de archivos de audio. Reconocimiento de entradas habladas. Reconocimiento de entradas DTMF. Grabacin de entradas habladas. Control de flujo de dilogos. Los rasgos de telefona tales como llamar, transferir y desconectar. EL lenguaje provee medios para recolectar caracteres y/o entradas

habladas, asignando al documento de entrada peticiones de

variables definidas, y tomando decisiones que afectan la

interpretacin de documentos escritas en el idioma. Un documento

puede unirse a otros documentos a travs de los identificadores del

Recurso Universales (URIs).

Principios de Diseo sobre VoiceXML

VoiceXML es una aplicacin de XML.

El lenguaje entrega portabilidad de servicios a travs de la abstraccin de recursos sobre tipos de plataformas.

El idioma acomoda la diversidad de la plataforma en los formatos del archivo audio soportados, formatos de gramtica hablada, y

esquemas URI. Mientras los productores de plataformas pueden soportar varios

formatos de gramticas el lenguaje requiere un formato de gramtica


[VoiceXML] Page9

comn llamado Forma XML de W3C formato de reconocimiento de

gramtica hablada, facilita la interoperabilidad. Similarmente,

mientras varios formatos de audio para escuchar y grabar pueden

ser soportados.

El lenguaje soporta fcilmente la autora para tipos comunes de interacciones.

EL lenguaje a sido definido bien semnticamente preservando el intento del autor por mantener el comportamiento de las

interacciones con el usuario.

Las heursticas del cliente no son necesarias para determinar la interpretacin de los elementos del documento.

El lenguaje posee un mecanismo de control de flujo. El lenguaje habilita la separacin de un servicio lgico de un

comportamiento interactivo.

No esta pensado para un trabajo computacional extensivo, operaciones con bases de datos, o legar operaciones al sistema.

Este asume que puede ser manejado por recursos fuera del

interprete de documentos, es decir el servidor de documentos.

Lgica de servicio general, administracin de estados, generacin de dilogos, y secuencias de dilogos son asumidas para residir fuera

del interprete de documentos.

El lenguaje entrega caminos para enlazar documentos usando URIs, y tambin enviar datos a l servidor de scripts usando URIs.

VoiceXML entrega vas para identificar exactamente que dato enviar al servidor, y cual mtodo HTTP (get o post) usar para el envi.

El lenguaje no requiere que los autores del documento especifiquen lo recursos de dialogo asignados o no asignados, o por concurrencia.

La localizacin de recursos e hilos de control pueden ser manejados

por la implementacin de plataformas.


[VoiceXML] Page10

Requisitos de la Plataforma Esta seccin perfila los requisitos en las plataformas del hardware /

software que apoyarn a un intrprete de VoiceXML.

Adquisicin de Documentos. Se espera que el interprete de contexto adquiera documentos para que el interprete de VOICEXML acte. EL

protocolo URI de http debe ser soportado. En algunos casos, el

documento requerido es generado por la interpretacin de documentos

de VOICEXML, mientras otras peticiones son generadas por el

interprete de contexto en respuesta a los eventos fuera del alcance del

lenguaje, por ejemplo una llamada entrante. Cuando los emisores de

peticin de documentos son va http, e interprete de contexto se

identifica a si mismo como "User-Agent" variable de encabezado con el

valor "/", por ejemplo, "acmebrowser/1.2"

Salida de Audio. La implementacin de la plataforma debe soportar salida de audio usando archivos y text -to-speech (TTS). La plataforma

debe ser capaz de hacer secuencias libremente TTS y salidas en

formato audio. Los archivos de audio son referidos por una URL. El

lenguaje especifica los requerimientos de formatos de archivos de que

sern soportados (ver apndice A) formatos de archivos de audio

adicionales tambin pueden ser soportados

Entrada de Audio. La implementacin de la plataforma es requerida para detectar y reportar caracteres y/o entradas habladas

simultneamente y el control de la deteccin de la duracin del intervalo

de entrada con un cronmetro cuya longitud es especificada por un

documento de VOICEXML.

En la mayora de los reportes por caracteres (por ejemplo, DTMF)

ingresados por el usuario. Las Plataformas deberan soportar el formato

de gramtica descrito en Forma XML de W3C formato de


[VoiceXML] Page11

reconocimiento de gramtica hablada. Tambin debera soportar el

formato de gramtica descrito en Forma aumentada BNF forma XML de

W3C formato de reconocimiento de gramtica hablada .

Debe ser capaz de recibir dinmicamente datos de gramtica de

reconocimiento de dilogos.

Debe ser capaz de usar datos de gramtica de dialogo en forma XML de

W3C formato de reconocimiento de gramtica hablada .

Tambin debe ser capaz recibir datos de gramticas de reconocimiento

de dilogos Forma aumentada BNF forma XML de W3C formato de

reconocimiento de gramtica hablada, y puede soportar otros formatos

como el formato de gramtica jspeech o formatos propietarios. Algunos

elementos VoiceXML Contienen Datos de gramtica de dialogo; otros

refieren a daos de gramtica de dilogos a travs de una URI. EL

reconocimiento de dilogos debe ser capaz de acomodar

actualizaciones dinmicas de los dilogos de entrada por el cual esta

escuchando a travs de un mtodo especificado de datos de gramtica

de dilogos. Tambin debe ser capaz de grabar el audio recibido desde

el usuario. La implementacin de la plataforma debe ser capaz de crear

la grabacin disponible a una variable request.

Transferencia. La plataforma debe ser capaz de suportar la creacin de una conexin compartida a travs de una red de

comunicacin, como el telfono.


[VoiceXML] Page12

2.2 Referencias W3C respecto a VoiceXML

El W3C fue creado para guiar la Web hacia su potencial mximo mediante

el desarrollo de protocolos comunes que promuevan su evolucin y

garanticen la interoperabilidad. Se trata de un Consorcio de la industria

internacional gestionado conjuntamente por el Laboratorio de Ciencias de la

Computacin e Inteligencia Artificial del MIT (MIT CSAIL) en los Estados

Unidos, el Consorcio Europeo para la Investigacin en Informtica y

Matemticas (ERCIM) en Francia y la Universidad de Keio, en Japn. Los

servicios que proporciona el Consorcio incluyen un archivo de informacin

sobre el World Wide Web para desarrolladores y usuarios, y varios

prototipos y aplicaciones de ejemplo para demostrar el uso de estas nuevas

tecnologas. Hasta la fecha, ms de 400 organizaciones son Miembros del

Consorcio.

VoiceXML Versin 3.0 El W3C avanza en nuevas extensiones para las tecnologas de voz y la

Web La nueva versin de SSML incluye caractersticas de

internacionalizacin; VoiceXML 3.0 incorpora la verificacin del usuario.

El 6 de diciembre de 2005: El Consorcio World Wide Web (W3C) anunci

un nuevo trabajo sobre extensiones para componentes de la Infraestructura

de Interfaz del Habla que ampliar la funcionalidad del Lenguaje de

Etiquetado de Sntesis del Habla para lenguajes asiticos y de otros pases,

y que incluye caractersticas de verificacin del usuario en la nueva versin

3.0 de VoiceXML. Al cubrir ambas reas se expande tanto el alcance como

la funcionalidad de la infraestructura planteada por W3C.

La extensin de verificacin del usuario ser incluida en VoiceXML 3.0 Otra caracterstica que los usuarios demandan a los servicios telefnicos y

a la Web es la verificacin del usuario.

"Los robos, el fraude, el phishing, el terrorismo e incluso el alto coste de

restablecer contraseas ha aumentado el inters en proporcionar seguridad

biomtrica para todos los canales de comunicacin, incluyendo el telfono",


[VoiceXML] Page13

dijo Ken Rehor de Vocalocity que fue elegido recientemente presidente del

foro de VoiceXML, y es a su vez uno de los participantes del Grupo de

Trabajo del Navegador por Voz del W3C. "La verificacin del usuario y su

identificacin no son slo soluciones biomtricas para asegurar las

transacciones telefnicas y las comunicaciones, puede funcionar de forma

armnica con el reconocimiento de voz y la sntesis del habla en la

distribucin de VoiceXML".

Hasta ahora, la mayora de los proveedores han compensado la falta de

esta caracterstica llevando a cabo una solucin personalizada para sus

servicios. El resultado ha sido un conjunto de tecnologas divergentes que

no son interoperables. Gracias a la contribucin del Comit de Biomtrica

del Usuario del Foro de VoiceXML, el Grupo de Trabajo del Navegador por

Voz del W3C ha sido capaz de identificar las caractersticas necesarias

para un mdulo estandarizado de verificacin del habla. El Grupo de

Trabajo se encuentra actualmente tratando estos requisitos.

El Grupo de Trabajo internacionaliza SSML

El Lenguaje de Etiquetado de Sntesis del Habla (SSML), Recomendacin

del W3C desde el 2004, est diseado para proporcionar un lenguaje de

etiquetado basado en XML como apoyo a la generacin de habla sinttica

en la Web y en otras aplicaciones. El papel principal del lenguaje de

etiquetado es proporcionar a los autores de contenido sintetizable una

forma estndar para controlar aspectos del habla como son la

pronunciacin, el volumen, el todo, la frecuencia, etc. a travs de diferentes

plataformas de sntesis.

Estos atributos son esenciales, pero existen atributos adicionales que

pueden ser incluso ms importantes para idiomas concretos. Por ejemplo,

el chino mandarn, el idioma actualmente ms extendido en el mundo,

tambin tiene la singularidad de los tonos - el mismo carcter escrito puede

tener mltiples pronunciaciones y significados en funcin del tono utilizado.

Dada la profusin de telfonos mviles en China - aproximadamente ms


[VoiceXML] Page14

de un billn - la extensin de SSML para el mandarn es esencial para

poder satisfacer las necesidades del mercado. La inclusin de extensiones

para el japons, coreano y otros idiomas asegurar una mayor participacin

en la Web a nivel mundial.

En la infraestructura de Interfaz del habla del W3C, VoiceXML controla

cmo la aplicacin interacta con el usuario. Por otro lado, el Lenguaje de

Etiquetado de Sntesis del Habla (SSML) se utiliza para comandos

hablados, y la Especificacin de Gramtica de Reconocimiento del Habla

(SRGS) para guiar a los reconocedores de voz a travs de gramticas que

describen respuestas esperadas desde los usuarios.

Otras especificaciones de este entorno incluyen el Control de Llamada del

Navegador por voz (CCXML), que proporciona soporte para el control de

llamadas telefnicas para VoiceXML y otros sistemas de dilogo e

interpretacin semntica para el reconocimiento del habla (SI), que va a

definir la forma en la que las gramticas del habla se unen a semnticas de

aplicacin.

Figura 2. VoiceXML como Integrador de la Interaccin mediante Voz.


[VoiceXML] Page15

Todo esto converge en el esfuerzo que viene realizando el W3C para

desarrolla estndares que soportan diferentes modos de interaccin: auditiva, visual y tctil. Es posible acceder a la Web a travs de la voz o el

teclado, el ratn o el lpiz. Podr igualmente escuchar comandos hablados

y audio, as como ver informacin representada en grficos. Ha esta

concepcin se le conoce como la Web Multimodal.

W3C est desarrollando la Infraestructura de interaccin Multimodal con el

objetivo de:

Extender la Web permitiendo de esta forma diferentes modos de interaccin

Aumentar la interaccin de persona a ordenador y de persona a persona

Mejorar la usabilidad Web en los dispositivos mviles.

2.3 Aplicaciones de VoiceXML

Actualmente no todo el mundo posee un ordenador, por lo que carecen de

la posibilidad de acceder a Internet. Pero lo que s tiene casi todo el mundo

es un telfono, y con VoiceXML es posible el acceso a Internet desde el

telfono simplemente usando la voz. para ello el usuario realizar una

llamada al nmero que se ha asignado a la pgina, cuando se reciba esta

llamada, el navegador vocal buscar la URL en donde reside dicha pgina.

Adems el uso del telfono mvil est cada ms extendido y sus

caractersticas (son pequeos, ligeros, baratos y tienen bateras de larga

duracin) les hacen mucho ms porttiles que los ordenadores. Con el

telfono mvil se puede acceder a la informacin desde cualquier lugar y en

cualquier momento, adems puede utilizarse para aplicaciones que no es

posible llevar a cabo sobre un ordenador (como los servicios basados en

localizacin) y cada vez son ms utilizados para acceder a Internet. Por otra

parte, si tenemos en cuenta sus limitadas posibilidades ( pantallas


[VoiceXML] Page16

pequeas, reducida memoria... ) a la hora de acceder a la informacin de

Internet en modo texto, VoiceXML parece la solucin perfecta.

El acceso a Internet va voz se realiza mediante los Portales de Voz en los

que se permite interactuar automticamente con los clientes por medio de

conversin texto a voz, reconocimiento de voz y DTMF (pulsacin de

tonos). El acceso al servicio del Portal de Voz se realiza mediante una

llamada de telfono. La plataforma funciona como elemento intermediario,

estableciendo la conexin entre el usuario que realiza la llamada y el

servicio.

Pero el acceso a Internet va voz no es la nica posibilidad que ofrece el

uso de esta tecnologa, puede ser aplicada en numerosos y diversos

sectores:

Recuperacin de informacin Comercio electrnico: tiene sentido slo si el usuario ya conoce el

producto o dispone de un catlogo

Atencin al cliente Aplicaciones financieras: cotizacin de acciones, banca... Servicios telefnicos como marcacin por voz. Acceso a informacin de los conductores Acceso al correo electrnico Aplicaciones Intranet para control de inventario, realizacin de pedidos...


[VoiceXML] Page17

2.4 Otros conceptos relativos a Voice XML y Web Semantica

VoiceXML Gateway

Figura 3. Escenario de Aplicacin VoiceXML

El Gateway VoiceXML hace las funciones de navegador, aportando un nivel

de presentacin basado en la reproduccin y reconocimiento de la voz

(Voice Browser). Puede residir en un Router o RAS

Si los equipos utilizados no cuentan con capacidades de Voice Browser, o

estas son limitadas, tiene otra alternativa que es la de usar MRCP y puede

usar los servicios de sistemas ASR y TTS.

El VoiceXML GW puede interoperar con buzones de correo, servicios SIP,

H.323, etc.


[VoiceXML] Page18

Figura 4. Portabilidad de las Aplicaciones con VoiceXML Gateway

III. SISTEMAS BASADOS EN VOZ

3.1 Aportes de VoiceXML a los Sistemas Basados en Voz Caso de Telefnica Mviles de Espaa:

Telefnica I+D ha venido desarrollando, a lo largo de los ltimos aos, un

amplio abanico de servicios de voz para redes mviles que ofrecen a los

clientes nuevas prestaciones, que facilitan el acceso a informacin

relacionada con los clientes que estos desean conocer o que ofrecen

nuevas posibilidades de acceso a contenidos de informacin sin necesidad

de utilizar otro aparato que el telfono.

Con las plataformas y los servicios que han sido desarrollados por

Telefnica I+D es posible acceder a funciones que antes quedaban fuera

del alcance de los clientes, como acceder al buzn de voz personal cuando


[VoiceXML] Page19

se encuentra en el extranjero o poder recibir la notificacin de las llamadas

recibidas cuando se encuentre sin posibilidad de atenderla. Tambin es

posible conocer de forma cmoda y rpida informacin valiosa para el

cliente, como es el consumo que se ha realizado en su telfono hasta el

momento, el saldo de su tarjeta prepago, los correos electrnicos de su

cuenta personal o sus citas. Otra posibilidad que ofrecen los servicios

desarrollados es la de poder acceder desde el telfono a la informacin de

las ltimas noticias, las cotizaciones de bolsa o la cartelera de cines de una

ciudad y recibir los contenidos tanto de forma hablada como en forma de

mensaje corto.

Adems se anticipa la utilizacin del telfono en un entorno muy apropiado

para su uso, como es el automvil, con funciones de utilidad como es el

guiado hacia un destino requerido o la consulta de informacin basada en

localizacin. Ms an, se facilita la comunicacin de los clientes,

ofrecindoles servicios que permiten hacer una llamada a una persona de

su agenda vocal o comunicar con un grupo de personas. Asimismo se

anticipan servicios que integran voz y datos por medio de una tecnologa

avanzada para, por ejemplo, enviar por voz un mensaje corto. En el mbito

de la personalizacin de servicios se ha creado un servicio con el que se

permite seleccionar el saludo que un cliente coloca en su buzn de voz.

Adems, se extiende al mbito de los servicios de voz a las nuevas

terminales (como las PDAs), que abren la opcin a nuevos tipos de

servicios. Por ltimo, se proporcionan sistemas que sirven para mejorar el

nivel de servicio ofrecido por los operadores, al facilitar las pruebas y la

supervisin de sus servicios.


[VoiceXML] Page20

El desarrollo de estos servicios se ha realizado con las tecnologas y

plataformas desarrolladas por Telefnica I+D para el desarrollo de servicios:

Tecnologa del Habla. Tanto para reconocimiento de habla como para Sntesis de Voz la tecnologa de Telefnica I+D es lder para castellano,

lenguas cooficiales de Espaa y portugus de Brasil. Los servicios vocales

avanzados y los portales de voz utilizan estas tecnologas de manera

intensiva.

Plataforma Multiservicio. Se trata de una plataforma de altas prestaciones, alta disponibilidad y escalable sobre la que se despliegan los

servicios desarrollados. Esta plataforma integra la tecnologa del habla de

Telefnica I+D, adems de la de suministradores comerciales que la

complementan con otros idiomas, como ingls, francs, alemn, italiano,

etc.


[VoiceXML] Page21

Se puede llevara a cabo una clasificacin de los servicios en las siguientes

categoras:

Servicios Corporativos. Son servicios en los cuales se ofrece el servicio a

los usuarios que pertenecen a una corporacin.

Dentro de esta categora est disponible el servicio de Consulta de

Consumo para Clientes Corporativos.

Servicios de Mensajera. En estos servicios se ayuda a los clientes a

entablar comunicacin por medios alternativos al de la voz. Como ejemplo

podemos citar el servicio de Mensajera Mvil Avanzado que permite el

acceso al correo electrnico mediante la voz en diferentes idiomas.

Portales de Voz. Los contenidos, disponibles en Internet son accedidos por

voz. Dentro de los portales de voz se puede hacer una clasificacin

atendiendo al tipo de contenidos a los que se est accediendo, de acuerdo

con la presentada en la siguiente figura:


[VoiceXML] Page22

Otro aporte importante Hoy en da a los sistemas basados en voz es lo

referente a la Web Multimodal, El W3C est desarrollando la Infraestructura

de Interaccin Multimodal con el objetivo de que sirva como base para crear

aplicaciones multimodales mediante lenguajes de etiquetado, scripting,

estilos y otros recursos.

Interaccin mediante voz La interaccin a travs de la voz permite evitar las limitaciones fsicas, en lo

que se refiere a teclado y representacin grfica, que presentan los cada

vez ms pequeos dispositivos mviles. La voz proporciona una alternativa

accesible para utilizar el teclado o la pantalla. Esto adquiere gran

importancia en los coches y en otras situaciones donde es necesario que

tanto nuestras manos como nuestra vista queden libres.


[VoiceXML] Page23

3.2 Ejemplos de Cdigo de VoiceXML

Para poder entender ejemplos de cdigo primero describiremos el aspecto

de una aplicacin VoiceXML:

Una sesin VoiceXML se inicia cuando el telfono del cliente alcanza al

Gateway, en este instante se inicia la aplicacin.

Una aplicacin est constituida por un conjunto de dialog states. Por lo que

el usuario siempre se encuentra dentro de un dialog. Desde un dialog se

puede saltar a travs de un URL a otro dialog.

Hay dos tipos de dialog: forms y menus; Un form presenta y recoge informacin (voz o DTMF) y un menu presenta al usuario diferentes opciones y permite la transicin a otros dialog

Speech Synthesis Markup Language (SSML) define los aspectos relativos a

reproduccin de audio y sntesis de voz: pronunciacin, gnero, edad,

volumen, tono y nfasis.

Para el reconocimiento de voz, cada dialog emplea una Grammar. En una

Grammar se establecen las palabras y declaraciones que vlidas como

respuesta.

Tras el reconocimiento, la Grammar retorna variables a la aplicacin

VoiceXML en curso. Una Grammar puede residir como un elemento ms

dentro de la aplicacin (inline) o bien, puede ser referenciada: fichero.grxml

Speech Recognition Grammar Specification (SRGR) que es quien establece

el uso de XML como sintaxis para la programacin de Grammars.


[VoiceXML] Page24

A Continuacin Un Ejemplo de una Aplicacin VoiceXML y su Grammar

con las respuestas posibles:


[VoiceXML] Page25

Algunas consideraciones sobre la sintaxis de su codificacin: Entrada de datos: ,

Seleccionar gramticas:

Asignacin de variables: y

Reproduccin de un clip de audio:

Grabacin de la voz:

Definicin de mens: y

Condicionales y saltos: , ,, y

Anidar dilogos:

Control de la sesin: , ,

Incluir scripts ECMA/CTSA:


[VoiceXML] Page26

CONCLUSIONES

Internet condensa gran cantidad de informacin que hasta ahora slo era

accesible a travs de un navegador. Abrir paso para que todo este contenido

pueda volcarse sobre otros dispositivos es un reto que los portales de voz han

asumido y han superado, ya que ofrecen la posibilidad de obtener esta

informacin a travs de un telfono, ya sea mvil o fijo, con la movilidad,

flexibilidad y facilidad de acceso que esto supone.

El VoiceXML facilita el desarrollo de portales de voz ya que permite construir

dilogos hablados de forma sencilla, ofreciendo al usuario una forma alternativa de

interaccin. Su influencia ha sido decisiva en las nuevas aplicaciones de telefona

y el hecho de estar aprobado por el W3C, y avalado por AT&T, Lucent

Technologies, Motorola e IBM (y otras 350 empresas que en la actualidad son

miembros del Foro VoiceXML), hace que sus posibilidades de difusin sean

enormes.

Sin embargo hay que tener en cuenta que no son todo ventajas, ya que la voz no

es como un teclado, no se trata de un conjunto de tonos constantes y universales.

Siempre se producirn errores en el reconocimiento de la voz, en la comprensin

o simplemente al convertir la voz a texto. Adems a la hora de introducir datos con

la voz hay que tener en cuenta que existen gramticas que recogen las entradas

vlidas y por mucho vocabulario que abarquen estas gramticas siempre quedar

alguna que no contemple. Otro problema es la Gran variedad de lenguajes y

dialectos que existen y que dependen aun del lado usuario el de definirlo, por

ahora se sigue los esfuerzos para ampliar estos estndares a nuevos idiomas.

Pero no slo se presentan inconvenientes en el reconocimiento de la voz, sino

tambin a la hora de sintetizarla. La conversin texto a voz permite sintetizar voz a

partir de textos con una calidad muy alta, de hecho en un futuro no muy lejano se

supone que no se podr distinguir una voz sintetizada de una voz pregrabada.

Esto permite emitir por la lnea telefnica de forma natural informacin muy

variada y flexible. As, en los nuevos sistemas de respuesta telefnica automtica


[VoiceXML] Page27

el llamante puede interactuar hablando de forma natural y solicitar informacin

muy diversa mientras que el sistema responde con voz sintetizada. Pero la voz

sintetizada no es humana, eso est claro, y esto hace la comunicacin muy

impersonal, algo que no gusta a la mayora de la gente. Quin no ha dicho

alguna vez odio hablar con esta maquina?, y eso es precisamente lo que se

pretende con VoiceXML: hablar con las mquinas. Sin embargo, Se sigue

avanzando con este estndar aplicando nuevas tcnicas que nos permitan

acceder a la comunicacin plural entre hombre maquina.

Podemos concluir tambin que con la integracin del Hombre a esta gran red de

redes como es la Internet se hace cada vez mucho ms necesario poder acceder

de una manera mltiple, en este sentido la W3C sigue desarrollando esfuerzos

para la accesibilidad multimodal, El nuevo trabajo anunciado, as como los planes

sobre caractersticas adicionales para VoiceXML 3.0 en la verificacin del usuario,

constituyen hoy un momento idneo para que nuevas compaas, investigadores y

otros interesados, estn unindose al esfuerzo de W3C y participen en los ltimos

desarrollos de las tecnologas de voz y la Web.

Entre los contribuyentes potenciales estn aquellos procedentes del sector

empresarial y de la investigacin presentes por toda Asa, en las reas de idiomas

asiticos y la verificacin del usuario, para permitir la mejor especializacin en el

desarrollo de estndares que realmente cubran las necesidades de los usuarios

Web a nivel mundial.

Carlos Alvarado Quintana

www.complejocartavio.com.pe/semanticaweb/voicexml.html Nota: Se ha desarrollado una Pagina referida Al Tema en esta direccin conteniendo el trabajo desarrollado, artculos relacionados, Bibliografa, Link a paginas de referencia.


[VoiceXML] Page28

BIBLIOGRAFA

[IBM 2001] VoiceXML Programmers Guide, IBM documentation. Noviembre del 2001.

[Wiley 2002] Sharma, Chetan., VoiceXML : strategies and techniques for effective voice application development with VoiceXML 2.0 Wiley 2002.

[W3C 2002] The World Wide Web Consorcium W3C, Voice Extensible Markup Language (VoiceXML) Version 2.0 2002. http://www.w3.org/TR/2004/RECvoicexml2020040316/

[Foro 2004] VXIDiscuss. 2004. Foro de discusin sobre VoiceXML y todos los aspectos relacionados con el intrprete OpenVXI 2.0: http://www.speechinfo.org/vxi-discuss/.

[Burnett 2002] Burnett, D. C., M. R. Walker, A. Hunt. 2002. Speech Synthesis Markup Language Version 1.0. W3C Working Draft. http://www.w3.org/TR/speech-synthesis.

VoiceXML Forum (http://www.voicexml.org/) Intel Telecom Products

(http://www.intel.com/design/network/products/telecom/index.htm) Especificacin: http://www.w3.org/Voice/ http://www.voicexml.org. cVoiceXMLForum. Tutoriales: Gua a VoiceXML: http://www.w3.org/Voice/Guide/ VoiceXMLReview: http://www.voicexmlreview.org Portal sobre VoiceXML http://www.kenrehor.com/voicexml/ http://www.tellme.com Portal de Voz. Implementaciones: http://www.i6net.com Proyecto MCMS Gestion de Contenidos Multimodal http://www.intervoice.com OmviaMediaServerconexploradorcompatibleconVoiceXML2.0. http://www.fundacionucm.es/www.once.es Proyecto ONCE: Eliminacin de Barreras Mediante La Tecnologa del Habla. http://www.verbio.comAppliedTechnologiesonLanguageandSpeechS.L,http://www.softwareag.com Desarrollo de Proyectos Web Multimodal http://www1.softwareag.com/Corporate/Solutions/XML_Solutions/mobile_sol

Herramientas: http://studio.tellme.com/ Herramienta de Desarrollo sobre VoiceXML www.verbio.com Empresa ATLAS, producto basado en VoiceXML: Dialog@


[VoiceXML] Page29

Grupos de Inters

Grupo de Aplicaciones del Procesado de Seales: rea Procesamiento del Lenguaje Natural. Universidad Politcnica de Madrid. Investigador Principal: Luis A. Hernndez Gmez Persona de contacto: Luis A. Hernndez Gmez URL: http://www.gaps.ssr.upm.es/ E-mail: [email protected] Direccin Postal: ETSI Telecomunicaciones. Despacho C-330. Ciudad Universitaria s/n. 28040 Madrid. Espaa

Grupo de Estructuras de Datos y Lingstica Computacional.

Universidad de Las Palmas de Gran Canaria. Investigador Principal: Octavio Santana Surez Persona de contacto: Jos R. Prez Aguilar URL: http://www.gedlc.ulpgc.es E-mail: [email protected] Direccin Postal: Edificio de Informtica. Departamento de Informtica y Sistemas. Universidad de Las Palmas de Gran Canaria. Campus Universitario de Tafira. 35017 Las Palmas de Gran Canaria.

Grupo ECA-SIMM.

Universidad de Valladolid Investigador Principal: Valentn Cardeoso Persona de contacto: Valentn Cardeoso Payo URL: http://eca-simm.infor.uva.es E-mail: [email protected] Direccin Postal: Escuela Tcnica Superior de Ingeniera Informtica. Departamento de Informtica (ATC, CCIA, LSI). Campus Miguel Delibes s/n. 47011 VALLADOLID.

Otros Trabajos de Investigacin Referentes al tema: [Granel 2001] R. Lpez-Czar, R. Granell. Sistema de Dilogo Basado en VoiceXML

para Proporcionar Informacin de Viajes en Tren. Universidad de Granada. www.sepln.org/revistaSEPLN/revista/33/33-Pag171.pdf

[Gemini 2002] R. Crdoba, L.F. DHaro, J.M. Montero, J. Ferreiros, J. Macas-

Guarasa, J.D. Romeral, J.M. Pardo. Generacin semiautomtica de aplicaciones de dilogo multimodales: Proyecto GEMINI. Grupo de Tecnologa del Habla. Departamento de Ingeniera Electrnica. Universidad Politcnica de Madrid. www.gemini-project.org www-gth.die.upm.es/~macias/doc/pubs/telecomi+d03/abstract/resumen_Telecom_I+D_gemini.PDF

[Oropeza 2006] Oropeza Rodriguez, Jose Luis. Algoritmos y Metodos para el Reconocimiento de Voz en Espaol Mediante Silabas. Centro de Investigaciones en computacin = IPN, Mexico, 2006. www.ejournal.unam.mx/compuysistemas/vol09-03/CYS09307.pdf

[Hops 2004] Gatius, Martha, Gonzales, Maritzel. The Project HOPS: Enabling an Intelligent Natural Languaje Based Hub for the Deplpyment of Advance Semantically Enriched Multi-channel Mass Scale OnLine Public Services. Universitat Politecnica de Catalua, Espaa, 2004. http://www.bcn.es/hops/index.htm


[VoiceXML] Page30

AUTOR:

ALVARADO QUINTANA CARLOS ALBERTO Ingeniero de Computacin y Sistemas colegiado, egresado de la Escuela de ICS de Universidad Privada Antenor Orrego, Maestra en Administracin de Negocios MBA UCV-Univ. Miami, Actualmente he culminado el segundo ao de Doctorado en Ingeniera de Software en la Universidad Pontificia de Salamanca Madrid Espaa, Diplomado en Gerencia de Proyectos y Calidad en la Pontificia Universidad Catlica del Per y PMI, Diplomado en Gerencia de TI en ESAN y un Post Grado Tecnologas de la Informacin en CADEM. Catedrtico de diferentes Universidades de Trujillo, como es UPAO y UPN en cursos de Administracin de Proyectos. Me he desempeado como Jefe de Sistemas y Gerente de Proyectos, he tenido la Jefatura de Sistemas de Complejo Agroindustrial Cartavio 1998-2007, he sido Jefe de Proyectos de desarrollo de software integrado sobre Visual Studio y SQL Server (mdulos backoffice: Logstica, Recursos Humanos, Contabilidad, Comercial y Financiero). Tengo experiencia Laboral de ms de 8 aos asumiendo Jefaturas de Sistemas en diversas empresas Agroindustriales, he tenido Gerencias de Proyectos de Implementacin de ERP como Biosalc, Spring y Sapiens, he participado como Lder de Tecnologa y de Procesos en un programa de excelencia operacional en Cartavio y Casagrande con preparacin para la Implementacin de SAP.

Email: [email protected]

Articulo de Invest VoiceXML

Documents