Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech
Jan 03, 2016
Brugergrænseflader til apparater BRGA
Presentation 9:
Sound & Speech
Agenda
• Audiotory Interfaces• Speech recognition & artificial speech• Types of SUI / VUI• Design challenges• Multimodal UI’s• Technologies
Where might it be used?
Others?
TomTom GO 720
See and Hear Tom Tom
Audiotory Interfaces
• Use a different sense than visual• Most often used for feedback -> multimodal• Tactile feedback replacement• Familiar sounds:
• Auditory icons
• Abstract sounds:• Earcons
• 3D Sound support drivers & pilots
When is speech input appropriate?
When is speech output appropriate
Vocabulary size (number of words)
Spea
king
sty
le
Spontaneous speech
Fluent speech
Read speech
Connected speech
Isolated words
2 20 200 2000 20000 Unrestricted
word spotting
digit strings
voice commands
directory assistance
form fill by voice
name dialing
2-way dialogue
natural conversation
transcription
office dictation
system driven dialogue
network agent &
intelligent messaging
Requires more advancecd platforms
Stor PC i dag
Speech Technologies
Enkelt bruger - lille ordforråd
Ring til banken !
• Talestyret opkald.
• Kendes fra fx mobiltelefoner med indbygget talegenkendelse (mønstergenkendelse)
• Skal trænes af den enkelte bruger med det aktuelle ordforråd.
• Dynamic Time Warping - DTW (simpel mønstergenkendelse)
Enkelt bruger - stort ordforråd
Kære AntonDet var vel nok
dejligt ...
Kære AntonDet var vel nok dejligt ...
• Dikteringsprogrammer - foreløbigt kun til hovedsprogene i gratis udgaver. Systemet skal trænes med tale (typiske formuleringer)
Mange brugere - stort ordforråd
Det koster 4 kr og50 ører i minuttet atringe til Spanien ..
Hvad koster det atringe til Spanien
• Dialogsystemer med talegenkendelse.• Skal kunne betjenes af alle -> ingen træning• Kræver meget processorkraft• Kræver avanceret dialogdesign• Er meget svært at lave ordentligt
Øvelse: bemærk hvordan det håndteres her: - http://userportal.iha.dk/~sw/kurser/brga/ressourcer/opkaldTil1811.wav
Udfordringer i VUI design
Forbigående oplysninger: ”Hvad sagde du/den?”
”Recognition over Recall” – vi kan kun overskue 5-9 elementer
Usynlighed: ”Hvad kan jeg sige nu?” (- mappings)
Asymmetri
Kvalitet
Lange lister er kedelige tidsrøvere
Kalenderprogrammer bruger absolutte datoer – mennesker bruger tit relative
Menuer gør funktionalitet synlig for brugeren i en GUI – ikke muligt i en VUI
Talegenkendelsens kvalitet
Talesyntesens kvalitet
...i over-morgen
På onsdag 14 dage...
Sidst på ugen...
Midten af november...
I uge 13...
Lidt over ti
Lidt over ti
Kvart over tre – godt og vel
Kvart over tre – godt og vel
Fem m
inutter
over halv
seks
Fem m
inutter
over halv
seks
Sytte
n tr
ediv
e
Sytte
n tr
ediv
e
MiddagMiddag
Efter-middag
Efter-middag
Design af stemmestyring (1/3)
• Feedback og ventetid• Pauser til processering forvirrer brugeren
• Tale er en langsom måde at videregive informationer
• Behov for feedback på handlinger
• Bekræftelse af fremsøgte data ”Var det den?”• Bekræftelse af handlinger der ændrer data ”Vil
du gemme denne?” ”Vil du slette denne?”
Design af stemmestyring (2/3)
• At spørge om det rigtige…• Afvejning mellem fleksibilitet og præcision
• Få svarmuligheder => bedre genkendelse
• Eksplicitte spørgsmål begrænser brugeren– ”Sig ja, nej eller afbryd”
• Implicitte spørgsmål tillader fleksibelt input– Bruger: ”Send mail til Kurt”– System: ”Mener du Kurt Thorsen eller Kurt Ravn?
• Trinvise spørgsmål kan øge hastigheden for eksperter og hjælpe begynderen
Multimodal Interaction Devices• Ikke nødvendigvis GUI eller VUI
• Brug af flere modaliteter: Multimodal
• Eksempel: Jagerfly • Traditional ”joystick” + Panel keyboard• Magnetic Head Tracker• 360° HUD display (X-Ray Vision Helmet)• 3D audio kommunikations & advarsels lydsystem• Speech recognition software
• Eksempel Sony Ericsson P800/P900• Regular key pad
• classic cell phone data entry• Touch Screen
• write recognition & virtual QWERTY• Display for browsing, pictures, messages• Sound interface for notification• Simple voice command for placing calls
Hermes – multimodal robot
• Voice Controlled• Multimodal• Almost doubling
efficiency of surgeons• Trained for individual
voices• Will only accept
commands from selected individual
Exercise: how does this relate to today’s lesson?
User Studies
• Natural Dialog Studies • Wizard-of-Oz Studies • ”Normal” Usability Studies
Technologies Available
• Custom-made recognizers ASR and TTS• VoiceXML / SALT
• For use over the Internet• Microsoft Speech API 5.1 (COM component)
• For use with Windows PC’s• Enables C++ and .NET programming
• Windows Vista – System.Speech• VISTA / 7 / (XP?)
• Loquendo : Danish and other languages ASR and TTS • VISTA / 7 / XP / Windows CE• Java / Win32 C++ / C#?
• Nuance (Dragon Natural Speaking)
VoiceXML vs (X)HTML<?xml version=“1.0”?><vxml version=“1.0” >
</vxml>
<form id=”velkomst”> <field name=“selection”> <prompt> Vælg mellem Nyheder, Vejret
eller Sport. </prompt> <grammar> [ nyheder vejret sport ] </grammar> </field> <block> <submit next=“valgt.jsp”/> </block></form>
<html> <head><title>Vælg sektion</title></head> <body>
</body></html>
<form id=”velkomst” action=“valgt.jsp”> <select name=“selection”> <option value=“nyheder”>Nyheder</option> <option value=”vejret”>Vejret</option> <option value=”sport”>Sport</option> </select> <input type=”submit” value=”Vælg” /></form>
Læringsmåls alignment
• Når kurset er færdigt forventes den studerende at kunne:• Definere og beskrive forskellige typer af
brugergrænseflader til apparater og computere
• Definere og beskrive gængse teorier, metoder og retningslinier indenfor menneske-maskin-interaktion og anvende disse til at lave en brugervenlig brugergrænseflade til et givet apparat
• Designe og konstruere brugergrænsefladesoftware til udvalgte typer af brugergrænseflader
Udfordringer og Anbefalinger vedKunstig tale ogtalegenkendelse ergennemgået