Top Banner
Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech
20

Brugergrænseflader til apparater BRGA

Jan 03, 2016

Download

Documents

sierra-buckner

Brugergrænseflader til apparater BRGA. Presentation 9: Sound & Speech. Agenda. Audiotory Interfaces Speech recognition & artificial speech Types of SUI / VUI Design challenges Multimodal UI’s Technologies. Where might it be used?. TomTom GO 720. See and Hear Tom Tom. Others?. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Brugergrænseflader til apparater BRGA

Brugergrænseflader til apparater BRGA

Presentation 9:

Sound & Speech

Page 2: Brugergrænseflader til apparater BRGA

Agenda

• Audiotory Interfaces• Speech recognition & artificial speech• Types of SUI / VUI• Design challenges• Multimodal UI’s• Technologies

Page 3: Brugergrænseflader til apparater BRGA

Where might it be used?

Others?

TomTom GO 720

See and Hear Tom Tom

Page 4: Brugergrænseflader til apparater BRGA

Audiotory Interfaces

• Use a different sense than visual• Most often used for feedback -> multimodal• Tactile feedback replacement• Familiar sounds:

• Auditory icons

• Abstract sounds:• Earcons

• 3D Sound support drivers & pilots

Page 5: Brugergrænseflader til apparater BRGA

When is speech input appropriate?

Page 6: Brugergrænseflader til apparater BRGA

When is speech output appropriate

Page 7: Brugergrænseflader til apparater BRGA

Vocabulary size (number of words)

Spea

king

sty

le

Spontaneous speech

Fluent speech

Read speech

Connected speech

Isolated words

2 20 200 2000 20000 Unrestricted

word spotting

digit strings

voice commands

directory assistance

form fill by voice

name dialing

2-way dialogue

natural conversation

transcription

office dictation

system driven dialogue

network agent &

intelligent messaging

Requires more advancecd platforms

Stor PC i dag

Speech Technologies

Page 8: Brugergrænseflader til apparater BRGA

Enkelt bruger - lille ordforråd

Ring til banken !

• Talestyret opkald.

• Kendes fra fx mobiltelefoner med indbygget talegenkendelse (mønstergenkendelse)

• Skal trænes af den enkelte bruger med det aktuelle ordforråd.

• Dynamic Time Warping - DTW (simpel mønstergenkendelse)

Page 9: Brugergrænseflader til apparater BRGA

Enkelt bruger - stort ordforråd

Kære AntonDet var vel nok

dejligt ...

Kære AntonDet var vel nok dejligt ...

• Dikteringsprogrammer - foreløbigt kun til hovedsprogene i gratis udgaver. Systemet skal trænes med tale (typiske formuleringer)

Page 10: Brugergrænseflader til apparater BRGA

Mange brugere - stort ordforråd

Det koster 4 kr og50 ører i minuttet atringe til Spanien ..

Hvad koster det atringe til Spanien

• Dialogsystemer med talegenkendelse.• Skal kunne betjenes af alle -> ingen træning• Kræver meget processorkraft• Kræver avanceret dialogdesign• Er meget svært at lave ordentligt

Øvelse: bemærk hvordan det håndteres her: - http://userportal.iha.dk/~sw/kurser/brga/ressourcer/opkaldTil1811.wav

Page 11: Brugergrænseflader til apparater BRGA

Udfordringer i VUI design

Forbigående oplysninger: ”Hvad sagde du/den?”

”Recognition over Recall” – vi kan kun overskue 5-9 elementer

Usynlighed: ”Hvad kan jeg sige nu?” (- mappings)

Asymmetri

Kvalitet

Lange lister er kedelige tidsrøvere

Kalenderprogrammer bruger absolutte datoer – mennesker bruger tit relative

Menuer gør funktionalitet synlig for brugeren i en GUI – ikke muligt i en VUI

Talegenkendelsens kvalitet

Talesyntesens kvalitet

Page 12: Brugergrænseflader til apparater BRGA

...i over-morgen

På onsdag 14 dage...

Sidst på ugen...

Midten af november...

I uge 13...

Lidt over ti

Lidt over ti

Kvart over tre – godt og vel

Kvart over tre – godt og vel

Fem m

inutter

over halv

seks

Fem m

inutter

over halv

seks

Sytte

n tr

ediv

e

Sytte

n tr

ediv

e

MiddagMiddag

Efter-middag

Efter-middag

Page 13: Brugergrænseflader til apparater BRGA

Design af stemmestyring (1/3)

• Feedback og ventetid• Pauser til processering forvirrer brugeren

• Tale er en langsom måde at videregive informationer

• Behov for feedback på handlinger

• Bekræftelse af fremsøgte data ”Var det den?”• Bekræftelse af handlinger der ændrer data ”Vil

du gemme denne?” ”Vil du slette denne?”

Page 14: Brugergrænseflader til apparater BRGA

Design af stemmestyring (2/3)

• At spørge om det rigtige…• Afvejning mellem fleksibilitet og præcision

• Få svarmuligheder => bedre genkendelse

• Eksplicitte spørgsmål begrænser brugeren– ”Sig ja, nej eller afbryd”

• Implicitte spørgsmål tillader fleksibelt input– Bruger: ”Send mail til Kurt”– System: ”Mener du Kurt Thorsen eller Kurt Ravn?

• Trinvise spørgsmål kan øge hastigheden for eksperter og hjælpe begynderen

Page 15: Brugergrænseflader til apparater BRGA

Multimodal Interaction Devices• Ikke nødvendigvis GUI eller VUI

• Brug af flere modaliteter: Multimodal

• Eksempel: Jagerfly • Traditional ”joystick” + Panel keyboard• Magnetic Head Tracker• 360° HUD display (X-Ray Vision Helmet)• 3D audio kommunikations & advarsels lydsystem• Speech recognition software

• Eksempel Sony Ericsson P800/P900• Regular key pad

• classic cell phone data entry• Touch Screen

• write recognition & virtual QWERTY• Display for browsing, pictures, messages• Sound interface for notification• Simple voice command for placing calls

Page 16: Brugergrænseflader til apparater BRGA

Hermes – multimodal robot

• Voice Controlled• Multimodal• Almost doubling

efficiency of surgeons• Trained for individual

voices• Will only accept

commands from selected individual

Exercise: how does this relate to today’s lesson?

Page 17: Brugergrænseflader til apparater BRGA

User Studies

• Natural Dialog Studies • Wizard-of-Oz Studies • ”Normal” Usability Studies

Page 18: Brugergrænseflader til apparater BRGA

Technologies Available

• Custom-made recognizers ASR and TTS• VoiceXML / SALT

• For use over the Internet• Microsoft Speech API 5.1 (COM component)

• For use with Windows PC’s• Enables C++ and .NET programming

• Windows Vista – System.Speech• VISTA / 7 / (XP?)

• Loquendo : Danish and other languages ASR and TTS • VISTA / 7 / XP / Windows CE• Java / Win32 C++ / C#?

• Nuance (Dragon Natural Speaking)

Page 19: Brugergrænseflader til apparater BRGA

VoiceXML vs (X)HTML<?xml version=“1.0”?><vxml version=“1.0” >

</vxml>

<form id=”velkomst”> <field name=“selection”> <prompt> Vælg mellem Nyheder, Vejret

eller Sport. </prompt> <grammar> [ nyheder vejret sport ] </grammar> </field> <block> <submit next=“valgt.jsp”/> </block></form>

<html> <head><title>Vælg sektion</title></head> <body>

</body></html>

<form id=”velkomst” action=“valgt.jsp”> <select name=“selection”> <option value=“nyheder”>Nyheder</option> <option value=”vejret”>Vejret</option> <option value=”sport”>Sport</option> </select> <input type=”submit” value=”Vælg” /></form>

Page 20: Brugergrænseflader til apparater BRGA

Læringsmåls alignment

• Når kurset er færdigt forventes den studerende at kunne:• Definere og beskrive forskellige typer af

brugergrænseflader til apparater og computere

• Definere og beskrive gængse teorier, metoder og retningslinier indenfor menneske-maskin-interaktion og anvende disse til at lave en brugervenlig brugergrænseflade til et givet apparat

• Designe og konstruere brugergrænsefladesoftware til udvalgte typer af brugergrænseflader

Udfordringer og Anbefalinger vedKunstig tale ogtalegenkendelse ergennemgået