Tampereen Yliopisto Tietojenkäsittelyopin laitos Toukokuu ...mt60043/Gradu/Gradu.pdf · Pro Gradu-tutkielma, 92 + 8 sivua Toukokuu 1998 Tiivistelmä Tässä työssä tutkitaan kolmiulotteisessa

Tampereen Yliopisto • Tietojenkäsittelyopin laitos • Toukokuu 1998

Pro Gradu -tutkielma

3XKHRKMDXV��'�Nl\WW|OLLWW\PLVVl

Markku Turunen <[email protected]> 19.5.1998

ii

Tampereen yliopisto

Tietojenkäsittelyopin laitos

Turunen, Markku:

Puheohjaus 3D-käyttöliittymissä

Pro Gradu-tutkielma, 92 + 8 sivua

Toukokuu 1998

Tiivistelmä

Tässä työssä tutkitaan kolmiulotteisessa ympäristössä tapahtuvaa vuorovaikutusta pu-

heohjauksen näkökulmasta. Puhetta käytetään vuorovaikutukseen, koska se mahdol-

listaa kolmiulotteisen virtuaalimaailman täysimittaisen hallinnan myös niissä tapauk-

sissa, joissa käsien käyttäminen ei ole mahdollista. Tutkimuksessa esitetään VRML-

maailmojen hallintaan soveltuva puheohjattu selain sekä tällä suoritetut käyttäjätestit.

Konstruktion pohjana on puheen luonnetta, puhesovellusten suunnitteluperiaatteita ja

kolmiulotteisten käyttöliittymien piirteitä selvittävä kirjallisuuskatsaus. Selaimella

suoritettujen käyttäjätestien tulosten pohjalta esitetään menetelmiä puheohjauksen te-

hostamiseksi. Erityisesti kiinnitetään huomiota virheiden hallintaan, koska puhetek-

nologioiden nykyisellä kehitystasolla tämä on merkittävin seikka puhesovellusten hy-

väksymisen kannalta. Toiminnallisuuden kehittämistä lähestytään komentopohjaisten

puhesyötteiden ohella luonnollisen kielen, multimodaalisuuden ja puhetulosteiden

kautta.

iii

SISÄLLYSLUETTELO

1 JOHDANTO .........................................................................................................1

2 PUHEEN KÄSITTELY.......................................................................................3

2.1 Puheen rakenne ................................................................................................. 3

2.2 Puheen esittäminen digitaalisesti ...................................................................... 5

2.3 Puheentunnistus................................................................................................. 5

2.3.1 Puheentunnistuksen periaate ..................................................................... 6

2.3.2 Puheentunnistuksen ongelmia ................................................................... 7

2.4 Puheentunnistusjärjestelmien ominaisuuksia.................................................... 8

2.4.1 Sanasto ja kieli .......................................................................................... 8

2.4.2 Puheen luonne ........................................................................................... 9

2.4.3 Olosuhteet................................................................................................ 10

2.4.4 Muita seikkoja......................................................................................... 10

2.5 Puheentunnistusjärjestelmien evaluointi ......................................................... 11

2.6 Puheen syntetisointi ........................................................................................ 12

2.7 Puheen merkityksen käsittely.......................................................................... 14

2.8 Lopuksi............................................................................................................ 15

3 PUHESOVELLUSTEN SUUNNITTELU JA EVALUOINTI.......................16

3.1 Puhe käyttöliittymäelementtinä....................................................................... 16

3.1.1 Puheen asema käyttöliittymässä.............................................................. 16

3.1.2 Puheen ymmärtämisen taso..................................................................... 17

iv

3.1.3 Kommunikaation suunta ......................................................................... 17

3.1.4 Puheen ja graafisen suorakäyttöliittymän eroista.................................... 18

3.2 Puhe multimodaalisissa käyttöliittymissä ....................................................... 19

3.3 Puheen keskeisimmät ominaisuudet................................................................ 20

3.4 Puheen käytössä huomioitavia seikkoja.......................................................... 21

3.5 Puhesovellusten suunnittelu ............................................................................ 23

3.5.1 Keskustelun ohjaus.................................................................................. 23

3.5.2 Virheiden hallinta.................................................................................... 24

3.5.3 Vahvistukset ............................................................................................ 26

3.5.4 Palaute ja ohjeet ...................................................................................... 26

3.6 Puhesovellusten evaluointikriteerejä............................................................... 27

3.7 Puhesovelluksiin liittyvä empiirinen tutkimus................................................ 28

3.8 Lopuksi............................................................................................................ 30

4 KOLMIULOTTEISET KÄYTTÖLIITTYMÄT ............................................31

4.1 Kolmiulotteinen käyttöliittymä ja sen perustoiminnot.................................... 31

4.2 Kolmiulotteisen käyttöliittymän erityispiirteitä .............................................. 33

4.3 Virtuaalimaailman luonne............................................................................... 35

4.4 Liikkuminen kolmiulotteisessa ympäristössä.................................................. 37

4.4.1 Liikkumisen motiivit ............................................................................... 37

4.4.2 Liikkumisen perusmetaforat.................................................................... 38

4.4.3 Liikkeen kontrollointi.............................................................................. 39

4.4.4 Korkean tason liikkumismetaforat .......................................................... 40

v

4.5 Vuorovaikutuksessa tarvittavien vapausasteiden rajoittaminen...................... 40

4.6 Puheen käytöstä kolmiulotteisissa käyttöliittymissä....................................... 42

4.7 Lopuksi............................................................................................................ 44

5 PUHEOHJATTU SELAIN ...............................................................................45

5.1 Lähtökohdat..................................................................................................... 45

5.2 Toiminnallisuus............................................................................................... 46

5.2.1 Toimintojen määrittäminen..................................................................... 46

5.2.2 Liikkeiden kontrollointi........................................................................... 47

5.2.3 Metafora .................................................................................................. 48

5.2.4 Toimintojen esittäminen komentoina...................................................... 48

5.3 Konstruointiin käytetyt välineet ...................................................................... 51

5.4 Selaimen toteutus ............................................................................................ 52

5.5 Huomiota toteutuksesta................................................................................... 53

6 KÄYTTÄJÄTESTIT .........................................................................................54

6.1 Testien tarkoitus .............................................................................................. 54

6.2 Testiolosuhteet ................................................................................................ 55

6.3 Koehenkilöt ..................................................................................................... 56

6.4 Havaintojen tallentaminen............................................................................... 56

6.5 Ensivaikutelmien keruu ja alustavat testit ....................................................... 57

6.6 Tehtävät........................................................................................................... 58

6.6.1 Harjoitustehtävät (1, 2 ja 3)..................................................................... 58

6.6.2 Liikkumistehtävät (4, 8 ja 9) ................................................................... 59

vi

6.6.3 Kääntymistehtävät (5 ja 6) ...................................................................... 59

6.6.4 Asemointitehtävä (7) ............................................................................... 61

6.7 Kyselylomake ja haastattelut........................................................................... 61

6.8 Testien suorittaminen ...................................................................................... 61

6.9 Materiaalin analysointi .................................................................................... 62

6.10 Huomioita testeistä...................................................................................... 63

7 PUHEOHJAUKSEN KEHITTÄMINEN TESTIEN POHJALTA ...............64

7.1 Tunnistusvirheet .............................................................................................. 64

7.1.1 Tunnistusvirheiden määrä ja jakaantuminen........................................... 64

7.1.2 Henkilökohtaiset erot tunnistusvirheissä................................................. 65

7.1.3 Virheellisten tulkintojen karsinnan toimivuus ........................................ 66

7.1.4 Virhetulkintojen karsinnan kehittäminen................................................ 67

7.1.5 Komentojen antamiseen liittyvien virheiden syyt ja korjaaminen.......... 68

7.2 Semanttiset virheet .......................................................................................... 69

7.2.1 Semanttisten virheiden lähteet ................................................................ 69

7.2.2 Semanttiset virheet ja ohjausmetafora..................................................... 70

7.2.3 Semanttisten virheiden vähentäminen metaforaa tukemalla................... 72

7.3 Virheiden vaikutukset ..................................................................................... 73

7.4 Virheiden korjaus ja palaute............................................................................ 75

7.4.1 Virheiden havaitseminen ja korjaaminen................................................ 75

7.4.2 Perumistoiminto ...................................................................................... 76

7.4.3 Palaute ..................................................................................................... 77

vii

7.5 Toiminnallisuuden kehittäminen..................................................................... 78

7.5.1 Komentojen antaminen ........................................................................... 78

7.5.2 Nopeuden kontrollointi ja tarkka työskentely ......................................... 78

7.5.3 Perusliikkumisen vaihtoehdot ................................................................. 79

7.5.4 Kääntymiskomentojen tehostaminen ...................................................... 80

7.5.5 XY-tason orientaation muuttaminen ....................................................... 80

7.5.6 Toiminnallisuuden lisäämisen prioriteetit............................................... 81

7.6 Multimodaalisuuden hyödyntäminen.............................................................. 82

7.7 Yhteenveto jatkokehityksestä.......................................................................... 83

8 YHTEENVETO..................................................................................................84

LÄHDELUETTELO ..................................................................................................87

Liite : Käyttäjätestien haastattelulomake.

PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 1 - JOHDANTO

Sivu 1

1 JOHDANTO

Kolmiulotteisten käyttöliittymien merkitys on kasvanut viime aikoina jatkuvasti.

Kolmiulotteisessa ympäristössä ihmisen ja tietokoneen vuorovaikutus on kuitenkin

huomattavasti monimukaisempaa kuin perinteisessä kaksiulotteisessa työpöytäympä-

ristössä. Ongelmaa on lähestytty kehittämällä erilaisia syöttölaitteita ja ohjelmallisia

ratkaisuja, joiden yhteisenä tekijänä voidaan pitää niiden hallinnan vaatimaa tark-

kuutta ja voimakasta suuntausta käsien hyödyntämiseen.

Nämä ratkaisut jättävät kuitenkin toivomisen varaa, sillä aina ei ole mahdollista käyt-

tää edistyksellisiä syöttölaitteita. On myös tilanteita, joissa käsien käyttäminen on jo-

ko rajoitettua tai kokonaan mahdotonta. Tämän vuoksi tarvitaan myös sellaisia mene-

telmiä, jotka soveltuvat käytettäväksi ilman tarkkaa motorista kontrollointia.

Tässä tutkimuksessa lähestytään kolmiulotteisten käyttöliittymien hallintaa käyttä-

mällä puhetta syötteiden antamiseen. Puhe on niin ilmaisuvoimainen kommunikoin-

timenetelmä, että sen avulla on mahdollista hallita kolmiulotteisia käyttöliittymiä

myös niissä tilanteissa, joissa käyttäjän kädet ovat kokonaan varattuina muihin tehtä-

viin. Ratkaisu mahdollistaa myös virtuaalimaailmojen käyttämisen sellaisille ihmis-

ryhmille, jotka muutoin jäisivät näistä osattomiksi. Esimerkiksi motorisesti vammaiset

ovat tällainen usein unohdettu käyttäjäryhmä.

Keskeisenä ajatuksena on tutkia, millaisia menetelmiä tarvitaan siihen, että virtuaali-

maailmaa pystytään hallitsemaan puheen avulla. Aihetta lähestytään kartoittamalla

aikaisempia puhesovellusten ja kolmiulotteisten käyttöliittymien tutkimuksia. Näiden

pohjalta esitetään malli puheohjauksen liittämiseksi virtuaalimaailmoihin ja tämän

konkretisointi puheohjatun VRML 2.0 -selaimen muodossa sekä selaimelle suoritetut

käyttäjätestit. Käyttäjätestien havaintojen pohjalta esitetään suunnitelma puheohjauk-

sen kehittämiseksi ja jatkotutkimusten suorittamiseksi. Tutkimus muodostaa ensim-

mäisen vaiheen iteratiivisesta prosessista, jonka tarkoituksena on kehittää kolmiulot-

teisten maailmojen täysimittaiseen hallitsemiseen soveltuva puhekäyttöliittymä.

Tutkimuksessa kiinnitetään erityistä huomiota virhetilanteisiin, sillä virheiden hallinta

on ratkaiseva seikka puhesovellusten hyväksymiselle. Suurin osa virheistä aiheutuu

teknologian kehittymättömyydestä. Puhekäyttöliittymien suunnittelu vaatiikin poik-

PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 1 - JOHDANTO

Sivu 2

keuksellisen paljon tietoutta pohjana olevasta teknologiasta. Tämän vuoksi käsitellään

lyhyesti keskeisimpiä puhetekniikoita käyttöliittymäsuunnittelun näkökulmasta.

Pääpaino teoreettisessa tarkastelussa on kuitenkin puhesovellusten suunnittelussa ja

kolmiulotteisten käyttöliittymien vuorovaikutusmenetelmissä. Kirjallisuudessa esi-

tettyjä puhekäyttöliittymien suunnittelunäkökohtia tulkitaan reaaliaikaisten järjestel-

mien kannalta. Kolmiulotteisten käyttöliittymien vuorovaikutusmenetelmistä käsitel-

lään erityisesti niitä, jotka ovat sovellettavissa puheohjaukseen.

Puheen ohella voidaan syötteiden antamiseen käyttää myös muita menetelmiä, jotka

eivät vaadi käsien käyttämistä. Tällöin on kysymys multimodaalisesta käyttöliitty-

mästä. Multimodaalisuuden teemaa pidetään yllä koko tutkimuksen ajan, sillä jatkon

kannalta on todennäköistä, että syötemodaliteettivalikoimaa laajennetaan. Tällä toi-

votaan parannettavan järjestelmän käytettävyyttä mm. vähentämällä virheitä. Käsitel-

tävien asioiden yhteydessä pyritään jo ennakkoon huomioimaan, kuinka multimodaa-

lisuus olisi hyödynnettävissä eri tilanteissa.

Puhetta voidaan käyttää syötteiden ohella myös tulosteisiin. Yhdessä nämä muodosta-

vat keskustelupohjaisen järjestelmän, joka mahdollistaa luonnollisen kaltaisen ja mo-

nipuolisen vuorovaikutuksen ihmisen ja tietokoneen välille. Puhetulosteet ovat yksi

mielenkiintoisimmista jatkokehityskohteista. Tämän vuoksi tässä tutkimuksessa lä-

hestytään puhekäyttöliittymiä keskustelupohjaisen mallin mukaisesti.

Tämä tutkimus liittyy läheisesti kolmiulotteisten käyttöliittymien tutkimukseen, mikä

on tällä hetkellä erittäin aktiivisen tarkastelun kohteena. Muita läheisiä tutkimusalu-

eita ovat puhekäyttöliittymät, näistä erityisesti reaaliaikaiset. Yhteyksiä on jatkokehi-

tyksen näkökulmasta myös vaihtoehtoisten kommunikointimenetelmien ja multimo-

daalisten käyttöliittymien tutkimukseen.

Tutkimus aloitetaan selvittämällä puheteknologioita eli puheen digitaalista käsittelyä.

Tätä tarkastellaan toisessa luvussa. Puhesovellusten suunnittelua käsitellään kolman-

nessa luvussa. Neljännessä luvussa tarkastellaan kolmiulotteisia käyttöliittymiä ja

erityisesti niiden vuorovaikutusmenetelmiä. Viidennessä luvussa esitetään puheohja-

tun selaimen prototyyppi. Prototyypille suoritettuja käyttäjätestejä kuvataan kuuden-

nessa luvussa ja niiden tuloksia sekä puheohjauksen kehittämistä seitsemännessä lu-

vussa. Kahdeksannessa luvussa esitetään yhteenveto tutkimuksesta.

PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY

Sivu 3

2 PUHEEN KÄSITTELY

Puheen käyttäminen ihmisen ja tietokoneen välisessä kommunikoinnissa perustuu

muutamaan perustekniikkaan. Näiden tunteminen on ensiarvoisen tärkeää kaikille pu-

hesovellusten tekijöille. Tämä pitää paikkansa varsinkin kehityskulun nykyisessä vai-

heessa, kun teknologia ei ole vielä erityisen kehittynyttä.

Puheen käyttöä lähestytään tässä tutkimuksessa keskustelupohjaisten järjestelmien

näkökulmasta. Keskustelupohjainen lähestymistapa kattaa teknologiatasolla puheen-

tunnistuksen, synteettisen puheen tuottamisen ja puheen merkityksen käsittelyn. Kus-

takin tekniikasta selvennetään niitä piirteitä, jotka vaikuttavat joko suoranaisesti tai

välillisesti puheen hyödyntämiseen käyttöliittymäelementtinä. Pääpaino tässä luvussa

on asetettu tutkimuksen kannalta keskeiselle menetelmälle, puheentunnistukselle.

Ennen tekniikoihin syventymistä selvitetään lyhyesti puheenkäsittelyn pohjalla olevia

seikkoja eli puheen rakennetta ja esittämistä. Puhetekniikoiden esittämisen ohella kä-

sitellään puheentunnistusjärjestelmien keskeisimpiä ominaisuuksia ja evaluointia. Lo-

pussa on yhteenveto käsitellyistä asioista.

2.1 Puheen rakenne

Foneemi eli äänne on pienin merkityksellinen yksikkö sanoja muodostettaessa. Mikä

tahansa kieleen kuuluva sana voidaan esittää jonona foneemeja, jotka vastaavat ihmi-

sen puheentuotantojärjestelmän tilanmuutoksia. Eri kielissä on erilaiset foneemien

joukot. Tyypillisesti kieleen kuuluu 20-40 foneemia.

Kuhunkin foneemiin liittyy allofoneja, jotka ovat erilaisia tapoja ääntää kyseinen fo-

neemi [O’Shaughnessy, 1987, 55-56]. Foneemien yhdistelmistä muodostuu tavuja, sanojen

yksiköitä. Sanoista muodostuu lauseita ja näistä edelleen monimutkaisempia kokonai-

suuksia.

Tarkastelun helpottamiseksi on hyödyllistä käsitellä puhetta eri tasoilla. Schmandt

[1994, 8-11] esittää mallin, jossa puhe jaetaan kahdeksalle tasolle (kuva 2-1). Schmandt

huomauttaa, että malli on analyyttinen eikä pyrikään kattamaan kaikkia puheen ilmi-

öitä. Puheen käsittelyn kannalta malli on kuitenkin erittäin hyödyllinen, sillä se auttaa

jäsentämään käsiteltäviä asioita puheen abstraktiusasteen mukaisesti.


Sivu 4

'LVNXUVVLQ�WDVR

3UDJPDDWWLQHQ�WDVR

6HPDQWWLQHQ�WDVR

6\QWDNVLQ�WDVR

/HNVLNDDOLQHQ�WDVR

)RQHHPLWDVR

$UWLNXODWRULQHQ�WDVR

$NXVWLQHQ�WDVR

Puheenymmärtäminen

Puheenkäsittelyn

perustekniikat

Kuva 2-1: Puheen tasot (muokattu lähteestä [Schmandt, 1994, 9]).

Alimman kokonaisuuden muodostavat akustinen taso, artikulatorinen taso sekä fo-

neemitaso. Puhe esitetään näillä tasoilla äänimolekyylien liikkeenä ilmassa, äänijär-

jestelmän erilaisina tiloina sekä foneemeina. Jos tilannetta tarkastellaan puheen vas-

taanottajan kannalta, korvautuu artikulatorinen taso havaintotasolla, joka kuvaa ääni-

signaalin käsittelyä kuuloelimissä ja aivoissa.

Leksikaalinen taso ja syntaksin taso muodostavat kokonaisuuden, jossa puhetta käsi-

tellään sana- sekä lausetasolla. Leksikaalinen taso kuvaa kielen sanavaraston, sanojen

muodostamissäännöt ja painotukset. Syntaksin tasolla tarkastellaan lauseiden raken-

netta eli laillisia sanakombinaatioita.

Puhetta käsitellään sen sisältämien merkitysten kannalta semanttisella, pragmaatti-

sella sekä diskurssin tasolla. Nämä muodostavat yhdessä korkean tason kokonaisuu-

den. Semanttisella tasolla tarkastellaan sanojen merkityksiä. Tarkastelu voi kohdistua

yksittäiseen sanaan tai useiden sanojen yhdistelmään. Pragmaattisella tasolla mielen-

kiinnon kohteena on puheen tarkoitus. Diskurssi käsittelee puhetapahtumaa siihen

osallistuvien tahojen muodostamien puheenvuorojen kautta.

Kun puheen käsittelyn tekniikoita tarkastellaan edellä esitetyn jäsennyksen pohjalta,

voidaan tehdä karkea yleistys: perustekniikat työskentelevät alimman ja keskimmäi-

sen kokonaisuuden tasoilla. Puheen ymmärtäminen puolestaan operoi pääasiassa kor-

keimman ja keskimmäisen kokonaisuuden tasoilla. Jakoa tulee pitää lähinnä viitteelli-

senä.


Sivu 5

2.2 Puheen esittäminen digitaalisesti

Puhe esiintyy akustisella tasolla ilmanpaineen vaihteluina. Jotta tietokonepohjainen

puheen käsittely olisi mahdollista, on puhe muunnettava digitaaliseksi. Digitaalisesti

esitettyä puhetta voidaan käyttää sellaisenaan puhetulosteisiin. Digitaalinen puhe toi-

mii myös pohjana muille puheteknologioille, kuten puheentunnistukselle.

Puhetta käsitellään digitaalisesti tallentamalla alkuperäinen puhesignaali tai mallinta-

malla puheen tuottamismenetelmiä. Signaalin tallentaminen eli koodaus tapahtuu

akustisella tasolla ja mallintaminen lähinnä artikulatorisella tasolla. Näillä täysin toi-

sistaan poikkeavilla menetelmillä on omat etunsa ja haittansa. Puhesignaalin koodaa-

misessa on vaikeutena informaation tehokas esittäminen. Puheen mallinnuksen pää-

ongelmana on puheen laatu [Trancoso, 1996].

Lopputuloksen kannalta on tärkeintä saavutettu puheen esityksen taso. Atal ja Jayant

[1996] erottavat neljä kriteeriä, joiden avulla voidaan arvioida puhetta esittävien jär-

jestelmien suorituskykyä. Heidän kriteerinsä ovat puheen laatu, esityksen tiiviys,

kommunikointiin aiheutuva viive sekä menetelmän monimutkaisuus.

Puheen laatua kuvataan viisiportaisella MOS-asteikolla (mean-opinion score). Laadun

arviointi suoritetaan laajalla aineistolla, joka sisältää käyttäjien mielipiteitä siitä, onko

puheen laatu ala-arvoista, huonoa, välttävää, hyvää vai erinomaista. Esityksen tiiviyttä

ilmaistaan luvulla, joka kertoo kuinka monta bittiä tarvitaan kuvaamaan yhtä sekuntia

puhetta. Hyväksyttävät kommunikointiviiveet esitetään millisekunneissa ja algoritmi-

en monimutkaisuutta kuvataan laskentateho- sekä muistivaatimuksilla.

Käyttöliittymäsuunnittelijan tulisi aina suorittaa tekniikan evaluointi esimerkiksi

edellä esitettyjen kriteerien mukaisesti. Erityisen tärkeää tämä on puhetulosteissa, sillä

huonolaatuinen tai pitkiä kommunikointiviiveitä aiheuttava puhetuloste voi olla mer-

kittävä käyttöliittymäongelma. Myös puheentunnistuksessa on puheen digitaalisen

esityksen laadulla merkitystä. Aina tulisi varmistaa, että puheentunnistusjärjestelmä ja

sille syötteenä annettava puhe soveltuvat yhteen.

2.3 Puheentunnistus

Makhoul ja Schwartz [1994] määrittelevät automaattisen puheentunnistuksen (ASR,

Automatic Speech Recognition) prosessiksi, jossa jatkuva puhesignaali kuvataan jou-


Sivu 6

koksi diskreettejä elementtejä. Nämä elementit voivat olla äänteitä, sanoja tai lauseita.

Puheentunnistuksen päämääränä voidaan yleensä pitää tekstimuotoisen lauseen muo-

dostamista syötteenä saadusta analogisesta puhesignaalista. Tässä kohdassa esitetään

puheentunnistuksen periaate pääpiirteissään sekä käydään läpi merkittävimpiä proses-

sia haittaavia ongelmia.

2.3.1 Puheentunnistuksen periaate

Puheentunnistus perustuu kontekstisidonnaisten äänteiden eli allofonien etsimiseen

puhesignaalista. Kun puhesignaali kuvataan äänteiksi, käytetään prosessissa väli-

muotona signaalin ominaisuuksista muodostettuja malleja. Makhoul ja Schwartz

[1994] toteavat, että tunnistus on periaatteessa mahdollista suoraan signaalistakin. Pu-

hesignaali sisältää kuitenkin suuria vaihteluita, minkä vuoksi se on hyödyllistä nor-

malisoida ja muodostaa malli ainoastaan tärkeimmistä ominaisuuksista.

Kuvassa 2-2 esitetyssä puheentunnistuksen yleistetyssä mallissa on kolme peruspro-

sessia, puhesignaalin digitalisointi, signaalin ominaisuuksien analysointi sekä signaa-

lin ominaisuuksien vertailu ja ratkaisun hakeminen. Vertailussa ja etsinnässä käyte-

tään hyväksi malleja kielen ominaisuuksista ja puheen yksiköistä. Analogisen signaa-

lin muuntaminen digitaaliseksi suoritetaan useimmiten jo käyttöjärjestelmän tasolla.

Analoginenpuhesignaali

Muunnosanalogisestadigitaaliseksi

Muunnosanalogisestadigitaaliseksi

Signaalinominaisuuksien

analysointi

Signaalinominaisuuksien

analysointi

Digitaalinenpuhesignaali

Signaalinominaisuudet

Vertailuja ratkaisun

etsintä

Vertailuja ratkaisun

etsintä

Teksti-tuloste

Rakenteiset mallitRakenteiset mallit

Ominaisuuksien mallitOminaisuuksien mallit

Kuva 2-2: Yleinen puheentunnistusjärjestelmän rakenne.

Digitalisoidun signaalin käsittely tapahtuu tyypillisesti 10 tai 20 millisekunnin jak-

soissa. Ensimmäinen vaihe jakson käsittelyssä on sen ominaisuuksien erittely. Sig-

naalista erotetaan foneettisen tunnistamisen kannalta tärkeät osat. Erottelussa pyritään

karsimaan puhujasta johtuvat vaihtelut, kommunikaatiokanavan häiriöt sekä tunneti-


Sivu 7

lan yms. vaikutukset. Jakson keskeisistä piirteistä muodostetaan ominaisuusvektori,

jossa on tyypillisesti 10-20 tärkeimmäksi katsottua piirrettä [Hunt, 1996].

Ominaisuusvektoreiden perusteella etsitään signaalin todennäköisintä vastaavuutta

sanatasolla. Ratkaisun muodostamisessa käytetään hyväksi tietoutta kielen ja puheen

rakenteista sekä järjestelmän opetusvaiheessa saatuja äänteiden malleja. Makhoul ja

Schwartz [1994] painottavat rakenteisten mallien osuutta. Heidän mukaansa näihin si-

sältyy huomattava osa siitä tiedosta, mikä meillä on kielen rakenteesta ja puheen

tuottamisesta sekä havainnoinnista.

Käytetyin menetelmä äänteiden mallintamiseen on 1970-luvulla puheentunnistukseen

sovellettu HMM (hidden Markov models). Tämä malli pohjautuu todennäköisyyksiin,

minkä ansiosta sen tärkeimpiä ominaisuuksia ovat opetusvaiheessa tapahtuva auto-

maattinen mallien muodostaminen sekä joustavuus signaalin variaatioiden käsittelys-

sä. De Morin ja Brugnaran [1996] mukaan HMM tarjoaa tarpeeksi vahvan pohjan pu-

heen variaatioiden käsittelyyn ja on samalla tarpeeksi joustava laajojen järjestelmien

toteuttamiseen.

2.3.2 Puheentunnistuksen ongelmia

Puheentunnistusta haittaa joukko ongelmia, joiden seurauksena tunnistusprosessi voi

epäonnistua. Suurimpana esteenä virheettömälle puheentunnistukselle pidetään puhe-

signaalissa esiintyviä vaihteluita. Zue, Cole ja Ward [1996] esittävät signaalin variaati-

oille kolme päälähdettä: lingvistiset vaihtelut, akustiset vaihtelut sekä henkilöihin liit-

tyvät vaihtelut.

Lingvistinen vaihtelu käsittää fonetiikkaan, syntaksiin, semantiikkaan ja puheen dis-

kurssiin liittyviä tekijöitä. Erityisenä ongelma pidetään äänteiden kontekstisidonnaista

luonnetta. Akustiset vaihtelut voivat aiheutua joko kommunikointiväylästä tai ympä-

ristötekijöistä. Henkilöihin liittyvät vaihtelut voivat olla puhujan sisäisiä tai erilaisiin

puhujiin liittyviä. Puhujan sisäiset vaihtelut liittyvät artikulaatioon, tunnetilaan ja pu-

henopeuteen. Puhujien välisiin eroihin liittyvät akustiset vaihtelut johtuvat mm. sosi-

aalisesta taustasta ja puheenmuodostamiseen liittyvistä fyysisistä tekijöistä.

Luonnollinen puhe on usein jatkuvaa ja spontaania. Se sisältää Cohenin ja Oviattin

[1994] mukaan mm. epäröintiä, vääriä aloituksia, korjauksia, katkoja sekä muita kieli-


Sivu 8

oppiin kuulumattomia ominaisuuksia. Heidän mukaansa nämä seikat tulisi havaita ja

korjata puheesta ennen jatkotoimenpiteitä. On kuitenkin syytä huomata, että näitä

elementtejä voidaan hyödyntää puheen ymmärtämisessä diskurssitasolla [Price, 1996].

2.4 Puheentunnistusjärjestelmien ominaisuuksia

Puheentunnistus on vielä melko puutteellista. Kaikkiin tilanteisiin soveltuvaa järjes-

telmää ei ole onnistuttu kehittämään. Tämän vuoksi tarkoitukseen soveltuvan järjes-

telmän valitseminen muodostaa tärkeän osan puhesovellusten suunnittelua. Käyttö-

liittymäsuunnittelun kannalta pohjalla olevan teknologian ominaisuuksien tunteminen

onkin ensiarvoista, sillä sen katsotaan hallitsevan sovelluksien suunnittelua [Mane et al.,

1996].

Olen koonnut taulukkoon 2-1 keskeisimpinä pitämiäni puheentunnistusjärjestelmien

ominaisuuksia. Oikeanpuolimmaisessa sarakkeessa ovat vaikeimmin toteutettavat,

mutta käytettävyyden kannalta tärkeimmät seikat. Esitystä ei pidä tulkita kategorioi-

vana, vaan lähinnä pyrkimyksenä luonnehtia järjestelmien pääpiirteitä.

Sanasto ja kieli

Sanaston koko suppea keskikokoinen laaja

Kielioppi fraasit sanaverkko säännöt

Laajennettavuus kiinteä dynaaminen

Puheen luonne

Puhuja riippuva mukautuva riippumaton

Tyyli sana kerrallaan havaitseminen jatkuva

Olosuhteet

Ympäristö optimaalinen häiriötekijöitä

Kanava erinomainen huonolaatuinen

Taulukko 2-1: Puheentunnistusjärjestelmien keskeiset ominaisuudet.

2.4.1 Sanasto ja kieli

Eräs järjestelmien tärkeimmistä ominaisuuksista on sanavaraston laajuus. Schmandt

[1994, 140] luokittelee järjestelmät tämän piirteen mukaan kolmeen ryhmään sen mu-

kaan, onko sanavarasto suppea (alle 200), keskikokoinen (200-5000) vai laaja (yli

5000). Tämän esimerkkiluokittelun lisäksi voidaan muodostaa muitakin luokitteluja.

Suppea sanavarasto soveltuu parhaiten komentoluonteiseen puheeseen. Keskikokoi-


Sivu 9

sella sanavarastolla voidaan jo toteuttaa useimmat keskustelupohjaiset ratkaisut. Laa-

jaa sanavarastoa hyödynnetään toistaiseksi lähinnä sanelukäytössä.

Sanavaraston koon lisäksi myös käytössä oleva kielioppi on tärkeä järjestelmän käyt-

töön vaikuttava seikka. Kielioppi vaikuttaa suuresti myös järjestelmän tunnistuskyky-

kyyn. Ilman mitään kielioppisääntöjä kaikki sanojen yhdistelmät ovat yhtä todennä-

köisiä. Tämä lähestymistapa ei ole missään nimessä sen paremmin luonnollinen kuin

tehokaskaan.

Yksinkertaisimmillaan järjestelmän kielioppi koostuu joukosta ennalta kiinnitettyjä

fraaseja, joissa ei sallita minkäänlaisia variaatioita. Tämä lähestymistapa soveltuu lä-

hinnä komentopohjaisiin sovelluksiin. Useimmiten kielioppi on kuitenkin joustavam-

pi. Se voidaan esittää sanaverkkona, luonnollisen kielen sääntöinä tai tilastollisesti

sanojen esiintymistodennäköisyyksinä. Kieliopissa on myös mahdollista hyödyntää

sovellusalueen alakohtaisia erikoispiirteitä.

Laajennettavuus on kolmas tärkeä seikka, joka liittyy puheentunnistusjärjestelmien

sanavarastoon. Laajennettavan sanavaraston avulla voidaan järjestelmä muokata vas-

taamaan käyttäjien tarpeita. Puheohjatun selaimen käytettävyystestien pohjalta on

syytä olettaa, että ongelmallisten komentojen vaihtaminen eli henkilökohtaisen sa-

naston luominen voisi vähentää tunnistusvirheitä merkittävästi.

2.4.2 Puheen luonne

Käyttäjien kannalta tärkein seikka lienee se, onko järjestelmä puhujasta riippumaton

vai ei. Puhujasta riippuvaisessa järjestelmässä vaaditaan jonkin asteinen ”sisäänkir-

joittautuminen”, mikä tarkoittaa käytännössä joukkoa käyttäjän lausumia, ennalta

määritettyjä sanoja tai lauseita. Puhujasta riippumaton järjestelmä on ainakin periaat-

teessa heti käytettävissä.

Jako puhujasta riippuvaisiin ja riippumattomiin järjestelmiin ei ole tiukka. Selkeimpä-

nä välimuotona voidaan erottaa puhujaan sopeutuvat järjestelmät. Näissä järjestelmä

sopeuttaa toimintaansa käyttäjän puhetapaan. Tällöin järjestelmän suorituskyky voi

parantua huomattavastikin oppimisen myötä.

Edellä mainittujen kolmen päätyypin lisäksi käytännön järjestelmissä esiintyy erilaisia

hybridiratkaisuja. Järjestelmä voi esimerkiksi olla puhujasta riippumaton, mutta tar-


Sivu 10

jota paremman suorituskyvyn, mikäli käyttäjä harjoittaa sen omaan puheeseensa.

Huomionarvoinen piirre on myös vaadittavan opetus- tai sopeutumisajan kesto; par-

haimmillaan järjestelmä tarvitsee ainoastaan muutaman minuutin opetukseen, kun taas

toisessa ääripäässä vaihe voi kestää useita tunteja.

Olemme tottuneet sujuvaan, jatkuvaan puheeseen, jossa ei ole taukoja sanojen välis-

sä. Puheentunnistusjärjestelmän on kuitenkin huomattavasti helpompi ymmärtää pu-

hettamme, mikäli sanojen välissä on selkeät tauot. Useimmat laajan sanavaraston ja

joustavan kieliopin omaavat järjestelmät pystyvätkin erottamaan ainoastaan selkeästi

toisistaan erillisinä lausutut sanat.

Jatkuvaa puhetta ja erillisiä sanoja tunnistavien järjestelmien lisäksi on olemassa yk-

sittäisiä sanoja lauseista havaitsevia järjestelmiä. Sanojen havaitseminen (word-

spotting) on mielenkiintoinen tekniikka, sillä se mahdollistaa luonnollisen kaltaisen

puhesyötteen, mutta ei vaadi varsinaista luonnollisen kielen ymmärtämistä. Tämä tek-

niikka olisi ollut ihanteellinen ratkaisu puheohjatun selaimen toteutukseen, mutta va-

litettavasti sanojen havaitsemista tukevat järjestelmät eivät ole vielä yleisiä.

2.4.3 Olosuhteet

Puheentunnistusjärjestelmiä on kritisoitu paljon siitä, etteivät ne useinkaan toimi hy-

vin muissa kuin optimaalisissa olosuhteissa. Tunnistukseen joskus dramaattisestikin

vaikuttavia olosuhdetekijöitä ovat mm. ympäristötekijät (taustamelu, huoneen akus-

tiikka jne.) sekä kommunikointikanava (mikrofoni, puhelinverkko). Osaan näistä te-

kijöistä voidaan vaikuttaa esim. vaihtamalla mikrofoni parempaan, toisiin taas on

useimmiten mahdotonta puuttua. Uskon, että ongelmallisissa olosuhteissa toimivien

järjestelmien tarve kasvaa entisestään julkisten ja hajautettujen sovellusten yleistyes-

sä.

2.4.4 Muita seikkoja

Sanaston ulkopuoliset sanat ovat kiusallinen ongelma, mikäli niitä ei pystytä erotta-

maan. Selainta testattaessa tuli eteen tilanteita, joissa käyttäjä antoi järjestelmälle

tuntemattoman komennon. Järjestelmä ei tunnistanut komentoja virheellisiksi, vaan

antoi niille niin hyvän tunnistustodennäköisyyden, että komennot otettiin huomioon,

luonnollisesti jossain muussa merkityksessä kuin miksi käyttäjä oli ne tarkoittanut.


Sivu 11

Olisi ehdottoman tärkeää, että järjestelmä pystyisi ehkäisemään edellä kuvatun kaltai-

set tilanteet. Makhoul ja Schwartz [1994] ehdottavat ratkaisuksi ulkopuolisten sanojen

lisäämistä sanavarastoon. Tämä ratkaisu tietysti edellyttää sanojen havaitsemista ja

tunnistamista sekä järjestelmän valmiutta dynaamiseen sanavarastoon ja kielioppiin.

Valitettavasti ulkopuolisten sanojen tunnistaminen on jo sinällään ongelmallista.

Myös järjestelmän sovelluskohteen luonteesta johtuvat kriteerit saattavat olla merkit-

täviä. Eräs tällainen asia on järjestelmän tunnistusyksikkö eli taso, jolla järjestelmä

antaa tulosteensa. Useimpiin tilanteisiin riittää sanataso, mutta on olemassa myös so-

velluksia, jotka vaativat tulosten äännetasoista erittelyä. Sovellusten kehitystyön kan-

nalta taas on tärkeää ohjelmointirajapinta.

2.5 Puheentunnistusjärjestelmien evaluointi

Ominaisuuksien tuntemisen lisäksi sovelluskehittäjän on syytä olla perillä puheentun-

nistusjärjestelmän suorituskyvystä. Suorituskyvyn mittaamisessa on kaksi osatekijää,

tehtävän ja teknologian evaluointi [Furui, 1994]. Teknisestä perspektiivistä katsottuna

suorituskyky määräytyy pitkälti järjestelmän kyvystä tunnistaa sanat oikein. Virheet-

tömyyttä mitataan vertaamalla väärin tulkittujen, pois jääneiden ja lisättyjen sanojen

suhdetta alkuperäiseen viestiin. Näin saadaan virhetason määritelmä:

Virhetaso =Muuttuneet + Poistetut + Lisätyt

Alkuperäisen viestin sanat 100

Virhetason rinnakkaisarvo eli oikein tunnistettujen sanojen osuus on vastaavasti mää-

riteltynä tunnistustaso.

Virhetasojen vertaaminen ei ole mielekästä voimakkaasti toisistaan poikkeavien jär-

jestelmien kesken. Järjestelmien suorittamien tunnistustehtävien vaikeutta kuvataan

kielen kompleksisuudella (perplexity). Kielen kompleksisuutta voidaan arvioida yk-

sinkertaistetusti sanaston koon ja peräkkäisten sanojen esiintymistodennäköisyyksien

pohjalta. Paras tapa selvittää kahden tehtävän välistä kompleksisuutta on mitata niitä

puheentunnistusjärjestelmien tuottamilla virheillä [Roukos, 1996].

Käytännön järjestelmien virhetasot vaihtelevat hyvin paljon tehtävien mukaan. Alhai-

simmat virhetasot saavutetaan yksinkertaisissa tehtävissä, kuten numeroiden tunnis-

tuksessa. Tällöin päästään jopa 0.3%:n virhetasolle. Kompleksisissa tehtävissä, kuten


Sivu 12

spontaaneissa puhelinkeskusteluissa virhetaso on 50%:n luokkaa [Zue et al., 1996].

Kielen monimutkaisuus vähenee mitä kauemmaksi normaalista puhekielestä tullaan;

kaikkein pienimmillään se on suppeilla erikoisaloilla. Usein esitetäänkin alakohtaisia

kielen malleja osaratkaisuksi tunnistuksen ongelmiin.

Virhetasoja tulkittaessa tulee aina ottaa huomioon tehtävän vaatimukset. Toisiin teh-

täviin 10%:n virhetaso on aivan riittävä; toisissa käyttökelpoisuus saavutetaan vasta

alle 1%:n luokkaa olevalla virhetasolla. On myös muistettava, ettei tehokkuus yksi-

nään ole ratkaiseva tekijä: esimerkiksi synteettinen puhe voi olla hyvinkin ymmärret-

tävää, mutta useat ihmiset eivät halua sitä käyttää, koska he eivät pidä sitä miellyttä-

vänä.

Nykyisellä kehitystasolla voidaan puheentunnistusta soveltaa useille aloille ilman ras-

kaita erityisvaatimuksia. Visiot luonnollista puhetta virheettömästi tunnistavista jär-

jestelmistä ovat kuitenkin vielä kaukana nykytodellisuudesta. Olosuhdetekijät ovat

erityisen merkityksellisiä: puheohjatun selaimen käyttäjätestien tulokset osoittivat,

että kehitystyön kokemusten perusteella arvioitu 5%:n virhetaso oli testiolosuhteissa

lähes 15%:a. Näin suuri ero on vuorovaikutukseen dramaattisesti vaikuttava tekijä.

Järjestelmien evaluointiin voidaan käyttää muitakin kriteereitä kuin virhetasoa. Puhe-

ohjatun selaimen tapauksessa kiinnosti tunnistamisen nopeus, mikä on reaaliaikaisissa

sovelluksissa erittäin tärkeä käytettävyyteen vaikuttava seikka. Vasteajan merkitys

korostuu etenkin silloin, kun riittävää palautetta ei ole saatavilla (esim. puhelinlinjan

välityksellä tapahtuva kommunikointi).

2.6 Puheen syntetisointi

Puheen käsitteleminen signaalimuotoisena ei ole aina mielekästä. Ongelmia muodos-

tavat mm. signaalin suuri tilantarve ja kielen rikkaudesta aiheutuva tarvittavien sano-

jen paljous. Synteettisen puheen vahvoja puolia ovatkin juuri taloudellisuus ja jousta-

vuus. Pieni tilantarve mahdollistaa laajat keskustelupohjaiset järjestelmät. Joustavuus

taas tekee synteettisesta puheesta vahvan käyttöliittymäelementin, etenkin näköra-

joitteisille [Raman, 1997].

Puheen syntetisoinnin päämääränä pidetään syötteenä saadun tekstin muuntamista

puhesignaaliksi. Vaikka syöte voidaan antaa muussakin muodossa kuin merkkijonona


Sivu 13

[Liberman, 1994], tarkastellaan tässä syntetisointia nimenomaan puheen tuottamisena

merkkijonosyötteestä. Tekstin muuntaminen syntetisoiduksi puheeksi koostuu kah-

desta päävaiheesta. Ensimmäiseksi annettu merkkijono muunnetaan puheen perusyk-

siköiksi, äänteiksi. Toisessa vaiheessa äänteistä muodostetaan digitaalinen puhesig-

naali.

Ensimmäinen vaihe syötteen käsittelyssä on sen muuntaminen joukoksi peräkkäisiä

sanoja. Sanoista muodostuva teksti normalisoidaan ennen jatkokäsittelyä. Normali-

soinnissa tekstissä esiintyvät symbolit ja lyhenteet korvataan kontekstiin sopivilla il-

maisuilla. Tähän käytetään sääntöjä tai tilastollisia menetelmiä. Normalisoidun tekstin

sanat muunnetaan äänteiksi käyttämällä hyväksi sekä leksikaalisia sääntöjä että sa-

nastoa. Vaikka sanasto voikin kattaa yli 99% kaikista sanoista, tarvitaan molempia

menetelmiä hyvään lopputulokseen pääsemiseksi [Allen, 1994].

Suora sanojen muuntaminen äänteiksi ei ole vielä riittävä keino ymmärrettävän ja

luonnollisen puheen tuottamiseksi. Äänteisiin vaikuttaa useita tekijöitä, joista tär-

keimpiä ovat tavujen painotus, koartikulaatio sekä erilaiset prosodiset tekijät

[Schmandt, 1994, 87]. Koartikulaatio tarkoittaa äänteiden riippuvuutta edeltävistä ja seu-

raavista äänteistä. Prosodisia tekijöitä ovat mm. äänteiden, sanojen ja tavujen keston

sekä painotuksen kontrollointi. Ongelmallista varsinkin prosodian kohdalla on se, että

vaikuttavat tekijät voivat esiintyä aina diskurssitasolla asti [Allen, 1994].

Äänteistä muodostetaan puhesignaali joko mallintamalla ihmisen äänentuotantomeka-

nismia tai puhesignaalin akustisia ominaisuuksia. Näiden kahden täysin synteettisen

menetelmän lisäksi voidaan myös yhdistellä luonnollisen puheen osia [d’Alessandro &

Liénard, 1996]. Kiinnostavimpana menetelmänä pidetään äänentuotantoa jäljittelevää

mallia. Siihen liittyy kuitenkin joukko sekä teoreettisia että käytännöllisiä ongelmia,

joita Carlsonin [1994] mukaan voidaan lähestyä mm. hermoverkoilla. Toistaiseksi

kuitenkin suurin osa puheen syntetisoinnista tapahtuu joko jäljittelemällä puhesignaa-

lin akustisia ominaisuuksia tai yhdistelemällä äänitietokannan elementtejä.

Syntetisoidun puheen laatua arvioidaan kahdella kriteerillä: ymmärrettävyydellä ja

luonnollisuudella. Nykyisin synteettistä puhetta pidetään yleisesti hyvin ymmärrettä-

vänä. Luonnollisuuden kanssa on sen sijaan vielä paljon tehtävää. Tämä muodostaa-

kin ongelman, sillä nimenomaan luonnollisuutta pidetään yhtenä vahvimmista puheen

käyttöä puoltavista ominaisuuksista.


Sivu 14

2.7 Puheen merkityksen käsittely

Perusteknologiat käsittelevät puhetta akustiselta tasolta aina syntaksin tasolle asti.

Jotta voimme rakentaa kehittyneitä järjestelmiä, tarvitsemme menetelmiä myös kor-

keampien tasojen eli puheen merkityssisältöjen käsittelyyn. Useimmiten nämä mene-

telmät perustuvat luonnollisen kielen käsittelyyn.

Luonnollisen kielen käsittelyn menetelmiä voidaan hyödyntää sekä puheen tunnistuk-

sen että puheen tuottamisen osana. Puheen ymmärtämisessä on kysymys merkityksen

etsimisestä syötteenä saadulle puheelle. Puheen tuottamisessa taas on kysymys luon-

nollisten lauseiden tuottamisesta annetun sisällön pohjalta. Tärkeintä molemmissa

tapauksissa on puheen olennaisen sisällön ymmärtäminen ja tämän yhteys luonnolli-

seen kieleen.

Puhutun kielen ymmärtäminen sisältää kaksi komponenttia, puheen tunnistamisen ja

luonnollisen kielen käsittelyn. Integroimalla nämä komponentit voidaan parantaa

molempien lopputulosta. Luonnollisen kielen käsittely voi avustaa tunnistusprosessia

tarjoamalla merkityksen tunnistettaville sanoille [Hirschman, 1994]. Puheentunnistus voi

puolestaan helpottaa prosodisen informaation kautta kielen käsittelyä [Price, 1996].

Yksinkertaisin tapa prosessoida puhuttua kieltä on välittää puheentunnistuskompo-

nentin lopputulos luonnollista kieltä käsittelevälle komponentille jatkotoimenpiteitä

varten. Tämä naiivi lähestymistapa kärsii kuitenkin puutteista, joita aiheuttavat mm.

puheen eroaminen merkittävästi kirjoitetusta tekstistä, puheentunnistusjärjestelmien

rajoitukset sekä tunnistuksessa häviävä informaatio [Moore, 1994].

Käytetyin menetelmä puheentunnistuksen ja luonnollisen kielen käsittelyn yhdistämi-

seksi lienee erilaiset N-Best–liittymän variaatiot. Tässä menetelmässä puheentunnis-

tusjärjestelmä välittää halutun määrän parhaiksi toteamiaan hypoteeseja järjestelmän

luonnollista kieltä käsittelevälle osalle. Hypoteesit arvotetaan ja esitetään tämän mu-

kaisessa järjestyksessä. Tiukempaan integrointiin on kehitetty sanaverkkoihin perus-

tuvia jäsentäjiä, dynaamisia kielioppiverkkoja sekä kehittyneitä N-Best-muunnelmia

[Moore, 1994]. Näissä menetelmissä osien vuorovaikutus on kaksisuuntaista.

Keskustelupohjaiseen käyttöliittymään kuuluu olennaisena osana tietokoneen antamat

vastaukset tuottava komponentti. Sen tehtäviin kuuluu päättää milloin tarvitaan tulos-

teita ja lisäkysymyksiä, tuottaa sisältö käsiteltävän tietosisällön, kontekstin ja dialogin


Sivu 15

tilan pohjalta, muotoilla näistä selkeä lauserakenne sekä koordinoida keskustelun kul-

kua suhteessa muihin tulosteisiin [Price, 1996]. Sovellustasolla on kuitenkin vaikea

erottaa luonnollista kieltä käsittelevän komponentin osuus sovelluksen muiden kom-

ponenttien osuudesta [Bates, 1994].

2.8 Lopuksi

Puheen käsittelyyn liittyvät tekniikat ovat laajan kehitystyön kohteena. Edistystä ta-

pahtuu sekä kehittämällä edelleen toimivaksi osoittautuneita ratkaisuja että tutkimalla

kokonaan uusia ratkaisuja ja apumenetelmiä. Puheen käsittelyn eri osa-alueet eivät ole

myöskään erillisiä vaan omaavat yhteisiä menetelmiä ja voivat näin hyötyä myös

toistensa edistysaskeleista.

Useimmat puheen käsittelyyn liittyvät menetelmät ovat perusluonteeltaan ilmiöitä

aproksimoivia; esimerkiksi puheentunnistuksen tulisi ihanteellisesti pohjautua kuule-

misen mallintamiseen. Tietomme näistä ilmiöistä ei kuitenkaan ole läheskään riittä-

vällä tasolla. Tämän vuoksi tarvitaan erilaisia vaihtoehtoisia menetelmiä, joiden par-

haita puolia yhdistelemällä voidaan saavuttaa useimpiin tarkoituksiin käyttökelpoinen

taso. Eräs mahdollisuus on visuaalisen informaation käyttäminen tunnistuksen tukena.

Visuaalista informaatiota voidaan hyödyntää mm. hahmontunnistuksen, katseen seu-

rannan ja huulten asentojen kautta.

Puhesovellusten suunnittelu ja toteuttaminen on prosessi, joka nojaa poikkeuksellisen

paljon teknologisiin lähtökohtiin. Ellei teknisiä mahdollisuuksia tunneta ja osata

käyttää hyväksi, on vaarana epäsoveltuvien ratkaisujen käyttäminen ja mahdollisuuk-

sien hukkaaminen. Tämä toimii myös toisin päin: teknologian rajoituksia on mahdol-

lista kompensoida onnistuneilla käyttöliittymäratkaisuilla. Tämä asettaakin puheso-

vellusten suunnittelijat vaativaan rooliin.

PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU

Sivu 16

3 PUHESOVELLUSTEN SUUNNITTELU JA EVALUOINTI

Puheen käyttämisellä uskotaan olevan dramaattinen vaikutus ihmisen ja tietokoneen

välisen kommunikoinnin laatuun. Uskotaan myös, että puhe mahdollistaa tietokonei-

den käytön entistä useammille ihmisille. Kuitenkin puheen käyttäminen ihmisen ja

tietokoneen välisessä viestinnässä on melko vähäistä. Osaltaan tähän vaikuttaa se, et-

tei puheen soveltamisen menetelmiä tunneta vielä riittävästi. Kehittyneiden puheso-

vellusten tuottamiseksi tarvitaan paitsi edistyksiä teknologiassa myös lisätietoutta pu-

heen sovellusmahdollisuuksista.

Tässä luvussa esittelen puheen käyttöä käyttöliittymäsuunnittelun näkökulmasta. En-

simmäiseksi käsitellään puhetta käyttöliittymäelementtinä. Seuraavassa kohdassa tar-

kastellaan puhetta osana multimodaalisia käyttöliittymiä. Puheen merkittävimpiä

ominaisuuksia ja keskeisimpiä käytössä huomioonotettavia seikkoja esitellään tämän

jälkeen. Loppuosa luvusta keskittyy puhesovellusten suunnitteluun, evaluointiin sekä

empiirisiin tutkimuksiin. Lopuksi esitän joitakin kommentteja puhesovellusten suun-

nittelusta.

3.1 Puhe käyttöliittymäelementtinä

Puhetta voidaan hyödyntää käyttöliittymäelementtinä monin tavoin ja useissa eri yh-

teyksissä. Puhesovelluksien toteutuksen kannalta on tärkeää valita näkökulma heti

suunnittelun alkuvaiheessa. Suunnittelun kannalta tärkeitä seikkoja ovat puheen ase-

man, ymmärtämisen tason ja kommunikaation suunnan määrittäminen. On myös hyö-

dyllistä tuntea puheen erot graafiseen suorakäyttöliittymään.

3.1.1 Puheen asema käyttöliittymässä

Kun puhe on pääasiallisin syötteiden antamistapa, käytetään usein termiä puhekäyttö-

liittymä (SUI). On syytä huomata, ettei pääasiallinen puheen käyttö kuitenkaan sulje

pois muiden syötekanavien mahdollisuutta. Kun puhetta käytetään syötteiden antami-

seen tasavertaisesti yhdessä muiden kommunikointimenetelmien kanssa, on kyse

multimodaalisesta käyttöliittymästä.

Auditiivinen käyttöliittymä (AUI) ei käytä perinteistä näyttöä vaan hoitaa tulosteet

syntetisoidun puheen kautta. Multimediakäyttöliittymässä puhetta käytetään yhtenä

mahdollisena tulostemuotona tehostamaan kommunikointia ja luomaan viihtyvyyttä.


Sivu 17

Käyttöliittymä voi olla myös täysin puheeseen pohjautuva, jolloin sekä kaikki tulos-

teet että syötteet hoidetaan puhetta käyttäen.

Tässä tutkimuksessa asioita käsitellään lähinnä puhekäyttöliittymän näkökulmasta,

sillä puheohjattu selain kuuluu tähän ryhmään. Jatkokehityksen myötä on tarkoitukse-

na laajentaa syöte- ja tulostevalikoimaa myös multimodaalisuuden ja multimedian

suuntaan. Tämän vuoksi asioita käsitellään hieman laajemmin kuin mitä pelkkä puhe-

käyttöliittymän näkökulma vaatisi.

3.1.2 Puheen ymmärtämisen taso

Cohen ja Oviatt [1994] käsittelevät puheentunnistuksen sovelluksia sen mukaan, halu-

taanko tunnistus suorittaa tekstin tasolla vai onko päämääränä puheen tarkoituksen

ymmärtäminen. Samaa erottelua voidaan mielestäni käyttää myös puhetta tulosteena

käyttäviin sovelluksiin. Puheen tarkoituksen ymmärtäminen liitetään usein luonnolli-

sen kielen ymmärtämiseen, jota käsiteltiin kohdassa 2.7.

Puheen tarkoituksen ymmärtäminen ei kuitenkaan vaadi kaiken sanotun ymmärtä-

mistä, sillä tärkeintä on saada selville se, mihin puheella pyritään. Puheen tarkoituk-

sen ymmärtäminen liittyykin läheisesti käyttäjän suorittaman tehtävän tavoitteen ym-

märtämiseen. Tehtävän tavoite voi olla hyvinkin selkeästi esitetty jo käyttöliittymän

rakenteessa (esim. lomakkeen täyttö). Usein tehtävän tavoite on kuitenkin vaikeam-

min pääteltävissä.

Puheohjatun selaimen kehittämisessä voidaan puheen ymmärtämistä hyödyntää erityi-

sesti virhetilanteiden hallinnassa. Käyttäjätesteissä havaittiin, että kontekstitietous

mahdollistaa yksinkertaisen puheen ymmärtämisen, jos käytettävissä on N-Best sana-

lista (ks. kohta 2.7). Tällöin on mahdollista vähentää virheitä arvioimalla puheentun-

nistusjärjestelmän hypoteesien mielekkyyttä tehtävän näkökulmasta. Tämä ratkaisu ei

edellytä lainkaan varsinaista luonnollisen kielen käsittelyä, mutta mahdollistaa irrot-

tautumisen pelkästä tekstitason tunnistuksesta.

3.1.3 Kommunikaation suunta

Käyttöliittymän luonnetta määrää paljon kommunikaation suunta. Kommunikaatio voi

olla yksisuuntaista, käyttäjältä järjestelmälle tai järjestelmältä käyttäjälle. Se voi olla

myös keskustelupohjaista eli käyttäjän ja järjestelmän välistä dialogia. Perinteinen


Sivu 18

suorakäyttöinen liittymähän on melko yksisuuntainen aloitteen tekemisen ollessa pää-

osin käyttäjällä. Osa puheeseen perustuvista käyttöliittymistä sen sijaan pitää vuoro-

puhelun ohjauksen tiukasti itsellään.

Järjestelmän kommunikatiivinen luonne määrää pitkälti, millainen suunnittelu sovel-

tuu parhaiten tilanteeseen. Jos aloitteen tekeminen on pääosin järjestelmän hallussa

(esim. henkilötietojen kysely puhelimen välityksellä), keskustelun kulkua voidaan

mallintaa esim. äärellisellä automaatilla. Komentopohjaisissa sovelluksissa taas vali-

taan usein helpoin mahdollinen vaihtoehto eli tarjotaan käyttäjälle jatkuvasti kaikki

mahdolliset komennot käytettäväksi. Puhesovelluksissa tämä ei ole kovin hedelmälli-

nen lähestymistapa: käyttämällä kontekstisidonnaista kielioppia ja sanavarastoa pys-

tytään vaikuttamaan esim. tunnistuksen virhetasoihin merkittävästi.

Puheohjatun selaimen tapaisiin reaaliaikaisiin järjestelmiin soveltuu parhaiten käyttä-

jän aloitteeseen pohjautuva kommunikointimalli. Tämä ei kuitenkaan tarkoita, että

kommunikaation tulisi olla täysin yksisuuntaista. Järjestelmä voi tehdä aloitteen mm.

virhetilanteiden yhteydessä. Tämän tulee kuitenkin olla tarkoin harkittua, sillä vaarana

on reaaliaikaisuuden väheneminen. Keskustelupohjainen malli onkin mielenkiintoi-

nen, mutta vaikeasti hyödynnettävä lähestymistapa.

3.1.4 Puheen ja graafisen suorakäyttöliittymän eroista

Puhetta hyödyntävä käyttöliittymä eroaa huomattavasti totutusta: esimerkiksi käyttä-

jän toimintojen havaitseminen on puheentunnistuksessa erittäin virhealtis tapahtuma,

kun taas perinteisen käyttöliittymän näkökulmasta se on hyvin triviaali seikka [Brad-

ford, 1995]. Tämän perustavanlaatuisen seikan lisäksi puheella on monia muitakin eroja

suhteessa perinteisiin käyttöliittymiin.

Cohen ja Oviatt [1994] analysoivat suorakäyttöisyyden ja luonnollisen kielen vahvuuk-

sia ja heikkouksia. He havaitsivat suorakäyttöisyyden edullisemmaksi, kun käsiteltä-

vät objektit ovat näkyvillä, ne ovat tunnettuja eikä niitä ole liikaa valintatilanteissa.

Lisäksi suorakäyttöisyys vähentää mahdollisia virheitä, koska valintoja on rajoitettu.

Luonnollista kieltä taas suosivat Cohenin ja Oviattin mukaan tilanteet, joissa on tarve

käsitellä objekteja, toimintoja ja tapahtumia joukosta, jota ei pystytä esittämään ker-

ralla tai tutkimaan yksityiskohtaisesti. Myös toimintojen ajallisen siirtämisen mah-


Sivu 19

dollisuus ja asioiden esittäminen käyttäjän omalla kielellä sekä monimutkaisten kuva-

uksien nopea ilmaiseminen ovat luonnolliselle kielelle sopivia käyttökohteita.

Koska rajoittamaton luonnollinen kieli ei ole vielä puheentunnistuksen saavutettavis-

sa, osa edellä kuvatuista puheen eduista jää toistaiseksi hyödyntämättä. Tulee myös

huomata, että kun puhetta käytetään korvaamaan suorakäyttöisyyttä, tulee erityistä

huomiota kiinnittää niihin asioihin, jotka ovat suorakäyttöisyyden vahvoja alueita.

Todennäköisimmät puhesovelluksen käytettävyysongelmat ovat tällöin odotettavissa

juuri näillä alueilla.

3.2 Puhe multimodaalisissa käyttöliittymissä

Multimodaalisella lähestymistavalla pyritään ehkäisemään virheitä, parantamaan jär-

jestelmään luotettavuutta, avustamaan virheiden korjausta sekä tarjoamaan vaihtoeh-

toisia kommunikointitapoja erilaisiin tilanteisiin ja olosuhteisiin [Cohen & Oviatt, 1994].

Multimodaalisuus saattaa myös nopeuttaa kommunikointia ja tehdä käyttöliittymän

luonnollisemmaksi sekä mahdollistaa toisten kommunikointimuotojen simuloinnin

esim. vammaisille käyttäjille [Smith et al., 1996].

Multimodaalisen käyttöliittymän suunnittelun kannalta tärkein seikka on sopivimpien

modaliteettien valitseminen kuhunkin tehtävään. Koska eri modaliteetteja käytetään

harvoin tasapuolisesti, multimodaalisiin käyttöliittymiin voidaankin tehdä jako sen

perusteella, onko käyttöliittymä perusluonteeltaan graafinen vai puheeseen pohjautu-

va. Cathy Wolf [Mane et al., 1996] esittää näkökohtia, joissa eritellään multimodaalisuu-

den hyötyjä molemmissa vaihtoehdoissa.

Graafisissa käyttöliittymissä puhetta voidaan käyttää viittaamaan asioihin, jotka eivät

ole suoraan saavutettavissa sekä määrittelemään objekti ja siihen kohdistuva toiminto.

Objektin ja toiminnon määritteleminen voi tapahtua joko yhdessä osassa (”kopioi ot-

sikko kolmannelle sivulle”) tai rinnakkain (”siirrä tämä tähän”). Tulosteena puhetta

voidaan hyödyntää tarjoamalla käyttäjälle informaatiota muuttamatta kuvaruudun ti-

laa. Viimeiseksi mainittu seikka on tärkeä erityisesti vahvasti visuaaliseen ilmaisuun

pohjautuvissa sovelluksissa. Selaimen käyttäjätesteissä havaittiin, että palautetta seu-

rattiin hyvin vähän. Uskon, että käyttämällä puhetulosteita voidaan tätä seikkaa pa-

rantavaa merkittävästi.


Sivu 20

Puheeseen perustuvissa käyttöliittymissä grafiikkaa voidaan käyttää palautteen antoon

ja varmistuksiin, muistin tukena, kehotteisiin, osoittamaan objekteja sekä varameka-

nismina. Grafiikan etuja tulosteena on sen nopeus puheeseen verrattuna; näppäimistön

ja hiiren käyttäminen taas on perusteltua paitsi varamekanismina myös vaihtoehtoi-

suuden kannalta.

Edellä multimodaalisuutta on käsitelty pelkästään puheen ja graafisten suorakäyttö-

liittymien näkökulmasta. Monipuolisemmissa multimodaalisissa käyttöliittymissä,

joissa voidaan käyttää hyväksi mm. katseohjausta, eleitä ja hahmontunnistusta, tulee

samoin etsiä kullekin modaliteetille sopivimmat käyttökohteet ja välttää modaliteetille

ongelmallisia tilanteita. Itse uskon etenkin katseohjauksen sopivan puheen kanssa

käyttöliittymäelementiksi, sillä tämä kombinaatio mahdollistaa monipuolisen kom-

munikoinnin ilman käsien käyttöä.

3.3 Puheen keskeisimmät ominaisuudet

Puheen tehokas hyödyntäminen käyttöliittymässä vaatii sen ominaisuuksien hyvää

tuntemusta. Esittelen tässä keskeisimpiä puheen ominaisuuksia, kuten luonnollisuutta,

tehokkuutta ja suosiota ihmisten välisessä kommunikoinnissa. Näiden seikkojen poh-

jalta esitän motiivit puheen käyttöön.

Puheen käyttöä perustellaan useimmiten sillä, että se on luonnollista. Käytämme pu-

hetta jatkuvasti, minkä seurauksena puheesta on kehittynyt tehokkain, suosituin ja

laajimmin levinnyt kommunikointimenetelmämme. Tuomalla puhe osaksi ihmisen ja

tietokoneen vuorovaikutusta uskotaan olevan mahdollista hyödyntää niitä etuja, jotka

vallitsevat ihmisten välisessä puhekommunikaatiossa [Kamm, 1994]. On kuitenkin syytä

huomata, että puhe kommunikaationa on nimenomaan opittu menetelmä ihmisten vä-

lillä; kuinka puhetta voidaan soveltaa ihmisen ja tietokoneen väliseen kommunikoin-

tiin onkin yksi ongelmallista peruskysymyksistä.

Puheen katsotaan olevan tehokkain kommunikointimuoto ihmisten välisessä interaktii-

visessa ongelmanratkaisussa. Chapaniksen [1975] kuuluisassa tutkimuksessa verrattiin

erilaisia kommunikointimenetelmiä. Pyrkimyksenä oli selvittää, mikä käytetyistä mo-

daliteeteista olisi kaikkein hyödyllisin ihmisen ja tietokoneen välisessä vuorovaiku-

tuksessa. Tutkimuksella oli selvä puhetta suosiva lopputulos: puhe oli yli kaksi kertaa

nopeampi kuin seuraavaksi tehokkain tapa eli kirjoitus. Erittäin mielenkiintoinen on


Sivu 21

myös Chapaniksen havainto, että pelkkä puheen käyttö oli ainoastaan hieman hitaam-

paa kuin kaikkien muiden saatavilla olevien modaliteettien yhteiskäyttö.

Tehokkuuteen liittyy nopeuden ohella monia muitakin tekijöitä, kuten ilmaisuvoimai-

suus ja lisäkapasiteetin tuominen. Puheen avulla on mahdollista ilmaista asioita, joi-

den ilmaiseminen muilla tavoin on erittäin vaikeata tai jopa mahdotonta. Puheella

nähdään myös olevan tuottavuutta lisäävä vaikutus etenkin useita samanaikaisia teh-

täviä sisältävissä tilanteissa. Jakamalla tehtävät tällaisissa tilanteissa eri modalitee-

teille on kokonaistoimintaa mahdollista tehostaa [Martin, 1989].

Puhe on myös suosittu kommunikointitapa – useissa tilanteissa haluaisimme käyttää

puhetta, vaikka jonkin muun menetelmän käyttö saattaisikin olla tehokkaampaa.

Osaltaan mieltymys puheeseen voi johtua ihmisten erilaisista ongelmanratkaisuta-

voista: Bradford [1995] esittää, että käyttöliittymät ovat perinteisesti keskittyneet on-

gelmanratkaisuun visuaalis-tilallisella lähestymistavalla. Kuitenkin osa ihmisistä

ajattelee verbaalis-akustisen lähestymistavan mukaisesti. Puheen tuominen käyttöliit-

tymään voisi parantaa käyttäjien tyytyväisyyttä tietokoneita kohtaan ja laajentaa näin

käyttäjäjoukkoa.

Puheen käyttöön voidaan löytää kaikkiaan kuusi motiivia. Puhe voi olla ainoa, tehok-

kain tai miellyttävin mahdollinen käytettävissä oleva modaliteetti tai se voi toimia

avustavana, vaihtoehtoisena tai korvaavana kommunikointimenetelmä. Käyttöliitty-

mäsuunnittelussa on erittäin tärkeää ottaa huomioon ne motiivit, jotka ovat johtaneet

puheen valintaan. Esimerkiksi käyttäjien hyväksymät virhetasot ovat todennäköisesti

täysin erilaisia niissä tapauksissa, joissa puhe on valittu miellyttävyyden perusteella

kuin niissä, joissa puhe korvaa toisen, ehkä tilanteeseen paremmin soveltuvan moda-

liteetin. Tässä tutkimuksessa puhetta käytetään lähinnä korvaavana modaliteettina.

Tämä tekee sen käyttämisestä erittäin vaikeaa ja asettaakin suuren haasteen käyttö-

liittymäsuunnittelulle.

3.4 Puheen käytössä huomioitavia seikkoja

Puheen hyödyntämiseen liittyy joukko seikkoja, jotka on syytä ottaa huomioon on-

nistuneen käyttöliittymäsuunnittelun varmistamiseksi. Nämä seikat liittyvät joko suo-

raan puheen luonteeseen tai ihmisten välisessä kommunikoinnissa muodostuneisiin

tapoihin.


Sivu 22

Yksi suurimmista ongelmista komentopohjaisissa puhesovelluksissa on komentojen

ulkoaosaamisen tarve. Mikäli sovellus ei ole tuttu eikä sitä käytetä usein, voi tämä

muodostaa kynnyskysymyksen järjestelmän käyttöön. Sama ongelma vaivaa luonnol-

lisesti perinteisiä komentopohjaisia järjestelmiä. Määrän lisäksi on huomiota syytä

kiinnittää myös komentojen merkityksiin. Puheohjatun selaimen osalta huomattiin,

että väärä komentovalikoima voi tuottaa ongelmia jo hyvin suppeallakin sanavalikoi-

malla. Komentopohjaisissa järjestelmissä onkin ensiarvoisen tärkeää kiinnittää huo-

miota sanaston valintaan.

Puheen väliaikainen luonne voi olla ongelmallinen, jos halutaan tarkastella edeltäviä

tapahtumia. Käyttäjän voi olla vaikeaa palauttaa mieleen aikaisemmin annettuja ko-

mentoja, mikäli näitä ei pystytä tulkitsemaan komentojen vaikutuksista tai anneta suo-

rana palautteena käyttäjälle. Varsinkin virhetilanteissa on usein ongelmallista selvittää

virheen syytä, koska mahdollinen palaute on aina approksimaatio annetusta syötteestä.

Schmandt [1994, 101-104] esittää tulosteena käytettävän puheen ongelmiksi mm. hitau-

den sekä puheen väliaikaisen, peräkkäisen ja julkisen luonteen. Puheen hitaus sekä

sen väliaikainen ja peräkkäinen luonne ovatkin ongelmallisia tulosteiden suunnittelun

kannalta. Puheen julkinen luonne rajoittaa käyttömahdollisuuksia sekä syötteiden että

tulosteiden kohdalla.

Puhekommunikointiin liittyy monia opittuja tapoja, joista on vaikea päästä eroon,

vaikka luonnollisen kaltaista keskustelua ei odotettaisikaan. Kamm [1994] luettelee

keskeisimmiksi tällaisiksi tavoiksi ihmisten taipumuksen puhua jatkuvasti ilman tau-

koja sanojen välillä, keskeyttää toisensa puhumalla päällekkäin sekä taukojen käytön

keskustelun rakenteen ohjailuun.

Ihmisten on erityisen vaikeaa puhua tauottaen puhettaan jokaisen sanan välillä, vaik-

ka tähän olisi kehotettukin. Erityinen ongelma tämä on luonnollisen kaltaisissa lau-

seissa, mutta ilmiö tulee esille myös komentoluonteisessa puheessa: puheohjatun se-

laimen käyttäjätesteissä tämä näkyi komentojen yhteenliittämisenä, varsinkin virheti-

lanteiden korjaamisessa. Toinen ongelma, josta käyttäjien saattaa olla vaikea päästä

eroon, on puheeseen kuulumattomien äänteiden esiintyminen puheen lomassa.

Taipumus keskeyttää toisten puhe siinä vaiheessa, kun asia on ymmärretty, on samoin

hyvin syvälle kommunikointitapoihin juurtunut. Pelkän puheen varassa toimivissa


Sivu 23

käyttöliittymissä onkin erittäin ongelmallista, jos tietokoneen puhetta ei voida kes-

keyttää. Vaikka päällepuhumista esiintyy, suurin osa puheenvuorojen vaihdoksista

hoidetaan puheeseen liittyvien vihjeiden, kuten taukojen käytön ja prosodisen infor-

maation avulla. Näiden sääntöjen laiminlyönti voi merkitä ongelmien, kuten päällek-

käin puhumisen lisääntymistä. Kehitettäessä käyttöliittymää keskusteluluonteisem-

maksi onkin syytä tarkkailla tilanteita, jotka ovat potentiaalisia ongelmakohtia, kun

käytetään puhetulosteita.

3.5 Puhesovellusten suunnittelu

Jokaisen käyttöliittymän pohjana on suunnitelma, jonka avulla saadaan selville tehtä-

vän suorittamiseksi tarvittava informaatio. Niin kauan kuin luonnollisen puhekielen

käyttö ei ole mahdollista, on puhekäyttöliittymän päärooli ohjata käyttäjää täyttämään

teknologian vaatimukset [Kamm, 1994]. Voidaankin perustellusti sanoa, että sovellusten

pohjana oleva puheteknologia hallitsee käyttöliittymäsuunnittelua: tehdyt ratkaisut

perustuvat useammin teknologian vaatimuksiin kuin käyttäjän kannalta parhaisiin

vaihtoehtoihin [Mane et al., 1996].

Puhekäyttöliittymien ongelmia ei voida kuitenkaan laittaa pelkästään teknologian

syyksi: huolellisella käyttöliittymäsuunnittelulla voidaan kiertää suurin osa teknisistä

rajoituksista ja saavuttaa näin käyttäjän kannalta haluttu lopputulos teknologian pettä-

essäkin [Kamm, 1994]. Puhetta on kuitenkin käytetty tähän asti pääosin ad-hoc periaat-

tein sovellettuna. Sovellusten tulevan kehityksen yhtenä ongelmana pidetäänkin ylei-

sen suunnittelumetodologian puuttumista. Hahmottelen tässä joitakin tärkeimpiä

suunnittelusääntöjä, jotka liittyvät keskustelun ohjaukseen, virheiden hallintaan, pa-

lautteeseen, vahvistuksiin ja ohjeisiin.

3.5.1 Keskustelun ohjaus

Ihmisillä on käytössään runsas valikoima erilaisia keskustelutekniikoita, kuten vuo-

ronvaihtoon liittyvät menetelmät [Bradford, 1995]. Vuoronvaihtoon, uusien asioiden

esille tuomiseen ja muihin keskustelun suuntaan vaikuttaviin seikkoihin liittyvät pu-

heen ominaisuudet ovat kuitenkin vaivoin hyödynnettävissä. Keskustelun kulku ete-

nee tämän vuoksi pitkälti joko käyttäjän komentojen tai tietokoneen esittämien ke-

hotteiden varassa.


Sivu 24

Kehotteet ovat kommunikoinnin onnistuneisuuteen suuresti vaikuttava tekijä. Niinkin

yksinkertaiselta vaikuttava seikka kuin myöntävän tai kieltävän vastauksen pyytämi-

nen käyttäjältä voi muodostua hyvinkin virhealttiiksi, jos kehote on muotoiltu huo-

nosti. Kehotteiden informaatiosisältöön vaikuttaa suuresti myös käyttäjien taso: koke-

neille käyttäjille voidaan antaa suppeampia kehotteita kuin noviisikäyttäjille. Kehot-

teita voidaan myös lyhentää käytön aikana niiden muodostuessa tutuiksi.

Kun kehotteisiin käytetään puhetta, vaikuttaa keskustelun kulun suunnitteluun dra-

maattisesti se, onko käyttäjällä mahdollisuus aloittaa vastauksen antaminen ennen ke-

hotteen loppumista. Kehotteen päälle puhuminen mahdollistaa informatiivisemmat

kehotteet, sillä kokeneemmat käyttäjät pystyvät keskeyttämään kehotteen heti tarvit-

tavan informaation saatuaan [Mane et al., 1996]. Tämä vähentää myös ihmisen lyhyt-

kestoisen muistin rajoituksista aiheutuvia virheitä. Schmandtin [1994, 109] mukaan ke-

hotteiden keskeytettävyyteen ei voida kuitenkaan luottaa, sillä osalla ihmisiä on tai-

pumus seurata sanoma loppuun saakka. Hänen mukaansa keskeytyksiin liittyy myös

ajoitusongelmia.

Yksi kehotteiden suunnittelun avoimista kysymyksistä on se, kuinka hyvin käyttäjät

adaptoituvat kehotteissa käytetyn kielen tyyliin ja sanastoon eli ryhtyvät käyttämään

samanlaista kieltä kuin sovelluksessa esiintyy [Bradford, 1995]. Vaikka tällä onkin mer-

kitystä eniten luonnollista kieltä käyttävissä sovelluksissa, uskon puheselaimella suo-

ritettujen käyttäjätestien pohjalta, että asialla on vaikutusta myös komentopohjaisissa

sovelluksissa.

3.5.2 Virheiden hallinta

Kuten kohdassa 2.5 todettiin, puheentunnistus ei ole vielä läheskään virheetöntä. Tä-

män vuoksi virheisiin on varauduttava: sovellusten tulee olla yksinkertaisia ja virhe-

sietoisia eli ne tulee suunnitella siten, että virheiden vaikutukset saataisiin minimoitua

[Wilpon, 1994]. Virheiden hallinta voidaan jakaa viiteen vaiheeseen: ennalta ehkäisyyn,

havaitsemiseen, syiden etsimiseen, virheen korjauksen suunnittelemiseen ja virheen

korjaukseen.

Virheet vähentävät sekä tuottavuutta että käyttäjien tyytyväisyyttä. Virheiden ennalta-

ehkäisyllä voidaan vaikuttaa merkittävästi sovelluksen laatuun – hyvä esimerkki on

sanaston valinta niin, että sanat ovat puheentunnistuksen kannalta toisistaan selkeästi


Sivu 25

erotettavissa. Näen virheiden ehkäisemisessä pääongelmaksi sen, että suurin osa pro-

sessiin vaikuttavista seikoista on tilanneriippuvaisia, kuten olosuhteiden vaihtelut ja

käyttäjien ominaisuudet. Näihin on luonnollisesti suunnittelun tasolla vaikeaa puuttua.

Erään yleisen ongelman muodostavat virheelliset tulkinnat, jotka on tehty muusta kuin

sovellukselle suunnatusta puheesta. Näiden seurauksia voidaan vähentää liittämällä

järjestelmään mekanismi huomion kohdistamiseksi. Kohdistaminen voidaan suorittaa

joko mikrofoniin tai käyttöliittymään sijoitetulla kytkimellä tai erillisillä puhekomen-

noilla. Molempiin tapoihin liittyy kuitenkin ongelmia: kytkin on käytännössä erittäin

ärsyttävä ja helposti unohtuva; puheeseen liitetyt komennot taas voivat hidastaa

kommunikointia merkittävästi ja heikentää järjestelmän tunnistuskykyä lisäämällä sa-

naston kompleksisuutta. Eräs kiinnostava mahdollisuus on visuaalisen informaation,

kuten katseen paikan hyödyntäminen.

Virheen korjaaminen alkaa sen havaitsemisesta. Sekä käyttäjän että järjestelmän tulisi

pystyä tekemään aloite virheen korjaamiseksi [Kamm, 1994]. Perinteisestihän virheen

korjaaminen jätetään käyttäjän huoleksi, ellei virhe ole triviaali, kuten syötteen muo-

don oikeellisuuden tarkastus. Kun järjestelmä huomaa mahdollisen virheen, se voi

joko pyytää käyttäjältä vahvistusta, käynnistää virheen korjauksen tai korjata virheen

automaattisesti.

Käyttäjillä on taipumus muuttaa ääntämistään virheiden seurauksena. Tällöin virheen

korjaaminen saattaa aiheuttaa uusia virheitä. Ennen virheen korjausta tulisikin pyrkiä

löytämään virheen mahdolliset syyt, jotta voitaisiin suorittaa oikeat korjaustoimenpi-

teet. Myös virheen ja sen korjaustoimenpiteen kustannusten suhteella on merkitystä:

virheen korjauksen ei tule olla automaattista vaan suunniteltua ja harkittua.

Yksinkertaisin tapa virheiden korjaamiseksi on pyytää käyttäjää toistamaan sanoman-

sa. Tällöin on kuitenkin vaarana päätyminen virhekierteeseen, joka voi haitata käyt-

täjän tyytyväisyyttä ohjelmaa kohtaan todella paljon. Parempi tekniikka on ainoastaan

potentiaalisten sanojen tarkasteleminen (esim. N-Best listalta, ks. kohta 2.7), jolloin

voidaan käyttää suppeampaa sanavarastoa. Toinen mahdollisuus on pyytää käyttäjää

toistamaan toiminto muun modaliteetin välityksellä. Viimeisenä keinona, kun mikään

muu ei enää onnistu, tulee käyttäjälle tarjota mahdollisuus päästä tilanteesta siististi

pois [Kamm, 1994].


Sivu 26

3.5.3 Vahvistukset

Vahvistuksilla voidaan ennakoida mahdollisia virhetilanteita. Ne ovatkin eräänlainen

ennaltaehkäisyn ja virheidenkorjauksen välimuoto. Vaikka vahvistuksia tuleekin

käyttää säästeliäästi etteivät ne aiheuta ylimääräistä kuormitusta ja lisää tyytymättö-

myyttä järjestelmää kohtaan, on myös sellaisia tilanteita, joissa vahvistusta on syytä

käyttää.

Schmandt [1994, 165-167] jakaa vahvistusmenettelyt kahteen luokkaan, eksplisiittisiin ja

implisiittisiin vahvistuksiin. Eksplisiittistä vahvistusta voidaan hänen mukaansa käyt-

tää tilanteissa, joissa toiminnon seurauksia on vaikea perua tai perumismahdollisuutta

ei ole lainkaan. Eksplisiittisen vahvistuksen hyviä puolia on, että siinä voidaan käyttää

(samaan tapaan kuin virheiden korjauksessa) supistettua sanavarastoa ja korkeita tun-

nistuskynnyksiä. Se on kuitenkin hidas, epämukava ja vaatii aina käyttäjän huomiota

sekä pakottaa toimimaan.

Implisiittisessä vahvistuksessa käyttäjää informoidaan tulevasta toimenpiteestä, jonka

jälkeen pidetään tauko, jonka aikana käyttäjällä on mahdollisuus perua toiminto. Ellei

käyttäjä reagoi tauon aikana toiminto suoritetaan tämän jälkeen normaalisti. Schmandt

pitää implisiittisen vahvistuksen ongelmina tauon sopivan pituuden määrittämistä se-

kä oikean perumismenetelmän löytämistä. On lisäksi syytä huomioida, että implisiitti-

nen vahvistus on ongelmallinen tehtävissä, joissa nopeus on ensiarvoista.

3.5.4 Palaute ja ohjeet

Käyttäjät haluavat usein opastusta siihen, mitä heidän tulee kussakin tilanteessa sanoa

sekä siihen, kuinka heidän tulisi sanottavansa esittää. Käyttäjän informointi onkin var-

sinkin noviiseille tärkeä osa käyttöliittymää [Mane et al., 1996]. Liiassa käyttäjän opas-

tuksessa on kuitenkin ongelmansa, varsinkin jos kaikki opastus liitetään kehotteisiin.

Hyödyllistä olisikin erottaa selkeästi kehotteisiin ja opastukseen kuuluvat asiat, jolloin

noviisikäyttäjillä on tarvittava apu saatavilla, mutta se ei häiritse kokeneita käyttäjiä

tai vie liikaa tilaa kuvaruudulta.

Palaute on erityisen tärkeää pelkkään puheeseen perustuvissa käyttöliittymissä – mis-

sä se on valitettavasti myös vaikeinta toteuttaa tehokkaasti. Palautteen annossa on

syytä muistaa siitä aiheutuvat kustannukset, kuten muistin kuormittuminen ja huo-


Sivu 27

miokyvyn vieminen muualle sekä puhepalautetta käytettäessä sen rajoitukset, mm.

hitaus.

3.6 Puhesovellusten evaluointikriteerejä

Puhesovellusten kehityksen kannalta olisi tärkeää saada aikaiseksi yleisiä kriteerejä

järjestelmien evaluoimiseksi. Järjestelmiä voidaan tarkastella kolmesta näkökulmasta,

tekniikan, tehtävän tai käytettävyyden perspektiivistä. Lisäksi tulisi arvioida teknolo-

gian valmiutta tehtävään.

Tekniikan ja tehtävän evaluoimiseen liittyviä seikkoja on käsitelty kohdassa 2.5. Tär-

kein tässä huomioitava seikka on se, että puheteknologian evaluoinnin tulisi palvella

aina käyttöliittymäsuunnittelua [Furui, 1994]. Näinhän ei välttämättä ole, sillä esim.

standardiksi muodostunutta virhetasoa parempi kriteeri olisi usein se, kuinka hyvin

järjestelmä kykenee hylkäämään sanaston ulkopuoliset sanat.

Sovelluksen käytettävyyden arviointiin voidaan käyttää sekä objektiivisia että subjek-

tiivisia kriteerejä. Nakatsu ja Suzuki [1994] luettelevat objektiivisiksi kriteereiksi:

• tehtävän suorittamisen asteen,

• tehtävän suorittamiseen kuluvan ajan,

• tehtävän suorittamiseen tarvittavien tapahtumien lukumäärän, ja

• virheenkorjauskertojen lukumäärän.

Subjektiivisesti arvioitaviksi he taas luettelevat:

• käyttäjän tyytyväisyyden toteutusta kohtaan,

• järjestelmän aiheuttaman kuormituksen, ja

• käyttäjän mieltymykset eri menetelmiä kohtaan.

Lisäisin Nakatsun ja Suzukin esittämiin objektiivisesti arvioitaviin kriteereihin vielä

virheenkorjaukseen kuluvan ajan, varmistuksien aiheuttamat haitat (määrä, kuluva

aika) sekä multimodaalisissa järjestelmissä kunkin modaliteetin käyttöasteen.

Edellä esitetyt kriteerit eivät suinkaan ole ainoita mahdollisia. Yleisesti ottaen puhe-

järjestelmien evaluointiin soveltuvat perinteiset käytettävyyden arviointimenetelmät,

luonnollisesti tilanteen mukaan sovellettuna. Evaluoinnin tarkoitusperät ja sovelluk-

sen sekä tehtävän luonne vaikuttavat myös valittaviin asioihin huomattavasti.


Sivu 28

Itse pidän ongelmallisena perinteistä tapaa arvioida sovelluksia ainoastaan kvantitatii-

visten kriteerien mukaan. Tämä johtaa käytännössä siihen, että tehtävää arvioidaan

ainoastaan suorituksen tehokkuudella. Vaikka tehokkuus onkin tärkeä tekijä, niin se ei

missään nimessä ole ainoa käytettävyyteen vaikuttava seikka. Puhetta käytetään usein

vaihtoehtoisena ja korvaavana kommunikointimuotona, jolloin tehokkuuden arviointia

parempia kriteereitä voivatkin olla esim. käyttäjien mieltymyksiin liittyvät seikat. Pu-

heohjatun selaimen käyttäjätesteissä kiinnitettiin paljon huomiota käyttäjien mielipi-

teisiin ja havaittiin, että esimerkiksi osallistumisen tunne voi olla tärkeämpää kuin te-

hokkuus.

Ennen järjestelmän toteuttamista tulisi suorittaa teknologian valmiuden evaluointi, eli

arvioida soveltuuko puheen käyttö kyseiseen tehtävään. Kamm [1994] esittää tämän

arviointiin kaksi kriteeriä:

1. Hyväksyykö käyttäjä järjestelmän, eli pystyykö hän suorittamaan tehtävän

onnistuneesti, jolloin käyttö on tehokasta ja sujuvaa?

2. Hyväksyykö palvelun tarjoaja järjestelmän, eli ovatko järjestelmän tarjo-

amat hyödyt ja säästöt oikeassa suhteessa kustannuksiin?

3.7 Puhesovelluksiin liittyvä empiirinen tutkimus

Empiiristen tutkimusten osuus käyttöliittymäsuunnittelussa on merkittävää varsinkin

alkuvaiheessa, kun kartutetaan suunnitteluperiaatteita. Puheen käyttöön liittyvä empii-

rinen tutkimus voidaan jakaa kolmeen luokkaan sen mukaan, onko tutkimuksen koh-

teena ihmisten välinen kommunikaatio, ihmisen ja simuloidun tietokonesovelluksen

välinen kommunikaatio vai ihmisen ja tietokoneen välinen kommunikaatio.

Ihmisten välisen kommunikaation tutkimista käytetään silloin, kun kerätään tietoa me-

netelmistä, joita voi olla mahdollista hyödyntää myös ihmisen ja tietokoneen välisessä

kommunikaatiossa. Klassinen esimerkki on Chapaniksen [1975] tutkimus eri modali-

teettien soveltuvuudesta interaktiiviseen ongelmanratkaisemiseen. Ihmisten välisen

kommunikoinnin tutkimuksen suurimpana vaikeutena on tulosten yleistäminen kos-

kemaan ihmisen ja tietokoneen välistä kommunikointia.

Huomattava osa suoritetuista empiirisistä tutkimuksista on ihmisen ja simuloidun tie-

tokoneohjelman välisiä. Näistä käytetään usein nimitystä Wizard of Oz -tutkimukset.


Sivu 29

Simuloituja kokeita käytetään sekä suunnittelun että tutkimuksen apuna. Useimmiten

simuloinnin syynä on se, että kokeen tarkoitusperien kannalta tarkoituksenmukaisen

järjestelmän rakentaminen on mahdotonta. Suunnittelun kannalta taas on tärkeää

päästä kiinni mahdollisiin ongelmakohtiin mahdollisimman aikaisessa vaiheessa: si-

muloitu koe voi paljastaa ongelmia mm. sovelluksen loogisessa rakenteessa, kehot-

teissa jne. [Mane et al., 1996].

Kokeen luonteen kannalta on olennaista se, tietävätkö käyttäjät puhuvansa koneelle

vai ihmiselle, sillä ihmisten on todettu puhuvan eri tavalla koneille kuin toisilleen [Fra-

ser & Gilbert, 1991]. Mikäli ohjelmaa halutaan simuloida luonnollisen tuntuisesti, ovat

nopeat ja luotettavat vastaukset tärkeitä. Toisaalta on myös varottava liian täydellisiä

vastauksia esim. luonnollisen kielen käsittelyssä [Cohen & Oviatt, 1994].

Vaikka simuloidut kokeet ovatkin hyödyllisiä, niihin liittyy useita ongelmallisia nä-

kökohtia. Eräs näistä on virheiden simulointi: kuinka esim. tunnistusvirheitä tulisi si-

muloida ja paljonko tähän tarvitaan tietoutta tunnistusjärjestelmän rakenteesta? Myös

simuloitujen tutkimusten rajoitukset tulisi ottaa huomioon: missä tilanteissa ne voivat

viedä tutkimusta väärään suuntaan tai johtaa tuottamattomiin sovelluksiin? [Mane et al.,

1996]. Reaaliaikaisissa järjestelmissä nämä seikat ovat erityisen ongelmallisia, sillä

syötteisiin tulisi reagoida sekunnin kymmenyksissä. Puheohjatun selaimen kohdalla

simuloiduista kokeista luovuttiinkin, sillä ne olisivat muodostuneet erittäin raskaiksi

ja virhealttiiksi.

Ihmisen ja tietokoneen välisessä kommunikoinnissa puheen käyttöä on pyritty moti-

voimaan usein tehokkuusnäkökohdilla. Puheen hyödyllisyyden todistamista on lä-

hestytty erilaisilla järjestelmien vertailututkimuksilla. Paljon huomiota ovat herättä-

neet mm. Poockin [1980] ja Martinin [1989] tekemät tutkimukset, joissa puheen käyttö

todettiin näppäimistön käyttöä nopeammaksi. Tuloksia ei ole kuitenkaan oikopäätä

hyväksytty, varsinkin Poockin tutkimusta vastaan on hyökätty voimakkaasti [Damper et

al., 1996].

Vertailututkimuksia pidetään tärkeinä, koska toivotaan, että niiden avulla löydetään

puheelle edullisia käyttökohteita ja käyttäjäryhmiä. Näissä tutkimuksissa on kuitenkin

useita ongelmia, kuten se, että niissä vertaillaan pikemminkin teknologiaa kuin moda-

liteettia. Toinen merkittävä vertailututkimusten ongelma on se, että niiden tulokset


Sivu 30

eivät useinkaan ole yleistettävissä tutkimuksessa käytetyn sovellusalueen ulkopuolelle

[Leatherby & Pausch, 1992].

Syötteidenantomenetelmiä vertailevia tutkimuksia hedelmällisempi suuntaus on pu-

heen soveltuvuutta arvioivat tutkimukset. Esimerkkejä tästä suuntauksesta tarjoavat

mm. Karlin, Petteyn ja Shneidermanin [1993] sekä Oviattin, DeAngelin ja Kuhnin

[1997] tutkimukset. Näissä tutkimuksissa lähestytään puheen käyttöä etsimällä sekä

puheelle soveltuvia kohteita että tilanteita, jotka ovat puheelle ongelmallisia. Puheoh-

jatun selaimen käyttäjätutkimukset kuuluvat tähän ryhmään, tosin ne ovat niin alusta-

via, että niitä voidaan pitää vielä osaksi sovelluskehityksen evaluointivaiheena.

3.8 Lopuksi

Yleisesti ottaen puhesovellusten suunnittelussa pätevät normaalit käyttöliittymäsuun-

nittelun periaatteet: käyttäjäkeskeisyys, iteratiivinen, vaiheittainen eteneminen ja

käyttäjien mukanaolo. Puhesovelluksien suunnittelussa on kuitenkin ensiarvoisen tär-

keää, että käyttäjiin saadaan kosketus mahdollisimman aikaisessa vaiheessa. Yleisten

periaatteiden puuttuessa on vaikeaa saada kokemuksia muutoin kuin rakentamalla

prototyyppejä. Käyttöliittymäsuunnittelua vaikeuttaa mm. se, että ihmiset puhuvat hy-

vin eri tavoin; spesifit ongelmat selviävät ainoastaan käytännössä.

Tässä tutkimuksessa puhetta käsitellään pääasiallisesti ainoana syötteiden lähteenä.

Tämä lähestymistapa ei kuitenkaan ole aina paras mahdollinen. Multimodaaliset

käyttöliittymät tarjoavatkin mahdollisuuden hyödyntää eri kommunikointimenetelmi-

en parhaita puolia. Multimodaalisuuden hyödyntämiseksi tarvitaan kuitenkin tietoa

kunkin kommunikointimenetelmän hyvistä ja huonoista puolista. Tämän vuoksi pe-

rustutkimus kommunikointimodaliteeteista onkin korvaamatonta.

Puheohjatun selaimen prototyypissä hyödynnettiin puhetta ainoastaan syötemodali-

teettina. Uskon kuitenkin, että keskustelupohjaisten järjestelmien periaate on hyödyn-

nettävissä useimmissa puhesovelluksissa. Tämä näkyi hyvin myös prototyypin käyt-

täjätestien kommentteina, joissa toivottiin enemmän vuorovaikutusta järjestelmän ja

käyttäjän välille. Toisaalta useat käyttäjät esittivät myös jyrkän vastalauseensa puhe-

tulosteille. Selvää on, että asia kaipaa lisätutkimusta.

PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT

Sivu 31

4 KOLMIULOTTEISET KÄYTTÖLIITTYMÄT

Kolmiulotteisia käyttöliittymiä pidetään merkittävänä askeleena ihmisen ja tietoko-

neen välisen vuorovaikutuksen evoluutiossa. Niiden nähdään jopa tuovan mukanaan

samankaltaisen vallankumouksen kuin graafisten käyttöliittymien yleistyminen 1980-

luvulla. Samoin kuin puheenkin kohdalla, on käyttöliittymäsuunnittelu kuitenkin

huomattavasti vaikeampaa verrattuna perinteisiin kaksiulotteisiin suorakäyttöliitty-

miin.

Tässä luvussa tarkastelen kolmiulotteisten käyttöliittymien vuorovaikutusmenetelmiä.

Huomiota on kiinnitetty erityisesti sellaisiin asioihin, jotka ovat tärkeitä puheohjauk-

sen kannalta. Tutkimuksen kannalta olennaisinta on virtuaalisessa ympäristössä liik-

kuminen. Tätä ennen selvitetään alueeseen liittyviä peruskäsitteitä, kolmiulotteisten

käyttöliittymien erityispiirteitä sekä virtuaalisen ympäristön luonnetta. Liikkumisen

lisäksi tarkastellaan vuorovaikutuksessa tarvittavien vapausasteiden rajoittamista se-

kä tutkimuksen kannalta kiinnostavaa puheen käyttöä virtuaaliympäristöissä. Lopuksi

esitän muutamia ajatuksia kolmiulotteisen maailman hallintaan liittyen.

4.1 Kolmiulotteinen käyttöliittymä ja sen perustoiminnot

Kolmiulotteisiin käyttöliittymiin liittyy joukko käsitteitä, joiden hallitseminen on

välttämätöntä sovellusten suunnittelijoille sekä usein myös niiden käyttäjille. Esittelen

tässä keskeisimmät asiat, kuten käytettävän koordinaatiston, objekteille mahdolliset

perusoperaatiot, vuorovaikutuksen perustoiminnot sekä maailman havainnointiin

liittyvät metaforat.

Kolmiulotteisella käyttöliittymällä tarkoitetaan tässä kolmedimensioista avaruutta,

joka sisältää joukon objekteja. Tätä virtuaalista maailmaa voidaan esittää erilaisissa

koordinaatistoissa. Tässä yhteydessä käytämme nk. oikeakätistä koordinaatistoa, joka

on esitetty kuvassa 4-1 vasemmalla. Koordinaatisto on valittu sen luonnollisuuden

vuoksi: useimmille meistä lienee tutuin tämä esitystapa, jossa x-akselin arvot kasvavat

oikealle, y-akselin arvot ylös ja z-akselin arvot suoraan katsojaan päin. Kuvassa on

esitettynä myös luonnolliset tasot, xy, xz ja yz.

Kolmiulotteisen maailman sisältämien objektien asema voidaan määrittää paikan ja

orientaation avulla. Näin objektin aseman ilmaisemiseen tarvitaan kuusi parametria


Sivu 32

eli toisin sanoen kullakin kappaleella on kuusi vapausastetta. Paikan ja orientaation

lisäksi objekteille voitaisiin määritellä vielä koko. Tämän tutkimuksen kannalta on

kuitenkin tarkoituksenmukaista keskittyä ensisijaisesti paikan ja orientaation tarkas-

teluun.

[�

]�

\�

\�

[]�WDVR

[\�WDVR

\]�WDVR

[�

\�

]�

\�

[]�WDVR

[\�WDVR

\]�WDVR \]�WDVR

[�

]�

\�

Kuva 4-1: Kolmiulotteisen maailman dimensiot ja perusoperaatiot.

Kappaleen paikka määritellään sen keskipisteen koordinaattien perusteella. Orientaa-

tio määritellään vastaavasti kappaleen kallistuskulmana koordinaattiakseleiden suh-

teen. Näitä parametrejä muuttamalla saadaan aikaan kuusi perusoperaatiota, paikan

siirto x-, y- ja z-suunnassa sekä kappaleen kiertäminen x-, y- ja z-akselien suhteen.

Operaatioita on havainnollistettu kuvassa 4-1 oikealla, missä tumma objekti esittää

perustilaa ja vaaleammat kappaleet ovat kukin sekä siirtyneet että kiertyneet yhden

akselin suhteen positiiviseen suuntaan.

Robinettin ja Hollowayn [1992] mukaan virtuaaliympäristöjen perustoimintoja ovat

paikan, orientaation ja koon vaihtaminen. Kaikki kolme voivat kohdistua sekä käyt-

täjään että objektiin. Toiminnot vastaavat suoraan kolmiulotteisille objekteille määri-

teltyjä perusoperaatioita ja toimivat siten pohjana korkeamman tason operaatioita

muodostettaessa. Käyttäjän näkökulmasta perustoimintoina voidaan pitää maailmassa

liikkumista ja objektien valitsemista, manipulointia sekä skaalaamista [Mine, 1995].

Kolmiulotteinen avaruus voidaan jakaa edelleen aliavaruuksiin, joilla on omat koordi-

naatistonsa. Jokaisella kappaleella on lisäksi paikallinen koordinaatisto. Näin yhdessä

maailmassa voi olla useita eri koordinaatistoja, jotka ovat aina suhteessa toisiinsa [Ro-

binett & Holloway, 1992]. Tässä käsittelemme avaruudessa tapahtuvia operaatioita aina

maailman koordinaatiston suhteen. Objekteja manipuloidaan näin käyttäjän näkökul-


Sivu 33

masta vastakohtana objektin näkökulmasta suoritettavalle manipuloinnille [Chen et al.,

1988].

Kolmiulotteista avaruutta tarkastellaan aina jostain pisteestä käsin. Tämä piste, käyt-

täjän paikka eli tarkkailupiste, määritetään samoin kuin muutkin maailmaan sisältyvät

objektit. Tarkkailupiste voidaan olettaa kameraksi, jonka läpi maailmaa tarkastellaan.

Kameralle voidaan normaalien objektien ominaisuuksien lisäksi määritellä muitakin

parametrejä, kuten esim. katselukulma ja syvyysterävyys. Näillä ei kuitenkaan ole tar-

vetta operoida samassa mittakaavassa kuin paikan ja orientaation muutoksilla, joten

niitä ei käsitellä tarkemmin tässä tutkimuksessa.

Virtuaalisen maailman tarkasteluun liittyy kaksi toisistaan selkeästi poikkeava lähes-

tymistapaa, joiden pohjalle korkeamman tason metaforat rakennetaan. Ensimmäisen

mukaan liikkuminen voidaan nähdä tarkkailupisteen aseman muutoksena eli kameran

paikkaa ja orientaatiota manipuloimalla saadaan aikaan liikettä. Tämä tuottaa havain-

noinnin kannalta saman tuloksen kuin toisen näkemyksen mukainen ympäröivän

maailman liikuttaminen tarkkailupisteen suhteen. [Ware & Osborne, 1990]

4.2 Kolmiulotteisen käyttöliittymän erityispiirteitä

Kolmiulotteiset käyttöliittymät ovat huomattavasti monimutkaisempia kuin perinteiset

kaksiulotteiset käyttöliittymät. Käyttöliittymäsuunnittelun kannalta merkittävimpiä

tekijöitä ovat kolmiulotteisen tilan ja siinä sijaitsevien kappaleiden hahmottamiseen

liittyvät seikat sekä useampien vapausasteiden aiheuttama vuorovaikutusmenetelmien

monimutkaistuminen.

Kolmiulotteisen tilan hahmottaminen on vaikeaa, koska ihmisillä on ongelmia syvyy-

den havaitsemisessa ja kappaleiden välisten suhteiden ymmärtämisessä. Syvyyden

havaitsemista voidaan tukea erilaisilla syvyysvihjeillä. Syvyysvihjeitä tarjoavat mm.

perspektiivi, liike, stereokuva, tekstuuri, varjot ja väri. Perinteisesti stereokuvaa pide-

tään vahvimpana tekijänä syvyyden havaitsemisessa. Lähes yhtä vahva, jopa vahvem-

pikin syvyysvihje on liike: yhdessä nämä ovat erittäin tehokkaita syvyyden hahmot-

tamisessa [Ware et al., 1993]. Syvyysvihjeiden määrä vaikuttaa kolmiulotteisessa tilassa

tapahtuvien tehtävien suoritusnopeuteen ja –tarkkuuteen merkittävästi. On kuitenkin

todennäköistä, että vihjeiden käytön määrällä on raja, jonka jälkeen merkittävää pa-

rannusta ei enää tapahdu [Brown, 1994].


Sivu 34

Kolmiulotteisen tilan hahmottamiseen eli tilanhahmottamiskykyyn [Osborn & Agogino,

1992] liittyy oleellisesti siinä olevien kappaleiden välisten suhteiden ymmärtäminen.

Katsojan täytyy pystyä hahmottamaan kappaleen paikan lisäksi myös sen orientaatio

suhteessa muihin tilassa sijaitseviin kappaleisiin. Puutteellisesta tilanhahmottamisky-

vystä seuraa virheitä, jotka ilmenevät epämielekkäinä toimenpiteinä. Koska tässä tut-

kimuksessa ollaan kiinnostuneita siitä, kuinka hyvin valittu ohjausmetafora soveltuu

vuorovaikutukseen, tulee maailman hahmottamisesta aiheutuvat virheet erottaa vuo-

rovaikutusmenetelmiin liittyvistä virheistä. Tätä lähestytyttiin käyttämällä testeissä

sellaisia maailmoja, joissa syvyysvihjeiden käyttötarve oli minimoitu sekä tutkimalla

kappaleiden välisten suhteiden ymmärtämistä läpinäkyvyyttä hyväksikäyttäen. Ha-

vaittiin, että maailman hahmottamiseen liittyvät ongelmat ovat yksinkertaisissa tilan-

teissa merkityksellisempiä kuin ohjaukseen liittyvät kysymykset.

Operaatiot kolmiulotteisessa maailmassa ovat luonnostaan monimutkaisia. Ongelmia

syntyy erityisesti tapauksissa, joissa tehtävän dimensiot ja käytettävissä olevan vuoro-

vaikutusmenetelmän dimensiot eivät kohtaa. Perinteisesti ongelma on määritelty kos-

kemaan tapauksia, joissa korkean vapausasteen omaavia tehtäviä yritetään kontrolloi-

da vähän vapausasteita tarjoavilla menetelmillä. Yhtä lailla ongelmia esiintyy tehtä-

vissä, joissa useita vapausasteita omaavia menetelmiä käytetään kontrolloimaan vä-

hemmän vapausasteita tarvitsevia tehtäviä.

Ihmisen ja tietokoneen välisen vuorovaikutuksen kannalta olisi parasta, jos kuhunkin

tehtävään pystyttäisiin valitsemaan sen ominaisuuksien kannalta tarkoituksenmukaisin

syöttölaite. Käytännössä tämä on kuitenkin harvoin mahdollista mm. sen vuoksi, että

useimmat kolmiulotteiseen manipulointiin tarkoitetut syöttölaitteet eivät sovi hyvin

kaksiulotteisiin tehtäviin. Käytännössä ainoastaan harvan ihmisen työskentely sisältää

pelkästään kuuden vapausasteen hallintaa vaativia tehtäviä. Mikäli haluttaisiin käyttää

aina tehtävään parhaiten soveltuvaa syöttölaitetta, jouduttaisiin jatkuvasti vaihtamaan

työskentelyvälinettä.

Lisäksi useita vapausasteita kontrolloivien laitteiden käytössä on ongelmia silloinkin,

kun tehtävä sisältää useiden vapausasteiden hallintaa (esim. vapaasti ilmassa liikutel-

tavan lepakon epätarkkuus ja rasittavuus). Tässä tutkimuksessa on otettu lähestymis-

tapa, jossa kolmiulotteista maailmaa hallitaan sellaisilla menetelmillä, kuten puheella

ja tulevaisuudessa ehkä katseohjauksella, jotka eivät vaadi eksplisiittistä syöttömoda-


Sivu 35

liteettien valintaa. Tämä vapauttaa käyttäjän sidoksista laitteistoon ja mahdollistaa

näin luonnollisemman kommunikoinnin.

Tehtävän ja syöttölaitteiden dimensioiden erosta muodostuvaa ongelmaa on lähestytty

kuvaamalla perinteisten syöttölaitteiden antamaa informaatiota tehtävän vaatimaan

useampiulotteiseen syöteavaruuteen ja toisaalta rajoittamalla syöttölaitteiden dimensi-

oita tehtävien vaatimusten tasalle. Tehtävään tarvittavia dimensioita määriteltäessä

tulee ottaa huomioon dimensioiden integroinnin aste: mikäli dimensiot ovat käsitteel-

lisesti erillisiä, ei vapausasteita integroivasta syöttölaitteesta ole vastaavaa hyötyä [Ja-

cob et al., 1994].

Kaikkein eniten huomiota on kohdistettu erilaisiin virtuaaliohjaimiin, jotka mahdol-

listavat kolmiulotteisen käyttöliittymän hallinnan normaalia kaksiulotteista hiirtä

käyttäen. Näillä ratkaisuilla on melko vähän hyödyntämismahdollisuuksia tämän tut-

kimuksen kannalta. Puhesyötteiden kannalta on olennaisempaa tarkastella vuorovai-

kutuksessa tarvittavien dimensioiden rajoittamista, koska tämä auttaa puheen abstrak-

tin luonteen hyödyntämisessä. Asiaa käsitellään tarkemmin kohdassa 4.5.

4.3 Virtuaalimaailman luonne

Koska virtuaalisen maailman luonne määrää pitkälti millainen käyttöliittymäsuunnit-

telu tilanteeseen sopii, tulee sovelluksen suunnittelijan olla tarkkaan tietoinen kolmi-

ulotteisen maailman merkittävimmistä ominaisuuksista. Tässä käyttöliittymäsuunnit-

teluun vaikuttavia tekijöitä lähestytään virtuaalisen tilan esittämisen, sovelluksen

käyttötarkoituksen, maailman koon ja sen sisältämien objektien sijoittumisen sekä

maailman dynaamisuuden ja realistisuuden kautta. Kaikki nämä seikat vaikuttavat

siihen, millaisia vuorovaikutusmenetelmiä käyttäjälle tulisi tarjota erilaisissa tilanteis-

sa.

Virtuaalimaailmojen esitystekniikoiden jaotteluperusteena voidaan käyttää tietokoneen

esittämän tilan ja käyttäjän tilan välistä suhdetta [Brown, 1994]. Perinteisessä työpöytä-

mallissa katsojan tila ja virtuaalinen tila ovat täysin erillisiä. Uppouttavassa virtuaa-

litodellisuudessa käyttäjä on kokonaan virtuaalisessa tilassa, laajennetussa todellisuu-

dessa taas joko virtuaalinen tila on tuotu osaksi reaalimaailman tilaa tai päinvastoin.

Katsojan tila ja virtuaalinen tila voivat olla näin täysin erillisiä, toisensa poissulkevia


Sivu 36

tai yhdistettyjä. Näistä voidaan tarpeen vaatiessa erotella vielä erilaisia variaatioita

(esim. puoli-uppouttavat virtuaaliympäristöt).

Tässä tutkimuksessa käsitellään kolmiulotteisia käyttöliittymiä perinteisen, kaksiulot-

teisen näyttölaitteen välityksellä esitetyn virtuaalitodellisuuden näkökulmasta. Tällöin

käytännössä huomioonotettavia seikkoja on mm. se, että käyttäjän osallistumisen tun-

ne ei ole niin voimakas kuin esim. uppouttavassa ympäristössä.

Kolmiulotteisten käyttöliittymien suosituin käyttötarkoitus on ollut tähän saakka eri-

laisissa CAD/CAM –sovelluksissa. Näiden järjestelmien yleispiirre on syötteiden an-

tamiseen tarvittava tarkkuus. Toisaalta CAD-ohjelmia on käytetty myös mallintamaan

kokonaisia kaupunginosia, joissa käyttäjä voi liikkua vapaasti tietoverkkojen välityk-

sellä [Bourdakis, 1996]. Tällöin tärkeimmäksi asiaksi muodostuu navigoinnin jousta-

vuus. Tehtävän tulisikin aina määrätä käytettävät vuorovaikutusmenetelmät [Herndon et

al., 1994]. Tässä tutkimuksessa on oletettu tyypilliseksi selaimen käyttötarkoitukseksi

virtuaalisen maailman tutkiminen, eikä niinkään objektien manipulointi.

Virtuaalisen maailman koko saattaa vaihdella aina pienestä, yksittäisen objektin sisäl-

tävästä maailmasta rajattoman kokoiseen universumiin. Darken ja Sibert [1993] esittä-

vät käyttökelpoisen kriteerin virtuaaliympäristöjen luokittelemiseksi. Heidän mu-

kaansa maailma voidaan tulkita pieneksi silloin, kun se voidaan esittää jostakin pis-

teestä yhdellä kertaa siten, että tärkeät yksityiskohdat ovat näkyvissä. Muutoin se tul-

kitaan laajaksi. Laajoihin maailmoihin liittyy ongelmia, jotka tässä tutkimuksessa ha-

luttiin välttää. Kaikki käyttäjätestien maailmat olivatkin pieniä. Tulevaisuudessa on

kuitenkin tärkeää laajentaa tutkimusta myös suurten maailmojen yhteyteen.

Maailmaa voidaan karakterisoida koon lisäksi objektien levittäytymisen ja dynaami-

suuden suhteen. Harvassa maailmassa objektien ja objektiryhmien etäisyydet ovat

suuria, kun taas tiheässä maailmassa objektien väliset etäisyydet ovat lyhyitä. Objek-

tien jakautuminen voi olla epätasaista; suuri määrä objekteja voi olla jakautunut sa-

malle alueelle peittäen toisensa, mikä tekee maailmasta sekavan. Käyttäjätesteissä

maailmat olivat yksinkertaisuuden vuoksi selkeitä ja harvoja. On kuitenkin oletetta-

vaa, että puheohjaus soveltuisi hyvin sekaviin ja tiheisiin maailmoihin, sillä tällöin

pystyttäisiin hyödyntämään puheen erityisominaisuuksia, kuten objektien valintaa nii-

den ominaisuuksien perusteella (ks. kohta 3.1.4). Tämä onkin erittäin mielenkiintoi-

nen jatkotutkimuksen aihe.


Sivu 37

Staattisessa maailmassa objektien asema ei muutu ajan kuluessa päinvastoin kuin dy-

naamisessa maailmassa. Tästä asetelmasta voidaan myös erottaa välimuotoja, puoli-

dynaamisia maailmoja, joissa joko objektien asema tai paikka voi muuttua. Muutokset

voivat olla edelleen joko deterministisiä tai epädeterministisiä [Darken & Sibert, 1993].

Merkittävin dynaamisiin maailmoihin liittyvä ongelma puheohjauksen kannalta on

virheenkorjaus, joka on huomattavasti kompleksisempaa dynaamisissa maailmoissa

kuin staattisissa tilanteissa (ks. kohta 7.4.2).

Objektit voivat muodostaa joko fyysistä maailmaa jäljittelevän virtuaaliympäristön tai

toisaalta tyystin abstraktin maailman, jossa objektit eivät edes ole fyysisesti mahdolli-

sia. Käyttäjien odotukset maailmassa toimimisen suhteen ovat tällöin hyvinkin erilai-

sia: esim. reaalimaailmaa muistuttavassa virtuaaliympäristössä oletetaan automaatti-

sesti objektien käyttäytyvän luonnollisesti [Houde, 1992]. Tätä voidaan käyttää hyödyk-

si objektien vapausasteiden rajoittamisessa. Realistisuus voi muodostaa myös ongel-

mia, mikä näkyi käyttäjätesteissä siinä, että käteen sopivaa objektia mieluummin kä-

siteltiin, kuin että sen ympärillä olisi liikuttu.

4.4 Liikkuminen kolmiulotteisessa ympäristössä

Tässä tutkimuksessa virtuaalimaailmassa tapahtuvaa vuorovaikutusta tarkastellaan

pääasiallisesti liikkumiseen pohjautuen. Liikkumista säätelevät useat eri tekijät, kuten

vuorovaikutuksen pohjalla olevat motiivit. Liikkumiseen käytettävä perusmetafora ja

käyttäjän suorittamat liikettä kontrolloivat tekijät muodostavat yhdessä erilaisia kor-

kean tason liikkumismetaforia. Nämä kaikki vaikuttavat siihen, millainen vuorovai-

kutustapahtumasta muodostuu.

4.4.1 Liikkumisen motiivit

Mackinlay kollegoineen [1990] lähestyy kolmiulotteisessa tilassa liikkumista suoritet-

tavan tehtävän vaatimusten näkökulmasta. He erottavat neljä päätyyppiä, yleisen liik-

kumisen eli tutkimisen, kohteen mukaisen liikkumisen, tarkoin määriteltyyn paikkaan

liikkumisen sekä liikerataan perustuvan liikkumisen. Darken ja Sibert [1996] ovat tut-

kineet laajalti virtuaalimaailmoissa tapahtuvaa navigointia. He esittävät, että päätehtä-

vän mukaiseen tarkoitukseen pohjaava liikkuminen voi olla naiivin haun kaltaista,

missä kohteen sijaintia ei tiedetä, päämäärätietoista, jolloin kohteen sijainti tiedetään

tai tutkimista, jolloin mitään varsinaista kohdetta ei ole.


Sivu 38

Liikkumiseen liittyvät motiivit voidaan jakaa karkeasti kahdentyyppisiin tapauksiin,

niihin missä käyttäjällä on selkeä kohde, johon hän haluaa päästä sekä niihin, joissa

käyttäjällä ei ole kohdetta, vaan hän pikemminkin haluaa saada käsityksen ympäris-

töstään. Darken ja Sibert huomauttavat, että paikanhakuun liittyvät tehtävät ovat

yleensä toisiinsa liittyneitä, jolloin esimerkiksi päämäärätietoista hakua saattaa edel-

tää useita naiviin hakuun pohjautuvia vaiheita. Joskus voi olla myös vaikeaa tehdä

eroa objektien tutkimisen ja maailmassa liikkumisen välille: tällöin käyttäjän sisäinen

malli toiminnoista ja käytännössä suoritettavat toimenpiteet saattavat olla hyvinkin

erilaisia. Tämä ilmiö tulikin hyvin esille puheohjatun selaimen käyttäjätesteissä.

Tässä tutkimuksessa keskityttiin sellaisiin tehtäviin, joissa käyttäjillä oli aina selkeä

kohde. Tulevaisuuden kannalta on mielenkiintoista tutkia myös sellaisia maailmoja,

joissa käyttäjä joutuu navigoimaan maailmassa kohteita etsien. On todennäköistä, että

puheen käyttämiselle löytyy tällöin menetelmiä, jotka ovat vaikeita toteuttaa muilla

tavoin. Esimerkiksi objektien luokse siirtymisessä voidaan käyttää hyväksi perustoi-

menpiteitä ilmaisuvoimaisempia komentoja. Näitä on hahmoteltu kohdassa 7.5.3.

4.4.2 Liikkumisen perusmetaforat

Ware ja Osborne [1990] esittivät kolme vuorovaikutusmetaforaa, joiden variaatioina

voidaan pitää suurinta osaa käytännössä toteutetuista vuorovaikutusmenetelmistä.

Heidän esittämiensä metaforien mukaan maailmaa voidaan havainnoida kädessä pi-

dettävän kameran avulla, pitämällä maailmaa kädessä tai ohjaamalla virtuaalista kul-

kuneuvoa maailmassa. Mikään menetelmistä ei ole heidän mukaansa ylivoimainen

kaikkiin tehtäviin, vaan jokaisella on omat heikot ja vahvat alueensa.

Tarkasteltaessa maailmaa kädessä pidettävän kameran läpi käyttäjän tarkkailupisteen

asema muuttuu suhteessa käden liikkeeseen. Vastaavan liikkeen suorittaminen kädes-

sä pidettävälle maailmalle aiheuttaa maailman aseman muuttumisen käden liikkeen

suuntaisesti. Näin ollen sama käden liike näkyy käyttäjälle vastakkaissuuntaisena

muutoksena näkymässä eri metaforia käytettäessä.

Esimerkkinä metaforien vaikutuksista siirtymä oikealle aiheuttaisi kuvan 4-1 esityk-

sen mukaisessa maailmassa tarkkailupisteen position x-koordinaatin kasvamisen

(siirtyminen origosta oikealla) käytettäessä ”kamera kädessä” –metaforaa ja vastaa-


Sivu 39

vasti käytettäessä ”maailma kädessä” –metaforaa tarkkailupisteen x-koordinaatti pie-

nenisi (siirtyminen origosta vasemmalle).

Virtuaalista kulkuneuvoa käytettäessä tarkkailija havaitsee maailman kulkuneuvon

kautta. Liike on tällöin suhteessa kulkuneuvoon, mikä tekee tästä objektikeskeisen

tarkastelutavan. Kulkuneuvon ominaisuuksien kontrollointi saattaa tuottaa lisää vapa-

usasteita, jolloin esim. kulkuneuvon suunta ja kameran suunta saattavat olla erilaiset.

4.4.3 Liikkeen kontrollointi

Liikkumista määräävät käytettävän metaforan lisäksi erilaiset käyttäjän suorittamat

liikkeen kontrollointitoimenpiteet. Bowman et al. [1997] esittävät uppouttaviin virtu-

aaliympäristöihin tarkoitetun taksonomian, jossa liikettä määräävät tekijät jaetaan

kolmeen pääluokkaan, liikkeen suunnan tai kohteen valitsemiseen, nopeuden tai kiih-

tyvyyden kontrolloimiseen sekä liikkeen kestoa määrääviin tekijöihin. Heidän takso-

nomiansa on esitetty yleistettynä kuvassa 4-2.

VXXQQDQ�WDL�NRKWHHQYDOLWVHPLQHQ

QRSHXGHQ�WDL�NLLKW\Y\\GHQ�YDOLWVHPLQHQ

OLLNNHHQ�NHVWRQNRQWUROORLQWL

VXXQQDQ�YDOLQWDDQ�SHUXVWXYD�RKMDXV

NRKWHHQ��GLVNUHHWWL��YDOLQWD

YDNLRDUYRLQHQ

HNVSOLVLLWWLVHVWL�NRQWUROORLWX

Nl\WWlMlQ�WDL�\PSlULVW|Q�VNDDODDPLQHQ

DXWRPDDWWLQHQ�WDL�DGDSWLLYLQHQ

YDNLROLLNH

MDWNXYD�NRQWUROORLQWL

DORLWWDPLVHQ�MD�ORSHWWDPLVHQ�NRQWUROORLQWL

DXWRPDDWWLQHQ�DORLWXV�WDL�ORSHWXV

Kuva 4-2: Liikkeen kontrolloinnin taksonomia.

Suunnan valitsemiseen perustuva liike ei riipu maailmassa olevista objekteista. Koh-

teen valitseminen tapahtuu aina jonkin maailmassa olevan objektin tai ennalta mää-

rätyn paikan mukaisesti. Paikan ei välttämättä tarvitse liittyä mihinkään objektiin.

Mielenkiintoinen esimerkki käyttäjän tai ympäristön skaalaamisesta on Stoakleyn ja

kollegoiden [1995] kehittämät kädessä pidettävät miniatyyrimaailmat.


Sivu 40

4.4.4 Korkean tason liikkumismetaforat

Erilaisia perusmetaforien ja liikkeen kontrollointimenetelmien pohjalta muodostuvia

korkean tason liikkumismetaforia on käytännössä melkein yhtä paljon kuin sovelluk-

siakin. Nämä voidaan jakaa melko kattavasti kävelyyn, lentämiseen, kulkuneuvon oh-

jaamiseen ja kohteen tai paikan mukaiseen siirtymiseen. Mikään menetelmä ei sovellu

yleispätevästi kaikkiin tilanteisiin: pelkästään yhden liikkumismuodon käyttäminen

saattaa rajoittaa liiaksi käyttäjää [Bourdakis, 1996]. Tämä näkyi hyvin myös puheohjatun

selaimen tapauksessa.

Nopeimmiksi ja luotettavimmiksi liikkumistavoiksi on todettu erilaiset siirtymisme-

netelmät, joissa käyttäjä määrittää paikan, jonne siirrytään välittömästi. Haittapuolena

välittömässä siirtymisessä on se, että käyttäjän tietoisuus omasta asemastaan maail-

massa voi häiriintyä. Lisäksi siirryttävän paikan täytyy olla joko etukäteen tunnettu

(listalta valinta tai kuvaileminen) tai sen täytyy olla näkökentässä (valinta kohdisti-

mella). [Bowman et al., 1997]

Välitöntä siirtymistä parempaan tulokseen päästään siirtymällä kohteeseen pehmeästi.

Useisiin toteutettuihin järjestelmiin sisältyy tällainen kiinnostuksen kohteen mukainen

liikkumismekanismi, missä toimenpide tapahtuu kahteen osaan, liikkumiseen ja

orientoitumiseen jaettuna. Tämän menetelmän etuna on mm. se, että käyttäjä pystyy

kasvattamaan tietoutta ympäristöstä liikkumisen aikana [Mackinlay et al., 1990]. Tämä

menetelmä soveltuisi hyvin puheohjauksen yhteyteen. Tässä haluttiin kuitenkin tutkia

perustoimenpiteitä, jotka ainakin periaatteessa mahdollistavat yleispätevän liikkumi-

sen.

4.5 Vuorovaikutuksessa tarvittavien vapausasteiden rajoittaminen

Liikkumisen lisäksi virtuaalimaailmoissa tarvitaan menetelmiä objektien käsittelyyn.

Tähän on kehitetty runsaasti erilaisia menetelmiä varsinkin kolmiulotteisten käyttö-

liittymien alkuaikoina, jolloin tehtävät koostuivat pääosin objektien manipuloinnista.

Suurin osa näistä ratkaisuista olettaa, että tehtävät suoritetaan joko hiiren tai datahan-

sikkaiden välityksellä eli kinestistä syötteidenantomenetelmää käyttäen. Esitän tässä

sellaisia menetelmiä, joita on mahdollista hyödyntää puhetta käytettäessä.

Esitetyt ratkaisut lähestyvät objektien käsittelyä rajoittamalla tehtävän kannalta epä-

olennaisia vapausasteita. Paitsi objektien manipulointiin, näitä menetelmiä voidaan


Sivu 41

hyödyntää myös liikkumiseen, sillä liikkuminen voidaan nähdä kameran paikan ja

orientaation manipulointina. Selaimelle suoritettujen käyttäjätestien pohjalta havait-

tiin, että näitä menetelmiä voidaan hyödyntää erityisesti tarkassa työskentelyssä (ks.

kohta 7.5.2).

Erilaisten oletusarvojen käyttö on suosittu tapa poistaa tarpeettomia vapausasteita

sellaisissa tapauksissa, joissa objektin käsittelyssä ei tarvita kaikkia dimensioita. Teh-

täviä tulee tällöin tarkastella tarpeeksi pienissä osissa, sillä esimerkiksi niinkin perus-

luonteisen tehtävän kuin kappaleen osoittamisen on todettu jakautuvan erillisiin, pe-

räkkäisiin osiin [Balakrishnan et al., 1997]. Mikäli johonkin osatehtävään tarvitaan vä-

hemmän dimensioita kuin muihin, tulisi vapausasteita rajoittaa tällaista osatehtävää

käsiteltäessä sen vaatimusten tasolle. Reaalimaailmassakin kuuden vapausasteen teh-

tävät jaetaan usein osiin [Hinckley et al., 1994].

Oletusarvojen valinnassa voidaan käyttää hyväksi ihmisten kokemuksia reaalimaail-

massa tapahtuvasta objektien käsittelystä. Houden [1992] tutkimuksessa havaittiin, että

ihmisillä oli luonnollisen kaltaisessa tilanteessa selkeitä odotuksia sen suhteen, kuinka

objektien tuli käyttäytyä. Hänen onnistui jakaa useimmat manipulointitehtävät kol-

meen luokkaan, joiden perusteella objektien vapausasteita pystyttiin rajoittamaan ti-

lanteeseen sopivaksi. Houde huomauttaa, että manipulointimahdollisuuksien tulee

kuitenkin olla joustavia, sillä ihmiset käsittelivät esineitä eri tavoin. On myös selvää,

että tämänkaltaiset ratkaisut toimivat vain hyvin rajoitetuilla virtuaaliympäristöjen

osa-alueilla. Reaalimaailman vastaavuudet voivat olla myös vuorovaikutusta rajoitta-

va tekijä, sillä käyttäjien oletukset reaalimaailman objektien käyttäytymisestä vaikut-

tavat vahvasti vuorovaikutukseen.

Oletusarvojen lisäksi käytetään erilaisia yleisluontoisia ”vetovoimaan” pohjautuvia

ratkaisuja. Näistä tunnetuin lienee painovoiman hyväksikäyttöön pohjaava menetelmä

[Bier, 1990], jota on sittemmin hyödynnetty paljolti sekä itsenäisesti että osana muita

ratkaisuja. Tässä mallissa kohdistin kiinnittyy painovoimafunktion vaikutuksesta ob-

jektiin saapuessaan objektin vaikutusalueelle. Venolian [1993] ratkaisu on hieman sa-

mansuuntainen: siinä käytetään hyväksi magneettimetaforaa, jonka mukaisesti objek-

tit vetävät toisiaan puoleensa ollessaan tarpeeksi lähekkäin. Bukowskin ja Sequinin

[1995] menetelmässä objekteja voidaan liikutella ensin vapaasti; käyttäjän lopettaessa

siirron objekti asemoidaan uudelleen siihen liittyvien assosiaatiosuhteiden perusteella.


Sivu 42

4.6 Puheen käytöstä kolmiulotteisissa käyttöliittymissä

Puhetta on käytetty toistaiseksi hyvin vähän kolmiulotteisten käyttöliittymien syöttei-

denantomenetelmänä, vaikka sekä puheen että kolmiulotteisten käyttöliittymien näh-

däänkin olevan tärkeitä tekijöitä tulevaisuuden käyttöliittymissä [van Dam, 1997]. Tämä

johtunee osaksi puheteknologian kehittymättömyydestä, osaksi siitä, että virtuaalito-

dellisuuden yhteydessä on ollut voimakas suuntautuminen pois komentopohjaisista

käyttöliittymistä. Alueella on kuitenkin tehty jonkin verran tutkimusta. Tarkastelen

tässä neljää lähestymistapaa, jotka hyödyntävät puhetta luonnollisen kielen yhteydes-

sä, komentopohjaisena, multimodaalisen käyttöliittymän osana sekä avustavana

kommunikointimenetelmänä.

Karlgren kollegoineen [1995] on tutkinut luonnollisen kielen käyttöä virtuaaliympä-

ristöissä. He ovat ottaneet lähestymistavaksi sen, että puhuttu luonnollinen kieli so-

veltuu hyvin sellaisten asioiden ilmaisemiseen, joita on vaikeaa tai jopa mahdotonta

ilmaista muilla menetelmillä (ks. kohta 3.1.4). Karlgrenin ja kumppaneiden tutkimuk-

sessa esiintyy kaksi puheen käyttöön liittyvää tärkeää näkökulmaa: puhemetaforan

muodostuminen eli kenelle puhe on suunnattu ja puheessa esiintyvien viittausten sel-

vittämisen vaikeus.

Puhemetaforissa vastaanottaja voidaan kuvitella virtuaaliminäksi, maailmaksi, juma-

laksi, objektiksi tai agentiksi. Mikäli käskyjen vastaanottaja on maailma, käyttäjä ole-

tetaan eräänlaiseksi jumalolennoksi. Jumala-metaforassa vastaanottajaa taas pyyde-

tään toteuttamaan annetut komennot. Agentti puolestaan on käyttäjää palveleva hen-

kilö, joka toteuttaa käyttäjän antamia komentoja. Karlgren ja kumppanit ottivat lähtö-

kohdaksi agenttimetaforan; itse näkisin objektilähtöisen näkökohdan paremmaksi,

koska agenttimetaforaan liittyy merkittäviä ongelmia, kuten komentojen epäsuoruus.

Komentopohjaisen puheen osalta puhemetafora ei ole kovinkaan merkittävä, mutta

mitä enemmän lähestytään luonnollista puhekieltä, sitä tärkeämmäksi tämä asia muo-

dostuu. Jatkotutkimuksissa puhemetaforan valintaan tuleekin kiinnittää huomiota.

Jälkimmäinen Karlgrenin ja kollegoiden esille ottama näkökohta, puheeseen sisältyvi-

en viittausten (esim. ”siirrä se tuonne”) selvittäminen, onkin yksi merkittävimmistä

kysymyksistä luonnollista kieltä käyttävissä liittymissä. Ongelmia tuottaa mm. objek-

tien nimeäminen, mikä on erityisen vaikeaa abstraktien maailmojen yhteydessä. Käy-

tettävän kielen on kuitenkin todettu olevan melko hyvin hallittavissa: Goderéauxin ja


Sivu 43

kumppaneiden [1996] hyvin samankaltaisessa kontekstissa suorittamassa tutkimukses-

sa havaittiin, että yksittäisten sanojen osuus kommunikoinnissa oli 45% ja negaatio-

lauseita käytettiin ainoastaan 2%:ssa tapauksista. Käytännössä viittausten selvittämi-

seen kannattaa käyttää simuloitua koetta, jonka avulla viittauksia pystytään selvittä-

mään ilman työlästä prototyypin rakentamista.

Vaikka jotkut tutkijat näkevätkin perinteiset kaksiulotteiset menetelmät, kuten valikot,

soveltumattomiksi kolmiulotteisiin käyttöliittymiin, uskotaan näiden käytölle löyty-

vän perusteltuja tilanteita. Puheen on nähty mm. soveltuvan hyvin perinteisten ko-

mentopohjaisten tehtävien ohjaukseen kolmiulotteisten käyttöliittymien yhteydessä.

Useita vapausasteita suoraan kontrolloivien laitteiden on todettu olevan huonoja kak-

siulotteisissa tehtävissä, eikä vaihtaminen erilaisten laitteiden välillä olisi aina kovin-

kaan tehokasta [Hinckley et al., 1994].

Darkenin [1994] esittämä puheohjattu valikkojärjestelmä on hyvä esimerkki puheen

hyödyntämisestä tilanteessa, jossa yhdistetään kaksi- ja kolmiulotteista käyttöliitty-

mää. Perusideana on tarjota menetelmä niihin tilanteisiin, joissa tarvitaan tarkkoja,

diskreettejä syötteitä. Kontekstisidonnaiset, hierarkkiset menut toimivat käyttäjän ja

virtuaalimaailman välissä. Ne antavat tarvittavan informaation toimenpiteiden suorit-

tamiseen ja aiheuttavat mahdollisimman vähän ylimääräistä kuormitusta. Menetelmä

mahdollistaa syötteiden antamisen ilman käsien käyttöä ja perinteisiä kaksiulotteisten

käyttöliittymäkomponenttien ja kolmiulotteisten virtuaalimaailmojen yhdistämisen

ongelmia. Se onkin malliesimerkki tehtävän dimensioiden ja syötteidenantomenetel-

män dimensioiden kohtaamisesta.

Multimodaaliset käyttöliittymät ovat alue, jossa puheesta uskotaan olevan erityisesti

hyötyä. Varsinkin kannettavat henkilökohtaiset tietokoneet muodostavat kohteen, jos-

sa käyttäjä hyötyy multimodaalisesta syötteestä. Lähestymistapaa on tutkittu mm. so-

tilaskäytön sovelluksissa [Pittman et al., 1997] sekä erilaisissa muissa simulaatioissa.

Nämä eivät kuitenkaan sisällä puhesyötteitä varsinaisiin kolmiulotteisiin toimintoihin.

Tämän asian suhteen tutkimuskentässä onkin selvä aukko, jota tämä tutkimus pyrkii

osaltaan selvittämään.

Paitsi vuorovaikutukseen virtuaalisen kolmiulotteisen maailman kanssa, voidaan pu-

heentunnistusta käyttää hyväksi myös avustavassa kommunikoinnissa reaalimaailman

kolmiulotteisissa tehtävissä [Kazi et al., 1995]. Tulevaisuuden käyttöliittymien tulisikin


Sivu 44

ottaa huomioon myös nämä usein unohdetut käyttäjäryhmät, joihin kuuluvat esim.

erilaiset vammaiset ja lukutaidottomat [Herndon et al., 1994]. Uskon, että osa virtuaali-

maailmassa suoritettavien tutkimuksien tuloksista on siirrettävissä myös reaalimaail-

man kommunikointiin.

4.7 Lopuksi

Kolmiulotteisessa maailmassa tapahtuvaan vuorovaikutukseen ei ole vielä onnistuttu

löytämään yhtä hyviä menetelmiä kuin mitä kaksiulotteisiin työpöytäympäristöihin on

kehitetty. Usein ratkaisuina esitetään käyttöliittymäkomponentteja, joiden hallitsemi-

nen vaatii tarkkaa motorista kontrollointia. Tämä ei ole mahdollista kaikissa tilanteis-

sa eikä kaikille henkilöille. Puhe on merkittävä kommunikointiväline vaihtoehtoisena

syötteidenantomenetelmänä, sillä se soveltuu tehtäviin, joissa kädet eivät ole lainkaan

käytettävissä. Vaikka toiminta ei olisikaan tällöin maksimaalisen tehokasta, puhe

kuitenkin mahdollistaa kolmiulotteisen käyttöliittymän hallitsemisen.

Puhetta on tutkittu tähän asti kolmiulotteisten käyttöliittymien yhteydessä lähinnä

luonnollisen kielen näkökulmasta ja täydentävänä modaliteettina. Perusvuorovaiku-

tuksen yhteydessä puheohjausta ei sen sijaan ole juurikaan tutkittu. Näen kuitenkin

tarpeelliseksi myös perusvuorovaikutuksen tutkimisen, sillä tämä luo pohjan kor-

keamman tason toiminnallisuuden kehittämiseen ja mahdollistaa virtuaalimaailmojen

hallitsemisen myös silloin, kun edistyneemmät menetelmät eivät toimi. Esimerkiksi

multimodaalisten käyttöliittymien yhteydessä on tärkeää mahdollistaa kommunikointi

myös pelkästään yhtä modaliteettia käyttäen.

Seuraavassa luvussa esitetään puheohjattu VRML-selain, joka rakennettiin puheen

peruskäytön tutkimiseksi ja jatkotutkimusten koealustaksi. Selain on tässä vaiheessa

vielä hyvin yksinkertainen, mutta sitä on tarkoitus kehittää käyttäjätestien pohjalta.

Selaimella suoritetut käyttäjätestit muodostavatkin merkittävän osan tätä tutkimusta,

samoin kuin jatkokehityksen osalta esitetyt tutkimusideat. Lopullisena tavoitteena on

luoda puhetta monipuolisesti hyödyntävä menetelmä virtuaalisten maailmojen täysi-

mittaiseen hallitsemiseen.

PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 5 – PUHEOHJATTU SELAIN

Sivu 45

5 PUHEOHJATTU SELAIN

Puheohjauksen tutkimiseksi kolmiulotteisten käyttöliittymien yhteydessä rakennettiin

puheohjattu virtuaalimaailmojen selain. Prototyyppi konstruoitiin liittämällä puheen-

tunnistusjärjestelmä VRML 2.0-selaimeen. Kokoonpanon avulla suoritettiin käyttäjä-

testejä, joilla haluttiin selvittää puheohjauksen mahdollisuuksia ja ongelmia kolmi-

ulotteisissa käyttöliittymissä. Näiden pohjalta hahmotellaan kehittyneempää toimin-

nallisuutta virtuaalimaailmojen hallintaan.

Esitän tässä puheohjatun selaimen rakenteen ja toteutuksen siinä laajuudessa kuin se

on tarpeellista jatkon kannalta. Ensimmäiseksi selvitetään suunnittelun lähtökohtia.

Pääosa luvusta kohdistuu selaimen toiminnallisuuden kuvaukseen. Toteutuksen kan-

nalta tarkastellaan käytettyjä välineitä sekä toteutusprosessia. Lopuksi esitetään joita-

kin toteutukseen liittyviä huomioita.

5.1 Lähtökohdat

Koska käyttäjätesteissä haluttiin tutkia puheen soveltuvuutta kolmiulotteisten käyttö-

liittymien hallintaan pelkistetyissä olosuhteissa, lähdettiin toteutuksessa siitä, että

käyttäjän tulisi olla mahdollista hallita virtuaalimaailmaa täysin puheohjausta käyttä-

en. Tällä asetelmalla haluttiin saada ensinnäkin perustietoa siitä, kuinka puheohjaus

soveltuu kolmiulotteisen käyttöliittymän täysivaltaiseen hallintaan. Toisekseen näin

pystyttiin havainnoimaan puheen vahvoja ja heikkoja puolia multimodaalisia ratkai-

suja silmällä pitäen.

Selaimelle soveltuvimmiksi käyttökohteiksi ajateltiin erilaisia informaatiopalveluita,

joissa käyttäjän ensisijaisena tarkoituksena on saada käsitys esitetystä virtuaaliympä-

ristöstä ja siinä olevista objekteista. Varsinaista objektien manipulointia pidettiin vä-

hemmän tärkeänä toiminnallisuutena.

Tutkimalla käytetyn puheentunnistusjärjestelmän (ks. kohta 5.3) suorituskykyä ha-

vaittiin, että virhetasojen pitäminen kohtuullisella tasolla eli alle kymmenessä prosen-

tissa edellyttää, ettei komentovalikoima ylittäisi kymmentä komentoa. Lisäksi halut-

tiin minimoida komentojen muistamiseen liittyvät ongelmat (ks. kohta 3.4). Käytän-

nössä komentovalikoima mahdollistaisi ainoastaan hyvin suppean toiminnallisuuden,

jolla tulisi selviytyä useimmissa tilanteissa.


Sivu 46

Koska selaimen tärkeimmäksi kohteeksi määritettiin virtuaalimaailman havainnoimi-

nen, tulisi myös käytettävän komentovalikoiman tukea tätä päämäärää. Erilaisista

kohdassa 4.1 esitetyistä kolmiulotteisen maailman toimenpiteistä tärkeimmäksi kat-

sottiin liikkuminen, sillä se tukee parhaiten maailman havainnointia ja on yksinkertai-

sinta toteuttaa. Lisäksi haluttiin, että toimintovalikoima tukisi jollain tapaa myös ob-

jektien tarkastelua, sillä usein maailma koostuu ainoastaan yhdestä varsinaisesta koh-

teesta.

5.2 Toiminnallisuus

Toiminnallisuuden kannalta tärkeitä seikkoja ovat toimintojen määrittäminen, liikkeen

kontrollointi, näistä muodostuva metafora sekä toimintojen esittäminen komentoina.

5.2.1 Toimintojen määrittäminen

Liikkuminen on pohjimmiltaan näkökulman eli kameran paikan manipulointia, joten

siitä voidaan erottaa kuusi erilaista perusoperaatiota vapausasteiden mukaisesti. Pe-

rusliikkumiseen valittiin suuntaan pohjautuva liikkeen kontrollointi (ks. 4.4.3) eli ka-

meran siirto pääakseleiden mukaisesti. Käytännössä tämä tarkoittaa sitä, että liikutta-

essa horisontaalisesti vaikutetaan katsojan paikkaan x-koordinaatin mukaisesti, verti-

kaalisesti y-koordinaatin mukaisesti ja syvyyssuunnassa z-koordinaatin mukaisesti.

Suora katselupaikan liikuttaminen ei ole tehokkain mahdollinen menetelmä kaikkiin

tilanteisiin, mutta se tarjoaa yleispätevän ratkaisun, joka sopii kaikkiin tilanteisiin se-

kä kolmi- että kaksiulotteisessa liikkumisessa. Tätä voidaan pitää tärkeänä seikkana,

sillä osa varsinkin informaation visualisointiin tarkoitetusta materiaalista on luonteel-

taan ”2 ½-ulotteista” eli yhdistää useita kaksiulotteisia näkymiä samaan kolmiulottei-

seen tilaan [Koike, 1993]. Kohteen mukainen liikkuminen olisi erittäin hyvä lisä täy-

dentämään suuntaan pohjautuvaa liikkumista. Ainoana menetelmänä kohteen mukai-

nen liikkuminen ei sen sijaan ole riittävä [Mackinlay et al., 1990].

Koska perusliikkuminen päätettiin toteuttaa suoraviivaisesti katsojan paikan siirtämi-

senä, olisi ollut luonnollista tarjota vastaavankaltaiset kääntymisoperaatiot orientaati-

on muutoksille. Tämä olisi vastannut mallia, jossa käyttäjä manipuloi kameran asen-

toa sen pysyessä paikallaan. Tällä lähestymistavalla on kuitenkin ongelmansa: se ei

tue maailmassa olevien objektien tarkastelua lainkaan, vaan esim. halutessaan nähdä


Sivu 47

edessään olevan kohteen takaapäin käyttäjän olisi sekä siirryttävä kohteen taakse että

muutettava orientaatiotansa 180 astetta.

Tutkimalla eri selaimissa esiintyviä vuorovaikutusmenetelmiä havaittiin, että kohteen

tarkastelu hoidetaan useimmissa tapauksissa liikkumalla kohteen ympärillä siten, että

etäisyys ja fokus kohteeseen säilyvät. Tämä saavutetaan muuttamalla tarkkailupisteen

paikkaa kahden koordinaatin mukaisesti ja orientaatiota yhden koordinaatin mukai-

sesti. Reaalimaailman vastaavuus olisi esimerkiksi näyttelyesineen ympärillä kiertävä

katselija. Käyttäjän kannalta sama päämäärä saavutettaisiin muuttamalla kappaleen

orientaatiota eli kysymys on tällöin kohdassa 4.4.2 esitetyn terminologian mukaisesti

”kamera kädessä” ja ”maailma kädessä”- metaforien välisestä erosta.

5.2.2 Liikkeiden kontrollointi

Toiminnallisuuden osalta oli päätettävä liikkeiden nopeuden ja keston kontrolloinnis-

ta. Nopeuden kannalta paras mahdollinen vaihtoehto olisi automaattinen kontrollointi,

koska jatkuva kontrollointi on käytännössä liian vaikeaa puheen luonteesta johtuen.

Parametrisoitu nopeuden kontrollointi eli nopeuden ilmaiseminen määreen avulla taas

on vaikeaa, koska se edellyttää eri parametrien vaikutusten hyvää tuntemusta. Koska

automaattinen nopeuden kontrollointi vaatisi kontekstin huomioonottamista, tässä

prototyypissä tyydyttiin vakionopeuksiseen liikkumiseen. Erilaisia vaihtoehtoja tilan-

teen parantamiseen kartoitettiin käyttäjätestien aikana: näitä on esitetty kohdassa

7.5.2.

Liikkeiden keston kontrolloinnin osalta toteutettiin mahdollisista vaihtoehdoista (ks.

kohta 4.4.3) kaksi, vakioliike sekä aloittamis- ja lopettamiskomentoihin perustuva lii-

ke. Nämä olivat soveltuvimpia vaihtoehtoja, sillä jatkuva kontrollointi on käytännössä

mahdotonta puheohjauksella toteutettavaksi eikä automatiikan käyttäminen ollut rea-

listista tämän projektin puitteissa. Vakioliikkeestä toteutettiin kaksi variaatiota, vakio-

nopeuksinen liike sekä tapa, jossa nopeus on asetettu äärettömäksi eli liike on

diskreetti siirtymä lähtöpisteestä maalipisteeseen. Aloittamis- ja lopettamiskomentoi-

hin perustuvassa liikkumisessa liikkeen lopettaa pysähtymiskomento ”cut”.

Perustilassa sallittiin vain yksi liike kerrallaan. Kokeiluja varten toteutettiin tila, jossa

komentojen vaikutukset yhdistettiin, jolloin oli mahdollista saada aikaan jopa viiden

liikkeen kombinaatio. Tämän tilan hyödyntäminen tuottikin mielenkiintoisia tuloksia,


Sivu 48

sillä sen nähtiin mm. parantavan käyttäjän osallistumisen tunnetta (ks. kohta 7.5.1).

Lisäksi sallittiin mahdollisuus uuden korvaavan komennon antamiseen ennen edelli-

sen komennon vaikutuksen loppumista. Jatkon kannalta on hyödyllistä tutkia erilaisia

lähestymistapoja komentojen suorittamiseen, sillä käyttäjätestien perusteella näillä on

merkittävä vaikutus varsinkin käyttäjien tyytyväisyyteen.

5.2.3 Metafora

Vuorovaikutukseen liittyy olennaisesti matalan tason vuorovaikutusmetaforan valinta:

halutaanko komentojen vaikutukset toteutettavan ”kamera kädessä” vai ”maailma kä-

dessä” näkökulmasta käsin. Kuten kohdassa 4.4.2 todettiin, kumpikaan näistä metafo-

rista ei sovellu kaikkiin tilanteisiin. ”Kamera kädessä” metafora valittiin, koska sen

nähtiin tukevan paremmin maailmassa liikkumista. ”Kamera kädessä” metafora on

lisäksi aloittelijoille helpommin opittava [Ware & Osborne, 1990].

Kokonaisuutena liikkumis- ja kääntymistoiminnoista syntyy metafora, jossa käyttäjä

liikkuu virtuaalisessa tilassa ohjaten itseään ajoneuvolla, joka ei edellytä katsomis-

kulman vaihtumista liikkumisen aikana. Mahdollisia tulkintoja on muitakin, eräs

niistä on täydellinen ulkoistaminen maailman suhteen eli käyttäjä myös ajattelee lii-

kuttavansa virtuaalista kameraa kolmiulotteisessa avaruudessa. Objekteja tarkastelta-

essa on luonnollinen tulkinta jo edellä mainittu kiertely objektin ympärillä.

Aikaisemmissa tutkimuksissa ohjausmetaforia on tarkasteltu sellaisten syöttölaitteiden

yhteydessä, jotka perustuvat käsien käyttöön. Tällöin esim. kinestinen palaute toimii

metaforaa tukevana tekijä. Puhetta käytettäessä ollaan pelkästään (audio)visuaalisen

informaation varassa. Metaforaa tukemaan lisättiin selaimeen kohdistin. Kohdistin

toteutettiin läpinäkyvänä suorakulmiona keskelle kuvaruutua. Tämän toivottiin autta-

van käyttäjää metaforan omaksumisessa, sillä kohdistin tarjoaa kiintopisteen, jonka

käyttäjä voi hahmottaa joko omana paikkanaan tai maailmassa liikuteltavana objekti-

na. Käyttäjätesteissä kuitenkin havaittiin, ettei tämä keino yksinään ole riittävä.

5.2.4 Toimintojen esittäminen komentoina

Toiminnallisuus täytyy realisoida komennoiksi. Komennot haluttiin pitää mahdolli-

simman luonnollisina metaforan kannalta, mutta kuitenkin selkeästi toisistaan erotet-

tavina puheentunnistusjärjestelmän näkökulmasta. Nämä kaksi tavoitetta ajautuivatkin


Sivu 49

pian ristiriitaan: sellaisen komentovalikoiman löytäminen, joka olisi tukenut hyvin

sekä käytettävää metaforaa että puheentunnistuksen luotettavuutta ei ollut helppoa.

Komentojen kokeileminen oli erittäin vaivalloista, sillä yhden komennon muuttami-

nen vaikutti koko järjestelmän tunnistuskykyyn. Tästä vaiheesta muodostuikin pitkäl-

linen iteratiivinen prosessi.

Perusliikkumiskomentojen osalta selkein ratkaisu oli käyttää yksisanaisia, suuntaa

osoittavia komentoja. Tunnistuksen kannalta havaittiin parhaiten soveltuviksi ilman-

suuntien nimien käyttäminen horisontaaliseen (”east”, ” west”) ja vertikaaliseen

(”north”, ” south”) liikkeeseen ja ”closer” sekä ”away” sanojen käyttäminen syvyys-

suunnassa tapahtuvaan liikkumiseen. Kuva 5-1 esittää liikkumiskomentojen vaikutuk-

sia.

\�

[�

DZD\

]�

FORVHU

]�

HDVW [�

QRUWKVRXWK

\�

ZHVW

Kuva 5-1: Liikkumiskomentojen vaikutukset.

Kääntymistoimintojen osalta komentosanojen valinta ei ollut kovinkaan selkeää: eri

vaihtoehtoja kokeiltaessa päädyttiin lopulta käyttämään liikkumiseen tarkoitettuja

komentoja, joiden eteen oli liitetty sana ”turn”. Tämän voidaan nähdä viittaavan sekä

käyttäjän kääntymiseen maailman suhteen että objektin kääntämiseen sitä tarkastelta-

essa. Malli toimiikin hyvin xz- ja yz-tasojen kanssa eli kierrettäessä kohteen ympäri

vaakatasossa ja vertikaalisesti; ongelmallista on sen sijaan xy- eli kuvaruudun tasossa

tapahtuva operointi: tähän käytettävät z-akselin liikkumiskomennot (”closer”,

”away”) yhdistettynä kääntymistä ilmaisevaan ”turn”-komentoon eivät muodosta

mielekästä yhdistelmää.


Sivu 50

Ratkaisuna xy-tason orientointiongelmaan olisi ollut kokonaan erilaisten komentojen

käyttäminen. Tämä olisi kuitenkin aiheuttanut ongelmia puheentunnistuksen kanssa,

joten xy-tason mukainen orientointi jätettiin kokonaan toteuttamatta. Käytännössä tä-

mä onkin vähiten käytetty toiminto useimmissa tilanteissa. On myös mahdollista saa-

da xy-tason mukainen orientointi aikaan yhdistämällä xz- ja yz-tasojen liikkeitä, jos-

kaan tämä ei ole kovinkaan luonnollista ja vaatii aivan liikaa työtä ja kolmiulotteista

ajattelukykyä. Kohdassa 7.5.5 on esitetty ratkaisuja ongelmaan jatkokehitystä silmäl-

läpitäen.

[�

]�

\�

[�

]�

\]�WDVR

[�

\�

]�

\�

]�

�D� �E�

Kuva 5-2: Kääntymiskomentojen tasoesitykset.

[�

]�

[�

]�

]�

\�

]�

\�

7XUQ�HDVW

7XUQ�ZHVW

7XUQ�QRUWK

7XUQ�VRXWK

Kuva 5-3: Kääntymiskomentojen vaikutukset.


Sivu 51

Kuva 5-2 esittää muodostuneiden kääntymistoimintojen liikeratoja. Kohdassa (a) on

kysymyksessä xz-tasolla tapahtuva liikkuminen ja y-akselin mukainen orientointi eli

”turn west” ja ”turn east”-komennoilla aikaansaatu toiminnallisuus. Kohdassa (b) on

vastaavasti yz-tasolla liikkuminen ja x-akselin mukainen orientointi eli ”turn north” ja

”turn south”-komentojen vaikutus. Kuvassa 5-3 on esitettynä kääntymiskomentojen

vaikutukset esimerkkitapauksessa.

5.3 Konstruointiin käytetyt välineet

Prototyyppi toteutettiin Sun Solaris 2.5.1-ympäristössä 200 Mhz UltraSparc 2-

työasemalla. Koneeseen oli liitettynä 21 tuuman värimonitori ja laitteiston mukana

toimitettava perusmikrofoni. Koneessa oli lisäksi kolmiulotteisen grafiikan kiihdytin.

Sovelluksen pohjana käytettiin vapaasti saatavilla olevaa VRwave VRML 2.0-selainta

[Andrews et al., 1998]. Ensin selaimesta käytettiin versiota 0.7.8 ja myöhemmin siirryt-

tiin versioon 0.8. VRwave pohjautuu toiminnallisuuden osalta VRML 1.0-kielelle tar-

koitettuun VRweb-selaimeen [Pichler et al., 1995]. Selain valittiin, koska se oli ainoa va-

paasti levitettävä VRML 2.0-selain, josta oli saatavilla myös lähdekoodi. Lisäksi se-

lain tuki OpenGL–rajapintaa, mikä mahdollisti grafiikkakiihdyttimen hyödyntämisen.

Puheentunnistukseen käytettiin grapHvite-järjestelmää [Entropic, 1998], puhesovellus-

ten konstruointiin tarkoitettua ohjelmistopakettia. GrapHvite sisältää ohjelmointiraja-

pinnan Java-kielelle, minkä ansiosta puheentunnistuksen liittäminen Java-kielellä to-

teutettuun VRwave-selaimeen oli suoraviivaista. Lisäksi paketti sisältää sanaston ja

kieliopin määrittelyyn tarkoitetun graafisen apuohjelman, mikä helpotti huomattavasti

sanaston määrittelyvaihetta.

Teknisiltä ominaisuuksiltaan grapHvite ei ollut kaikkein parhaiten soveltuva ratkaisu.

Järjestelmä on puhujasta riippumaton, jatkuvaa puhetta tunnistava, rajoitettua kieliop-

pia käyttävä ja tarkoitettu keskisuuren sanavaraston omaaviin sovelluksiin. Ihannerat-

kaisu olisi ollut puhujaan mukautuva, pienen sanavaraston omaava ja yksittäisiä sa-

noja puheesta erottava järjestelmä. Käytännössä tällaista järjestelmää ei kuitenkaan

ollut saatavilla, joten kokonaisuuden huomioon ottaen grapHvite oli paras mahdolli-

nen kompromissi.


Sivu 52

5.4 Selaimen toteutus

Puheentunnistus pyrittiin liittämään selaimeen mahdollisimman itsenäisenä kompo-

nenttina. Kaikkein paras ratkaisu olisi ollut selaimen ohjaaminen EAI-rajapintaa [Mar-

rin, 1997] käyttäen. Valitettavasti VRwave ei tukenut vielä tuossa vaiheessa EAI:ta.

Käytännössä jouduttiin turvautumaan lähdekoodin muokkaamiseen.

Huolimatta ad-hoc-ratkaisuun ajautumisesta suunniteltiin puhesyötteiden käsittelyä

ohjaava komponentti mahdollisimman selainriippumattomaksi. Tavoitteeseen pääs-

tiinkin, sillä kokeiluluonteisesti Liquid Reality -selaimeen [Microsoft, 1998] liitettäessä

puhekomponenttiin tarvittiin ainoastaan muutaman lähdekoodirivin muutos. Uskon-

kin, että ratkaisu mahdollistaa puheohjauksen liittämisen suurimpaan osaan VRML–

selaimia hyvin vähäisellä työllä.

Kuvassa 5-4 näkyy puhekomponentin yleisrakenne sekä yhteys VRML-selaimeen ja

puheentunnistusjärjestelmään. Toimintojen jakaminen loogisiin osiin mahdollistaa

erilaisten ratkaisujen kokeilemisen muita osia muuttamatta. Asetustiedostoilla mah-

dollistetaan erilaiset käyttäjäprofiilit ja ajonaikaisilla parametreilla voidaan vaikuttaa

mm. tunnistuskynnyksiin ja vaihtaa komentojen vaikutuksia.

VRML-selainVRML-selain

Asetukset(tiedosto)

Asetukset(tiedosto)

Ajonaikaisetparametrit

(GUI)

Ajonaikaisetparametrit

(GUI)

PuheentunnistusjärjestelmäPuheentunnistusjärjestelmä

Puheentunnistuksenohjaus ja syötteiden

käsittely

Puheentunnistuksenohjaus ja syötteiden

käsittely

Komentojenmuuntaminentoiminnoiksi

Komentojenmuuntaminentoiminnoiksi

Toimintojen muuntaminenselainkohtaisiksi

Toimintojen muuntaminenselainkohtaisiksi

= informaation välityssuunta

= toiminnan säätely

= ulkopuoliset komponentit

= järjestelmän moduulit

Kuva 5-4: Sovelluksen yleisrakenne.

Toteutuksessa kiinnitettiin erityisesti huomiota tunnistuksen nopeuteen. Ihmisen on

todettu olevan herkkä viiveille, erityisesti virtuaalitodellisuuden yhteydessä [Wloka,

1995]. Koska tämän tekijän aiheuttamista vaikutuksista haluttiin päästä eroon, asetet-


Sivu 53

tiin tavoitteeksi viiveiden minimointi. Tämä johti käytännössä kompromisseihin, joi-

den seurauksena tunnistustarkkuus kärsi hieman joissakin tapauksissa. Keskimääräi-

nen viive saatiin kuitenkin lyhennettyä kymmenysosiin siitä, mitä se oli ilman opti-

mointia. Käytännössä tämä tarkoitti yli sekunnin mittaisten viiveiden lyhenemistä se-

kunnin kymmenysosiin.

Viiveiden lyhentämistä lähestyttiin useilta suunnilta. Paras tulos saavutettiin, kun pu-

heentunnistusprosessi katkaistiin ennen sen varsinaista loppumista. Tällä oli kahden-

laisia sivuvaikutuksia: havaittiin, että joskus annettu komento tulkittiin aluksi väärin,

mutta järjestelmä antoi hetken päästä oikean vastauksen. Katkaisemalla tunnistuspro-

sessi ensimmäiseen vastaukseen päädyttiin väärään tulkintaan. Nämä tapaukset olivat

kuitenkin harvinaisia. Toinen sivuvaikutus oli se, että komento saatettiin tulkita jo en-

nen sen loppumista. Tämäkin tapaus oli melko harvinainen.

Tunnistusvirheiden vähentämiseksi sovellukseen lisättiin yksinkertainen tunnistus-

kynnyksiin perustuva karsintamenetelmä. Tunnistuskynnys on arvo, jonka alittavia

tunnistusarvoja ei hyväksytä oikeellisiksi komennoiksi. Tunnistusarvo on puolestaan

komentoon liittyvä pisteytys, joka kertoo, kuinka varma järjestelmä on antamastaan

vastauksesta. Tunnistuskynnysten asettaminen tapahtui käyttäjäkohtaisesti.

5.5 Huomiota toteutuksesta

Ennakkoon oli selvää, että puheen käyttäminen on ongelmallista joissakin tilanteissa.

Puhe ei ole erityisen hyvä menetelmä esimerkiksi tarkkuutta vaativaan liikkeen ohja-

ukseen [Buskirk & LaLomia, 1995]. Ideaalisesti puhe tulisi varata sellaisiin toimintoihin,

joihin se soveltuu parhaiten. Näitä ovat esimerkiksi valikkoja ja näppäinoikoteitä kor-

vaavat komennot [Leatherby & Pausch, 1992]. Tämän tutkimuksen kannalta oli kuitenkin

oleellista tutkia myös niitä puheen käytöstä aiheutuvia ongelmia, joita tulee esille pu-

heelle epäedullisissa olosuhteissa.

Puheohjatun selaimen kehittämisessä jouduttiinkin tekemään runsaasti kompromisseja

sekä käsitteellisellä että teknisellä tasolla. On selvää, että toteutettu prototyyppi ei sovi

kaikkien kolmiulotteisten virtuaaliympäristöjen tutkimiseen, merkittävimpinä näistä

reaalimaailmaa muistuttavat ympäristöt. Kuitenkin toteutuksen uskottiin palvelevan

melko hyvin tämän tutkimuksen päätarkoitusta, kolmiulotteisissa ympäristöissä ta-

pahtuvan vuorovaikutuksen tutkimista ja edelleenkehittämistä.

PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT

Sivu 54

6 KÄYTTÄJÄTESTIT

Edellisessä luvussa esitetyllä selaimella suoritettiin kuusitoista käyttäjätestiä. Käyttä-

jätestien avulla etsittiin erityisesti ongelmia, joita puheohjauksessa voi ilmetä. Testien

yksi tarkoitus oli myös käyttäjien tuominen osaksi kehitystyötä. Saatujen havaintojen

ja käyttäjien kommenttien pohjalta on tarkoitus muodostaa kehittyneempi malli puhe-

ohjauksen toteuttamiseen.

Tässä luvussa on kuvattu käyttäjätestien tarkoitus, olosuhteet, koehenkilöt, havainto-

jen tallentaminen sekä ensivaikutelmien keruu ja alustavat testit. Testeistä on kuvattu

tehtävät, käyttäjille esitetyt kysymykset, suoritus sekä analysointimenetelmät. Lopuksi

esitetään joitakin tärkeimpiä huomioita testeistä ja koejärjestelyistä.

6.1 Testien tarkoitus

Käyttäjätestien tarkoituksena oli kerätä tietoa komentoluonteisen puheen soveltuvuu-

desta kolmiulotteisen käyttöliittymän hallintaan ainoana syötemodaliteettina. Erityi-

sesti pyrittiin kartoittamaan sekä tilanteita, jotka olisivat puheelle otollisia että puheen

ongelmakohtia. Näitä tietoja voitaisiin soveltaa paitsi virheenkorjauksessa niin myös

multimodaalisten käyttöliittymien yhteydessä.

Puheohjausta haluttiin tutkia mahdollisimman pelkistetyissä olosuhteissa. Tämä tar-

koittaa käytännössä sitä, että tilanteet pidettiin hyvin yksinkertaisina käyttäen pieniä,

harvoja ja staattisia maailmoja (ks. kohta 4.3). Virheenkorjausmekanismeja ei ollut

yksinkertaista tunnistusarvojen suodatusta lukuunottamatta lainkaan. Tämä ratkaisu

mahdollistaa perusmateriaalin hankkimisen, mikä on tärkeää korkeamman tasoisen

toiminnan kehittämiselle.

Ensisijaisesti pyrittiin kartoittamaan erilaisia virhetilanteita ja analysoimaan virheiden

syitä. Tunnistusvirheiden lisäksi tutkittiin semanttisia virheitä, jotka aiheutuivat pää-

asiassa kolmiulotteisen maailman hahmottamisesta ja ohjaukseen käytetystä metafo-

rasta. Tärkeänä tekijänä tässä prosessissa oli käyttäjien haastatteleminen. Haastatte-

luilla pyrittiin saamaan esiin paitsi virheiden syitä myös niiden vaikutuksia käyttäjien

tyytyväisyyteen.

Selaimen toiminnallisuuden tarkastelun ohella pidettiin tärkeänä jatkokehitykseen tar-

vittavien ideoiden keräämistä. Koekäyttäjät esittivätkin useita kallisarvoisia mielipi-


Sivu 55

teitä ja ehdotuksia toiminnallisuuden lisäämiseksi ja parantamiseksi. Tällainen käyt-

täjälähtöinen suunnittelu onkin erittäin tärkeä näkökohta puhekäyttöliittymien yhtey-

dessä yleisten suunnitteluperiaatteiden puuttuessa.

6.2 Testiolosuhteet

Käyttäjätestit suoritettiin Digitaalisen Median Instituutissa Tampereella. Testitilana

toimivassa työhuoneessa (kuva 6-1 vasemmalla) oli neljä tietokonetta, joista lähti jon-

kin verran enemmän taustamelua kuin mitä normaalissa yhden käyttäjän työase-

maympäristössä tavallisesti on. Sekä kehitystyö että käyttäjätestit suoritettiin samassa

ympäristössä. Tällä ratkaisulla vältyttiin ylimääräisiltä ongelmilta, joita kehitys ja

testaus eri ympäristössä olisi saattanut aiheuttaa.

Puhesyötteiden välittämiseen käytettiin halpaa Sound Blaster –merkkistä mikrofonia,

joka on tyypillinen kotimikron peruslisälaite (kuva 6-1 oikealla). Mikrofoni ei ole

taustahälyä vaimentava. Mikrofoni sijoitettiin pöydälle monitorin eteen osoittamaan

suoraan käyttäjää kohden. Tämä ratkaisu mahdollisti luonnollisen käyttötilanteen eikä

vaatinut käyttäjältä erityistoimenpiteitä. Päähän asetettavan mikrofonin käyttäminen

olisi tehnyt tilanteesta epäluonnollisemman ja jäykän.

Kuva 6-1: Testiolosuhteet.

Kaikkiaan olosuhteet olivat hyvin lähellä luonnollista työympäristöä. Tämä seikka

erottaakin suoritetut testit useista muista puhesovellusten evaluoinneista, jotka yleensä

tehdään laboratorio-olosuhteissa. Olosuhdetekijöillä oli merkitystä myös testien koh-


Sivu 56

teena, sillä yksi kiinnostava kysymys oli tutkia, millaisia tunnistustasoja nykyteknolo-

gialla pystytään saavuttamaan aidoissa työskentelyolosuhteissa.

6.3 Koehenkilöt

Koehenkilöinä käytettiin suomenkielisiä korkeakouluopiskelijoita sekä korkeakoulu-

maailmassa työskenteleviä henkilöitä. Kaikilla koehenkilöillä oli hyvä tietokoneen

käyttötaito ja sujuva englanninkielen hallinta. Koehenkilöt olivat iältään pääosin 20-

30 vuotiaita. Miehiä kuudestatoista osallistujasta oli kolmetoista. Kolmesta naispuoli-

sesta koehenkilöstä ainoastaan yksi osallistui lopullisiin testeihin, muut kaksi olivat

alustavissa testeissä.

Kokemustasoltaan kaikki käyttäjät voidaan luokitella yleisiltä tietokoneen käyttötai-

doiltaan eksperttikäyttäjiksi ja molempien sovellusalueiden kannalta noviisikäyttäjik-

si. Perinteistä luokittelua noviisi-, kokenut- ja eksperttikäyttäjiin ei näiden testien

puitteissa pystyttykään muodostamaan.

Koehenkilöt muodostivat melko homogeenisen ryhmän. Tähän vaikutti osaltaan se,

että testihenkilöt oli etsitty pääosin läheisistä työhuoneista. Haluttiin myös, että testei-

hin osallistuvilla koehenkilöillä on jonkinasteinen perustuntemus tietokoneen käytöstä

ja hyvä kielitaito. Vaikka koehenkilöt muodostavatkin melko suppean ryhmän, en us-

ko, että tämä rajaa perushuomioiden arvoa kovinkaan merkittävästi, sillä koehenki-

löillä ei ollut tutkittavien asioiden suhteen poikkeavia taitoja tai ominaisuuksia.

6.4 Havaintojen tallentaminen

Testien analysoimiseksi oli käyttäjien toimenpiteet ja niiden vaikutukset taltioitava

siten, että tilanteet olisivat myöhemmin konstruoitavissa yksikäsitteisesti ja ajallisesti

tarkasti. Tähän oli periaatteessa kaksi lähestymistapaa: tallentaa informaatio joko jär-

jestelmän sisältä käsin tai käyttää ulkoisia audio- ja videolaitteita. Kumpikaan vaihto-

ehto ei ollut yksinään riittävä, joten testien tallentamiseen käytettiin molempia mene-

telmiä.

Digitaalisella videokameralla tallennettiin kuvaruudun tila ja käyttäjän antamat ko-

mennot. Tämä olisi ollut mahdollista tehdä suoraan työaseman audio- ja videoulostu-

loistakin, mutta videokameraa käyttämällä saatiin kuvaan mukaan hieman ympäristöä

sekä käyttäjän muita toimenpiteitä. Näiden avulla pystyttiin myöhemmin tekemään


Sivu 57

päätelmiä mm. mahdollisista virheiden syistä. Lisäksi menetelmä soveltui hyvin tes-

tien yhteydessä toteutettujen haastattelujen tallentamiseen.

Sovelluksen tulosteet eli tiedot tunnistetuista komennoista tallennettiin tekstitiedos-

toon. Komennot varustettiin aikamerkinnöillä ja puheentunnistusjärjestelmän anta-

milla tunnistusarvoilla sekä tunnistustapahtumien ja tunnistettujen komentojen kes-

toilla.

6.5 Ensivaikutelmien keruu ja alustavat testit

Ennen varsinaisia käyttäjätestejä suoritettiin joukko testejä, joissa kerättiin vaikutel-

mia rakennetusta selaimesta sekä kokeiltiin erilaisia tehtäviä. Kaksi ensimmäistä is-

tuntoa keskittyivät lähinnä käsitteellisten ja teknisten ongelmien etsimiseen. Kolman-

nella ja neljännellä testikerralla tarkasteltiin muodostettujen tehtävien soveltuvuutta.

Viides testikerta koostui pilottitestistä.

Ensivaikutelmia ryhdyttiin keräämään heti, kun selain oli saatu toimintakuntoon.

Käyttäjille annettiin mahdollisuus selailla vapaasti virtuaalimaailmoissa, jotka oli etu-

käteen etsitty tietoverkosta. Tässä vaiheessa kiinnitettiin huomiota ongelmien kartoi-

tuksen ohella siihen, kuinka ohjausmalli soveltuu reaalimaailmaa muistuttavien virtu-

aalimaailmojen hallintaan.

Mielenkiintoisin havainto kahdesta ensimmäisestä testikerrasta liittyi komentosanojen

valintaan. Ensimmäisen testin aikaan käytössä oli komentosanaparit ”turn north /

south” ja ”roll east / west”. Koehenkilö koki näiden muistamisen erityisen vaikeaksi

ja käytön sekavaksi, minkä vuoksi lopputesteissä käytettiin yhtenäistä muotoa ”turn

north / south / east / west”. Myöhemmin kääntymiskomentojen kanssa ei tullut vas-

taavia ongelmia.

Kääntymiskomentoihin liittyvän havainnon perusteella voidaan olettaa, että käyttäjän

muodostama malli on samankaltainen suunnittelussa käytetyn metaforan kanssa eli x-

ja y-akselien mukainen kääntyminen oletetaan samalla tavalla suoritettaviksi toimin-

noiksi. Tällöin erityylisten komentosanojen käyttäminen rikkoo käyttäjän sisäisen

mallin ja vaikeuttaa vuorovaikutusta. Lisäksi tuli selväksi, että komentovalikoima oli

syytä pitää suppeana.


Sivu 58

Lisäksi havaittiin, että toimintovalikoima oli riittämätön realistisissa ympäristöissä,

kuten rakennuksissa, tapahtuvaan liikkumiseen. Kääntymismallia ei pidetty luonnolli-

sena, mikä olikin etukäteen oletettavaa. Käyttäjät eivät myöskään pitäneet diskreettiä

vakioliikettä miellyttävänä, joskin toinen testihenkilöistä kehittyi tämän käyttämisessä

tehokkaaksi. Uskonkin, että diskreettiä liikettä voidaan soveltaa menestyksellisesti

tilanteissa, joissa tarvitaan paljon yksinkertaisia, nopeita toimintoja. Esimerkiksi

CAD–sovellukset voivat olla tällainen kohde.

6.6 Tehtävät

Varsinaiset testit eli koekerrat 6-16 sisälsivät yhdeksän tehtävää, joista kolme ensim-

mäistä olivat harjoitustehtäviä. Loput tehtävät käsittelivät perusliikkumista, käänty-

mistä ja asemointia.

6.6.1 Harjoitustehtävät (1, 2 ja 3)

Kolmen ensimmäisen tehtävän tarkoituksena oli tutustuttaa koehenkilö sovellukseen,

komentovalikoimaan ja ohjausmetaforaan. Harjoitustehtävien aikana tarkkailtiin tun-

nistusarvoja ja säädettiin tarvittaessa tunnistuskynnyksiä, jotta nämä olisivat kohdal-

laan varsinaisiin testeihin siirryttäessä. Tämä aiheuttikin suurta vaihtelua osuuden pi-

tuuteen, sillä tunnistuskynnyksien hienosäätö saattoi olla pitkällinen prosessi.

Ensimmäisessä tehtävässä käyttäjälle annettiin ohjeeksi siirtää kohdistin vapaavalin-

taisessa järjestyksessä kuhunkin kuvassa 6-2 vasemmalla näkyvän maailman objek-

tiin. Puheohjauksen parametrit oli asetettu siten, että vakioliike siirsi kohdistinta aina

seuraavaan objektiin x- tai y-akselilla. Ensimmäisen tehtävän maailmaa käytettiin

myös toisessa tehtävässä, missä liikkumistyyli vaihdettiin vakioliikkeestä jatkuvaksi.

Tehtävän suoritustapa oli muutoin sama, mutta nyt käyttäjän täytyi pysäyttää liike.

Kolmannessa tehtävässä käyttäjälle esitettiin kuvassa 6-3 vasemmalla oleva maailma

ja ohjeeksi annettiin kokeilla kääntymiskomentoja kunnes käyttäjä osasi ne mielestään

riittävän hyvin ja oli samalla oppinut tuntemaan esitetyn kuution. Tehtävä suoritettiin

vakioliikkeeseen perustuvassa tilassa siten, että kääntymiskomento aiheutti 90 asteen

käännöksen objektin ympärillä. Käytännössä tämä tarkoittaa sitä, että käyttäjä näkee

kuutiosta yhden sivun kerrallaan. Kuvassa 6-3 on havainnollisuuden vuoksi esitetty


Sivu 59

kääntymiseen tarkoitetut maailmat yläviistosta, tehtävissä maailmat esitettiin käyttä-

jälle aina kohtisuorassa.

Kuva 6-2: Liikkumiseen tarkoitetut testimaailmat.

6.6.2 Liikkumistehtävät (4, 8 ja 9)

Neljännen tehtävän tarkoituksena oli tutkia puhekomentojen soveltuvuutta perusliik-

kumiseen. Tehtävä suoritettiin kuvassa 6-2 oikealla näkyvässä maailmassa. Koehen-

kilön tehtävänä oli käydä niissä kohteissa, jotka kokeenjohtaja hänelle osoitti. Koe

suoritettiin aloitus- ja lopetuskomentoihin perustuvassa tilassa. Kohteita oli 20 ja ne

olivat kaikille koehenkilöille samat. Kohteet esitettiin yksi kerrallaan näyttämällä uu-

den kohteen paikka näyttöpäätteen viereen asetetulla paperilla.

Kahdeksannessa ja yhdeksännessä tehtävässä tutkittiin erilaisia liikkumismuotojen

variaatioita. Kahdeksannessa tehtävässä käyttäjän oli mahdollista antaa uusi komento

ennen edellisen vaikutuksen loppumista eli käytännössä antaa uusi komento ilman

välissä olevaa ”cut” –komentoa. Yhdeksännessä tehtävässä oli lisäksi mahdollista yh-

distää usean komennon vaikutus. Molempien toimintatapojen oletettiin lisäävän käyt-

täjän tyytyväisyyttä, mutta tuottavan enemmän virheitä.

6.6.3 Kääntymistehtävät (5 ja 6)

Viidennessä ja kuudennessa tehtävässä tutkittiin kääntymiskomentojen soveltuvuutta

ohjaukseen ja maailman hahmotuksesta aiheutuvia virheitä. Viides tehtävä suoritettiin

kuvassa 6-3 oikealla olevassa maailmassa. Maailma sisälsi kuution, jonka jokainen


Sivu 60

sivu oli erivärinen. Kuutio oli rakennettu siten, että kuution ollessa kohtisuorassa kat-

sojaa vasten käyttäjä pystyi näkemään kaikkien sivujen värit samanaikaisesti. Käyttä-

jää pyydettiin siirtymään vuoronperään tietyille kuution sivuille yhteensä 20 kertaa.

Kuva 6-3: Kääntymiseen tarkoitetut maailmat.

Kuudes tehtävä oli muuten sama kuin tehtävä viisi, nyt vain käytettiin kuvassa 6-3

vasemmalla näkyvää maailmaa. Käyttäjän oli pidettävä yllä mielikuvaa asemastaan

suhteessa kuutioon suoriutuakseen annetuista tehtävistä. Tämän oletettiin vaikuttavan

huomattavasti tehtävän suoritukseen sekä lisääntyneinä virheinä että päättelemiseen

kuluvana aikana. Kuution oletettiin kuitenkin olevan perusrakenteeltaan tuttu kolman-

nesta tehtävästä.

Kuva 6-4: Esimerkki asemointitehtäviin käytetystä maailmasta.


Sivu 61

6.6.4 Asemointitehtävä (7)

Seitsemännessä tehtävässä tutkittiin vuorovaikutusta, joka edellyttää koko komento-

valikoiman käyttämistä. Tehtävä koostui viidestä vaiheesta. Kussakin vaiheessa käyt-

täjälle esitettiin maailma, jossa on kuutio ja pallo. Koehenkilön tehtävänä oli asemoi-

tua siten, että pallo ja kuutio olivat kohtisuorassa häntä vasten täyttäen kuvaruudun

keskellä olevan kohdistimen. Kuvassa 6-4 on vasemmalla alkutilanne ja oikealla lop-

putilanne yhdestä tehtävään käytetystä maailmasta.

6.7 Kyselylomake ja haastattelut

Koehenkilöille esitetyt kirjalliset monivalintakysymykset (liite 1) jakaantuivat viiteen

osioon, joissa kysyttiin taustatietoja, mielipiteitä puheohjauksen soveltuvuudesta eri-

laisiin tehtäviin sekä yleisvaikutelmia puheohjauksesta.

Taustatietoina koehenkilöiltä kysyttiin kokemuksia kolmiulotteisesta grafiikasta ja

puheohjauksesta sekä pyydettiin arvioimaan puheohjauksen soveltuvuutta ja helppo-

käyttöisyyttä, järjestelmän kykyä tunnistaa komentoja ja erilaisten komentojen sovel-

tuvuutta. Tehtäviin liittyvissä kysymyksissä tiedusteltiin puheohjauksen soveltuvuutta

liikkumis-, kääntymis- ja asemointitehtäviin.

Tehtävien jälkeen kysyttiin käyttäjän mielipiteitä puheohjauksesta ja sen soveltuvuu-

desta eri tilanteisiin. Käyttäjää pyydettiin myös esittämään mielipiteensä puheentun-

nistuksen luotettavuudesta ja palautteen merkityksestä sekä arvioimaan virheiden

syitä.

Kyselylomakkeen lisäksi koehenkilöiltä kerättiin suullisesti mielipiteitä, jatkokehi-

tysideoita ja parannusehdotuksia sekä testin aikana että sen jälkeen. Kysymykset esi-

tettiin keskustelun kulun ja suunnan mukaisesti. Pääosin haastattelujen kysymykset

liittyivät mielipiteisiin puheohjauksesta ja sen ongelmista. Keskustelua pyrittiin oh-

jaamaan erityisesti ilmenneisiin ongelmiin ja niistä käyttäjille aiheutuviin tuntemuk-

siin.

6.8 Testien suorittaminen

Varsinaiset testit suoritettiin neljän peräkkäisen päivän aikana kahden tunnin jaksois-

sa. Yksittäiseen testiin kului aikaa tunnista puoleentoista tuntiin. Testitilanne aloitet-

tiin lyhyellä sovelluksen esittelyllä ja opastuksella. Esittelyn jälkeen koehenkilöä


Sivu 62

pyydettiin täyttämään kysymyslomakkeen taustatietoja ja ennakkokäsityksiä käsitte-

levä osio. Tämän jälkeen suoritettiin tunnistuskynnysten asettaminen eli sovelluksen

”kalibrointi”.

Aloitustoimenpiteiden jälkeen käynnistettiin tehtävät. Tehtävien 4, 6 ja 7 jälkeen koe-

henkilöä pyydettiin täyttämään kyselylomakkeen osiot kaksi, kolme ja neljä. Samalla

esitettiin suullisia kysymyksiä tehtäviin liittyen. Myös muiden tehtävien jälkeen saa-

tettiin esittää suullisia kysymyksiä, varsinkin jos tehtävän suorittamisessa oli ongel-

mia tai koehenkilö halusi keskustella asiasta. Kahdeksannen tehtävän jälkeen koehen-

kilöä pyydettiin täyttämään kyselylomakkeen viides osio. Lopuksi suoritettiin suulli-

nen haastattelu.

6.9 Materiaalin analysointi

Testeistä saadut videonauhat analysoitiin Tampereen yliopiston käytettävyyslaborato-

riossa. Kustakin videonauhasta muodostettiin tekstitiedosto, josta ilmenivät koehen-

kilön antamat komennot aikamerkinnöin varustettuna. Videonauhojen analysointiin

käytetyn ohjelman aikayksikkönä oli yksi sekunti, mikä määräsi koko tulevan aineis-

ton käsittelyn ajallisen tarkkuuden. Tarkkuus ei ollut kaikkiin tarkoituksiin riittävä,

mutta tarkempi analysointi olisi tehnyt työstä äärimmäisen hidasta. Ajallinen tarkas-

telu päätettiin lopulta jättää jatkotutkimusten aiheeksi.

Videonauhalta analysoitiin annettujen komentojen lisäksi mahdollisia tunnistusvirhei-

den ja semanttisten virheiden eli epämielekkäiden komentojen syitä. Kaikki virheiden

arvioinnit perustuivat videonauhan pohjalta tapahtuneeseen aistinvaraiseen havain-

nointiin; mittauksia ei suoritettu esim. äänenvoimakkuuden tai komennon keston to-

teamiseksi. Videonauhojen perusteella saadut tiedostot ja testien aikana muodostetut

lokitiedostot saatettiin yhtenäiseen muotoon Microsoft Excel –taulukkolaskentaohjel-

man tiedostoksi. Tästä tiedostosta käytetään nimitystä tulostiedosto.

Tulostiedoston perusyksiköksi otettiin tapahtuma. Tapahtuma on joko käyttäjän an-

tama komento tai puheentunnistusjärjestelmän havaitsema syöte. Käyttäjän antamien

komentojen ohella tapahtumia ovat lisäykset eli järjestelmän tunnistamat komennot,

joita käyttäjä ei ole antanut (hälyääniä, komennon tulkitseminen kahdeksi erilliseksi

komennoksi jne.). Kaikille testeille yhteinen tulostiedosto käsitti lopulta 6998 tapah-

tumaa, joista jokaisella oli 22 arvoa. Kerätyn aineiston pohjalta ei etsitty tilastollisia


Sivu 63

merkitsevyyksiä, vaikka aineisto olisi tämän osittain mahdollistanutkin. Analysointi

keskitettiin huomioiden ja suuntauksien etsimiseen, jotka myöhemmillä tutkimuksilla

voidaan tarkastaa.

6.10 Huomioita testeistä

Käyttäjätestien analysoinnin kannalta ongelmallisin seikka oli tekstitiedostosta saadun

materiaalin ja videonauhan sisällön yhdistäminen. Tämä työ oli erittäin hidasta ja vir-

heille altista. Analysointia pystyttäisiin helpottamaan yhdistämällä eri lähteistä saadut

tulokset yhtenäiseksi kokonaisuudeksi joko videonauhalle tai parhaassa tapauksessa

tietokoneella käsiteltäväksi esim. mpeg-muodossa. Tärkeää olisi myös saada äänirai-

dasta kuvallinen esitys, sillä komentojen tulkitseminen ainoastaan kuuloaistiin poh-

jautuen on erittäin hidasta eikä tuota kovinkaan tarkkoja tuloksia.

Testiolosuhteissa olisi vielä paljon kehittämisen varaa. Erityisesti tehtävien esittämi-

seen täytyisi olla jokin toinen keino kuin paperien käyttäminen. Toinen monitori

olisikin auttanut melkoisesti. Kaikkein paras ratkaisu olisi kuitenkin ollut tehtävien

ohjeiden sisällyttäminen suoraan tehtäviin. Samalla käyttäjän olisi pitänyt saada pa-

lautetta suorittamistaan tehtävistä, sillä nyt kokeenjohtajan oli vaikeaa ilmaista, mil-

loin tehtävä oli suoritettu riittävällä tarkkuudella. Tulevaisuudessa koetehtävät kan-

nattaakin tehdä esim. VRML 2.0-kieleen liitettävillä Java-rutiineilla. Tällöin ne saa-

daan mahdollisimman riippumattomiksi ulkoisista olosuhteista.

Kyselylomake osoittautui paikoitellen epäonnistuneeksi. Kysymyksissä oli käytetty

liikaa monitulkintaisia termejä, mikä vesitti monen kysymyksen tulokset. Lisäksi

haastattelut tarjosivat paljon mielenkiintoisempaa ja informatiivisempaa materiaalia

kuin kirjalliset kysymykset. Tämä johtui osittain siitä, että käyttäjät olivat hyvin

myötämielisiä testitilannetta kohtaan ja esittivät asioita spontaanisti.

PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS

Sivu 64

7 PUHEOHJAUKSEN KEHITTÄMINEN TESTIEN POHJALTA

Selaimen prototyypillä suoritetuissa käyttäjätesteissä etsittiin näkökohtia, joiden poh-

jalta virtuaalimaailmoissa tapahtuvaa puheohjausta voitaisiin kehittää. Päähuomio

keskitettiin erilaisiin virhetilanteisiin, sillä virheiden hallinta on ratkaiseva tekijä pu-

hesovellusten hyväksymisen kannalta. Järjestelmän tekemien tunnistusvirheiden lisäk-

si kiinnitettiin huomiota käyttäjien tekemiin semanttisiin virheisiin. Virheistä tarkas-

teltiin paitsi niiden esiintymistä myös mahdollisia syitä sekä vaikutuksia. Näiden

pohjalta esitetään suunnitelma virheiden korjauksen ja palautteen kehittämiseksi.

Virheiden tarkastelemisen lisäksi etsittiin mahdollisuuksia toiminnallisuuden kehittä-

miseen. Toiminnallisuutta voidaan kehittää joko käyttäen pelkästään puhetta tai mul-

timodaalisuutta hyödyntäen. Erilaisia jatkokehitysideoita on esitetty tässä luvussa eri

osien yhteydessä sekä loppuun keskitetysti koottuna.

7.1 Tunnistusvirheet

Puheentunnistuksessa tapahtuvat virheet määräävät käyttöliittymäsuunnittelua vielä

pitkään. On tärkeää, että ollaan tietoisia paitsi virheiden määrästä myös niiden ja-

kaantumisesta. Tunnistusvirheissä on myös huomattavia henkilökohtaisia eroja. Näi-

den pohjalta voidaan suunnitella virheiden ennaltaehkäisy. Osa tunnistusvirheistä ai-

heutuu komentojen antamiseen liittyvistä tekijöistä.

7.1.1 Tunnistusvirheiden määrä ja jakaantuminen

Käyttäjän näkökulmasta järjestelmän virheet voidaan jakaa lisättyihin komentoihin

(lisäykset), huomiotta jätettyihin (poistot) ja väärin tulkittuihin (muunnokset). Järjes-

telmän näkökulmasta poistot voidaan jakaa kahteen tapaukseen niiden aiheuttajan pe-

rusteella. Luonnollinen poisto aiheutuu siitä, ettei puheentunnistusjärjestelmä tunnista

annettua komentoa lainkaan. Karsinnasta aiheutuva poisto johtuu järjestelmän ko-

mennolle antamasta huonosta tunnistusarvosta, jonka vuoksi sitä pidetään virheellise-

nä. Karsintamenettely on selvitetty kohdassa 5.4.

Taulukossa 7-1 on esitetty virheiden osuudet annetuista komennoista sekä kunkin vir-

hetyypin osuus kaikista tunnistusvirheistä. Erilaisten virheiden yhteenlasketun määrän

osuus kertoo järjestelmän tunnistustason (ks. kohta 2.5). Virheiden määrä vaihteli

testeissä alkupään tehtävien 24%:sta varsinaisten tehtävien 14%:iin eli tunnistustaso


Sivu 65

oli 76%:sta 86%:iin. Tätä voidaan pitää melko huonona tuloksena, sillä alle 90%:n

tunnistustasoa on pidetty riittämättömänä useisiin puheohjaukselle suotuisiin tehtäviin

[Cohen & Oviatt, 1994].

/LVl\NVHW 3RLVWRW 0XXQQRNVHW6XKGH�DQQHWWXLKLQ�NRPHQWRLKLQ ��

2VXXV�WXQQLVWXVYLUKHLVWl ��

Taulukko 7-1: Tunnistusvirheet varsinaisten tehtävien osalta.

Dominoivana tekijänä virheissä olivat poistot. Niiden osuus kaikista virheistä oli kol-

me neljännestä. Ideaalisesti ajateltuna poistojen tulisikin olla suurin ryhmä: tällöin

väärät tulkinnat eli muunnokset havaitaan ja korjataan mikäli mahdollista, muutoin

jätetään käsittelemättä eli muutetaan poistoiksi. Tämän karsintamenettelyn eli virhei-

den ennaltaehkäisyn toimivuus olikin eräs kiintoisimpia tutkimuskohteita.

7.1.2 Henkilökohtaiset erot tunnistusvirheissä

Henkilöiden väliset eroavuudet tunnistusvirheissä olivat suuria. Virheiden määrä

vaihteli tehtävien osalta 4%:sta aina 23%:iin. Virheiden määrän suhteen koehenkilöt

voidaan jakaa kolmeen luokkaan sen mukaan, oliko virheitä vähän, kohtalaisesti vai

paljon. Kaavio 7-1 esittää varsinaisten tehtävien osalta koehenkilöiden eroavaisuuk-

sia. Koehenkilöillä 8, 11 sekä 13 esiintyi vähän virheitä (virhetaso alle 10%:a), käyt-

täjillä 6, 7, 10, 12 sekä 15 keskimääräisesti (virhetaso lähellä 15%:a) ja käyttäjillä 9,

14 sekä 16 paljon (virhetaso yli 20%).

-10 % -5 % 0 % 5 % 10 %

6

8

10

12

14

16 15

13

11

9

7

Kaavio 7-1: Virheiden osuus henkilöittäin suhteessa keskiarvoon (14%).


Sivu 66

Ryhmien väliset erot ovat käytännössä erittäin suuria. Ainoastaan koehenkilöiden 8,

11 ja 13 työskentelyn voidaan katsoa olleen sujuvaa. Käyttäjillä 9, 14 ja 16 oli niin

suuria ongelmia, että puheohjauksen ei voi katsoa soveltuneen heille. Henkilöiden vä-

lisiin eroihin etsittiin syitä tarkastelemalla virheitä komennoittain. Oletettiin, että kor-

keat virhemäärät voitaisiin selittää yksittäisten komentojen epäonnistumisilla. Tämä ei

kuitenkaan pitänyt paikkaansa, sillä niillä käyttäjillä, joilla oli paljon virheitä, virheet

esiintyivät useissa komennoissa. Tämä antaa tukea olettamuksille, joiden mukaan on

olemassa nk. ongelmakäyttäjiä, joilla esiintyy ongelmia useimmissa komennoissa.

Kokonaisuutena tunnistusvirheet jakaantuivat tasaisesti eri komentojen ja käyttäjien

välille, eikä mitään yksittäisiä komentoja voitu nostaa erityisen ongelmallisiksi. Vari-

aatiot käyttäjien välillä antavat aihetta olettaa, että kaikille soveltuvaa valikoimaa on

mahdotonta muodostaa vähäiselläkään komentomäärällä. Samoin yleispätevä ongel-

makomentojen havaitseminen ei ole realistista. Tärkeintä olisikin pystyä havaitsemaan

ongelmalliset tilanteet ja löytää niihin tehokkaita ehkäisy- ja korjausmahdollisuuksia.

7.1.3 Virheellisten tulkintojen karsinnan toimivuus

Väärin tulkittujen komentojen karsinta epäonnistui pahoin: ainoastaan joka kymmenes

virheellisesti tulkittu komento saatiin muunnettua karsintamenettelyllä poistoksi, loput

esiintyivät käyttäjälle muunnoksina. Tilanne ei olisi ongelmallinen, ellei jokaista kar-

sittua muunnosta kohden samalla hylättäisi yli viittä oikein tulkittua komentoa. Vir-

heellisesti hylättyjen komentojen osuus oli 3% kaikista annetuista komennoista eli

miltei neljännes esiintyneistä virheistä.

Karsintamenettelyn epäonnistumiseen oli useita syitä, jotka liittyivät sekä teknologi-

aan että käyttöliittymäsuunnitteluun. Puheentunnistusjärjestelmä antoi komennoille

sellaisia tunnistusarvoja, että niiden pohjalta oli vaikeaa toteuttaa tehokasta karsintaa.

Saadut arvot vaihtelivat oikeellistenkin tulkintojen kesken niin paljon, että oli mah-

dotonta erottaa oikeat ja väärät tulkinnat toisistaan muutoin kuin ääritapauksissa. Voi-

daankin todeta, että pelkästään tunnistusarvoihin perustuva virheiden karsinta ei toi-

mi käytetyllä teknologialla riittävän hyvin.

Teknisten ongelmien lisäksi tulkintavirheiden karsinnan taustalla oli joukko vääriä

olettamuksia. Eräs näistä oli lisäyksien eli erilaisten hälystä johtuvien tulkintojen ole-

tuksia vähäisempi osuus. Kehitystyön aikana oletettiin, että lisäykset aiheuttaisivat


Sivu 67

merkittävästi virheitä, ellei niitä karsittaisi. Tätä olettamusta tukee kirjallisuus, jossa

lisäykset nostetaan usein tärkeään asemaan, varsinkin jos toimitaan muissa kuin opti-

maalisissa olosuhteissa.

Toinen väärä olettamus liittyy poistojen ja muunnosten vaikutuksiin. Ennakkoon ole-

tettiin, että muunnokset ovat käyttäjän kannalta paljon ongelmallisempia kuin poistot.

Tämä pitääkin paikkansa paikallaan oltaessa, jolloin poiston korjaaminen ei vaadi

kuin komennon toistamisen. Liikkeessä oltaessa poistot ovat kuitenkin ongelmalli-

sempia, mikä aiheutti suuria ongelmia varsinkin pysähtymiskomennon kohdalla (vir-

heiden vaikutusta käsitellään laajemmin kohdassa 7.3). Lisäksi käyttäjät pitivät pois-

toja ärsyttävämpinä kuin muunnoksia. Osasyynä tähän lienee se, että virheet kasaan-

tuivat poistoihin.

7.1.4 Virhetulkintojen karsinnan kehittäminen

On syytä olettaa, että erilaiset puheentunnistusjärjestelmät tuottavat eri olosuhteissa

virheitä, joiden jakaantumista on mahdotonta ennustaa etukäteen riittävän tarkasti.

Tämän vuoksi tulkintavirheiden ennaltaehkäisyn tulee lähteä liikkeelle teknologian

evaluoinnista (ks. 2.5). Erilaisten virheiden esiintyminen tulee kartoittaa, sillä se toi-

mii pohjana kaikelle myöhemmälle suunnittelulle. Erityisen tärkeää on, että kartoituk-

sessa käytetään luonnollisten olosuhteiden lisäksi tarpeeksi suurta henkilömäärää.

Erilaisten virheiden eroja tulisi pyrkiä tasapainoittamaan. Haastattelujen perusteella

oli havaittavissa, että käyttäjien mielipiteet ovat negatiivisempia virheiden kasaantu-

essa tiettyihin virhetyyppeihin kuin niiden jakaantuessa tasaisesti. Poistovirheiden

kohdalla tähän lienee pääasiallisena syynä se, että poistovirheet edellyttävät paljon

toistamista, mikä ärsyttää ihmisiä erityisesti. Virheiden kasaantumisessa on ongelma-

na myös se, että tällöin virheiden vaikutuksien minimoiminen on vaikeaa. Optimaali-

nen tilanne saavutetaan silloin, kun virheiden osuus painottuu niihin tilanteisiin, joissa

virheiden korjauksien kustannukset ovat pienimpiä. Tämä puolestaan saavutetaan hel-

poimmin, mikäli virheet jakaantuvat kaikkien virhetyyppien kesken, koska jokaisessa

virhetyypissä on sekä helposti että vaikeasti korjattavia tapauksia.

Onnistuneelle tulkintavirheiden karsimiselle on tärkeää kontekstin hyväksikäyttö eli

jonkin asteinen puheen merkityksen ymmärtäminen. Puheen ymmärtämistä voidaan

lähestyä esim. tehtävän suorittamisen näkökulmasta (ks. kohta 3.1.2), edeltävien ko-


Sivu 68

mentojen luoman tilanteen pohjalta tai tilastollisesta perspektiivistä. Binäärisen hy-

väksymisen tai hylkäämisen lisäksi voidaan käyttää hyväksi N-Best sanalistaa (ks.

kohta 2.7), joka tarjoaa joukon vaihtoehtoisia tulkintoja tunnistusarvoineen. N-Best

sanalistan hypoteesit voidaan arvioida uudelleen, jolloin tunnistusarvojen lisäksi käy-

tetään kontekstin tarjoamaa informaatiota. Tässä voidaan hyödyntää myös arvioita

virheiden korjauskustannuksista eli välttää sellaisia tulkintoja, jotka saattavat aiheut-

tavat työläästi korjattavia tilanteita.

Koska virheissä esiintyy huomattavia yksilöllisiä ja olosuhteista aiheutuvia eroja, tuli-

si ennaltaehkäiseminen suorittaa jollain oppivalla menetelmällä, kuten neuroverkoilla.

Yleispätevien sääntöjen muodostaminen on vaikeaa ja jäykkää, sillä järjestelmän on

useimmiten mahdotonta sopeutua uusiin tilanteisiin ilman eksplisiittistä sääntöjen

muuttamista. Oppivien menetelmien ongelmana on materiaalin kerääminen. Tämä

voidaan tehdä joko erillisessä opetusvaiheessa tai jatkuvasti käytön aikana. Käytön

aikana suoritettava sopeutuminen on huomattavasti mielekkäämpää, koska se häiritsee

käyttäjää vähemmän. Eräs mahdollisuus huomaamattomaan tiedon keräämiseen on

tarkkailla kohdassa 7.3 esitettyjen virheenkorjaussekvenssien esiintymistä ja päätellä

näistä tulkintojen onnistuneisuutta.

7.1.5 Komentojen antamiseen liittyvien virheiden syyt ja korjaaminen

Komentojen antamiseen liittyvien tunnistusvirheiden mahdollisia syitä arvioitiin vi-

deonauhan perusteella. Suurimpaan osaan virheistä ei löydetty mitään syytä eli miltei

90% virheistä oli sellaisia, jotka järjestelmän olisi tullut hyväksyä. Loppuihin reiluun

10%:iin löydettiin kahdeksan mahdollista lähdettä. Potentiaaliset syyt voidaan jakaa

neljään luokkaan sen mukaan, liittyykö virheellisyys komennon antamishetkeen, si-

sältöön, kaksiosaisten komentojen sanaväliin vaiko lausumiseen. Näiden tekijöiden

suhteita on esitetty kaaviossa 7-2.

Komentojen antamishetkeen pystytään vaikuttamaan antamalla parempaa palautetta

järjestelmän tilasta. Tämä saadaan aikaan informoimalla selkeästi, milloin on mah-

dollista antaa mitäkin komentoja. Lisäksi komentoja voidaan puskuroida eli odottaa

kunnes löytyy komennon suorittamiselle soveltuva tilanne.

Lausumiseen eli käytännössä äänen voimakkuuteen ja sisältöön eli virheellisesti an-

nettuihin tai vieraita äänteitä sisältäviin komentoihin on käytännössä mahdotonta vai-


Sivu 69

kuttaa. Käyttäjää voidaan kehottaa esim. puhumaan lujempaa, mutta havaittiin, että

tämä paitsi muuttaa ääntä myös kestää ainoastaan vähän aikaa. Käyttäjät osoittivat

lisäksi suurta muuntautumiskykyä ellei järjestelmä tunnistanut komentoja.

0 % 10 % 20 % 30 % 40 % 50 % 60 % 70 %

Lausuminen

Sanaväli

Sisältö

Antamishetki

64%

13%

9%

14%

Kaavio 7-2: Havaitut virheiden syyt.

Kaikkein suurimpaan ryhmään, ongelmiin kaksiosaisten komentojen sanavälissä pys-

tytään onneksi vaikuttamaan kaikkein parhaiten. Tähän on kaksi päälähestymistapaa:

edellä kuvattu puskuroinnin käyttäminen ja lisäkysymysten tekeminen. Lisäkysymyk-

set voidaan suorittaa varmistuksien tapaan joko implisiittisinä tai eksplisiittisinä (ks.

kohta 3.5.3).

7.2 Semanttiset virheet

Tunnistusvirheiden lisäksi tehtävän suorittamiseen vaikuttavat semanttiset virheet,

jotka ovat joko laittomia tai tilanteeseen sopimattomia komentoja. Semanttiset virheet

liittyvät lähinnä käytettävään ohjausmetaforaan. Tämän vuoksi semanttisten virhei-

den ennaltaehkäisemisessä onkin tärkeää metaforan tukeminen.

7.2.1 Semanttisten virheiden lähteet

Semanttisia virheitä on kahta päätyyppiä: laillisia, mutta tilanteen kannalta epämie-

lekkäitä komentoja, jotka ehkäisevät tehtävän suorittamista sekä laittomia, komento-

valikoimaan kuulumattomia komentoja. Laittomien komentojen osuus oli alle prosen-

tin eli vähäinen. Tämä osoittaa, että käyttäjät sopeutuvat komentovalikoimaan melko

hyvin. Laittomien komentojen osuus lähtee kuitenkin nopeasti kasvamaan, ellei käyt-

täjällä ole selvää kuvaa siitä, mitä komentoja järjestelmä hyväksyy. Laittomien ko-

mentojen ennaltaehkäiseminen hoituukin parhaiten pitämällä komentovalikoima sup-

peana sekä informoimalla käyttäjää tarpeeksi.


Sivu 70

Lailliset, mutta tilanteen kannalta epämielekkäät komennot aiheutuvat pääasiassa

kahdesta syystä: komentojen vaikutusten väärinymmärtämisestä ja ympäristön vir-

heellisestä hahmottamisesta. Jonkin verran on myös jätettävä tilaa muille seikoille,

kuten käyttäjän suorittamille kokeiluille. Kokeiluja yms. esiintyi jonkin verran; näiden

tulkinta oli kuitenkin videonauhan perusteella mahdotonta, joten tällaisia tapahtumia

sisältäneet tehtävät suljettiin tarkastelusta kokonaan pois. Jäljelle jääneistä tehtävistä

pystyttiin erottamaan epämielekkäät komennot melko luotettavasti.

Epämielekkäitä semanttisia virheitä oli kaikista annetuista komennoista neljä prosent-

tia eli huomattavasti enemmän kuin laittomia komentoja. On lisäksi huomattava, että

semanttisia virheitä ei ollut käytännössä lainkaan pysähtymiskomentojen yhteydessä.

Koska kolmasosa kaikista annetuista komennoista on pysähtymiskomentoja, on se-

manttisten virheiden osuus muissa komennoissa suurempi kuin neljä prosenttia.

7.2.2 Semanttiset virheet ja ohjausmetafora

Komentojen vaikutusten väärinymmärtäminen liittyy käytettyyn ohjausmetaforaan.

Mikäli käyttäjä ymmärtää ja hyväksyy eli myös käyttää metaforaa, komentojen vai-

kutukset ovat selkeitä. Toisaalta, jos metafora ei ole selkeä tai käyttäjä ei hyväksy sitä

sisäiseksi mallikseen, on todennäköistä, että komentojen vaikutukset arvioidaan usein

väärin. Käytetyn metaforan hyväksymisen mittarina voidaan siis käyttää semanttisten

virheiden määrää. Tarkasteltaessa semanttisia virheitä henkilöittäin ja tehtävittäin ha-

vaittiin, että henkilöittäin merkittäviä eroja ei esiintynyt. Tehtävittäin sen sijaan löy-

dettiin huomattavia eroja. Tästä voidaan päätellä ongelmien liittyneen nimenomaan

erilaisiin tilanteisiin ja tätä kautta ohjausmetaforaan.

Kaavio 7-3 esittää semanttisia virheitä tehtävittäin. Semanttisten virheiden jakautumi-

sen pohjalta voidaan tehdä kolmenlaisia havaintoja. Ensinnäkin yksinkertaisissa ti-

lanteissa käyttäjät sopeutuvat metaforaan hyvin. Tämän osoittaa hyvin pieni semant-

tisten virheiden määrä neljännessä ja viidennessä tehtävässä. Neljännessä tehtävässä

hajonta oli lähes olematonta. Käyttäjät eivät tehneet virheitä joko lainkaan tai tekivät

virheen tai kaksi, mutta eivät tämän enempää. Viidennessä tehtävässä osa käyttäjistä

esitti, etteivät komentojen vaikutukset tuntuneet luonnollisilta. He kuitenkin oppivat

metaforan nopeasti ja sovelsivat sitä hyvin.


Sivu 71

0 % 2 % 4 % 6 % 8 %

10 % 12 %

4 5 6 7 8 9

Kaavio 7-3: Semanttisten virheiden esiintyminen tehtävittäin.

Toinen havainto on se, että yksinkertaisissa tapauksissa kolmiulotteisen maailman

hahmottaminen on paljon merkittävämpi tekijä kuin ohjausmetafora. Tämä tulee esiin

kuudennen eli kääntymistehtävän semanttisten virheiden suurena määränä. Tehtävä

oli luonteeltaan hyvin samanlainen kuin välittömästi tätä ennen suoritettu viides teh-

tävä, mutta nyt käyttäjä joutui hahmottamaan asemansa suhteessa maailmaan. Viiden-

nessä tehtävässä tämä tietous oli tuotu mukaan maailmaan läpinäkyvyyden avulla.

Havaintoa tukivat myös haastattelut ja kirjallinen kysely, jossa suurin osa vastaajista

mainitsi merkittävimmäksi semanttisten virheiden syyksi tilanteen hahmottamisen on-

gelmat.

Kolmannen havainnon perusteella käyttäjät mieltävät ohjaavansa objektia tilanteissa,

joissa ruudulla ei ole kuin yksi objektiryhmittymä. Merkittävää tässä havainnossa on

se, että muodostuva assosiaatio on niin vahva, että kaikki käyttäjät eivät pääse siitä

eroon, ellei tehtävä ole hyvin selkeä. Tämä tulee hyvin ilmi seitsemännessä eli ase-

mointitehtävässä. Tässä osalla käyttäjiä oli suuria vaikeuksia muokata sisäinen mal-

linsa vastaamaan ohjausmetaforaa. Muissa tehtävissä käyttäjät sen sijaan pystyivät

sopeuttamaan mallinsa hyvin. Seitsemännen tehtävän virheet osoittavat, että mallin

sopeuttaminen vaatii paljon huomiota ja rikkoontuu helposti, mikäli tilanne on perus-

liikkumista tai kääntymistä vaativampi.

Sekä semanttisia virheitä tarkastelemalla että käyttäjien kommenttien perusteella on

selvää, ettei valittu ohjausmetafora ollut sopiva kaikkiin tehtäviin. Se omaksuttiin hy-

vin ainoastaan silloin, kun käyttäjä mielsi navigoivansa virtuaalisessa maailmassa (tai

ohjaavansa ruudun keskellä sijaitsevaa kohdistinta). Tilanne oli tällainen perusliikku-

mistehtävissä. Käyttäjillä oli suuria ongelmia saman metaforan omaksumisessa, mi-

käli he kokivat manipuloivansa jotakin maailmassa olevaa objektia. Tilanne nähtiin

tällaisena ennen kaikkea asemointitehtävässä.


Sivu 72

7.2.3 Semanttisten virheiden vähentäminen metaforaa tukemalla

Asemointitehtävän ongelmat osoittavat, että metaforaa on syytä tukea epäselvissä ti-

lanteissa. Tähän päästään mm. kontekstisidonnaisilla vihjeillä tai esittämällä kohdistin

vahvasti metaforaan sitovalla esityksellä, kuten ihmishahmolla ”kamera kädessä” –

metaforaa käytettäessä tai objektia manipuloivilla käsillä ”maailma kädessä”

metaforaa käytettäessä. Myös kohdistimen animoiminen saattaa avustaa metaforan

omaksumisessa. Käyttäjälle tulisi myös tarjota mahdollisuus metaforan vaihtamiseen.

Kontekstisidonnaisia vihjeitä voidaan luoda kiinnittämällä komentosanat maailmassa

sellaisiin paikkoihin, jotka ilmaisevat niiden vaikutuksia. Tämä muodostaa hyvin

luonnollisen yhteyden, sillä olemme tottuneet käyttämään tekstiä komentomaisesti

esim. hypertekstin yhteydessä. Vihjeiden sijoittelussa voidaan käyttää hyväksi tilalli-

sia vihjeitä, kuten läpinäkyvyyttä ja varjoja. Kiinnostava esimerkki, joka sopisi hyvin

tähän yhteyteen on Herndonin ja kollegoiden [1992] kehittämä varjo-ohjainten periaa-

te. Varjo-ohjaimet ovat kolmiulotteisia virtuaaliohjaimia, jotka esitetään kohteen var-

joina. Ne tarjoavat lisäinformaatiota kohteesta ja toimivat samalla ohjausmenetelmä-

nä. Tämän kaltaisilla ratkaisuilla voidaan kolmiulotteista ympäristöä hyödyntää te-

hokkaasti.

Myös kohdistimen esityksessä ja animoinnissa voidaan käyttää hyväksi ympäristön

kolmiulotteisuutta. Eräs mielenkiintoinen lähestymistapa on liikemetaforat [Ware,

1996]. Liikemetaforat ovat animoituja symboleja, jotka ilmaisevat sekä liikkeen suun-

taa että historiaa. Liikemetaforiin on mahdollista yhdistää kontekstuaalisia vihjeitä,

jolloin saataisiin selkeä, yhtenäinen ja ympäristöön sovellettu tapa esittää käyttäjälle

informaatiota menneisyydestä, nykyhetkestä sekä mahdollisesta tulevaisuudesta.

Metaforan vaihtaminen on helppoa kahden päälähestymistavan välillä; käytännössä se

vaatii ainoastaan komentojen vaikutusten muuntamisen päinvastaisiksi. Tietyissä ti-

lanteissa metaforan valinta on selkeää: kun ympäristö luo kuvan käyttäjän liikkumi-

sesta maailmassa, ”kamera kädessä” –metafora on selkein vaihtoehto, kun taas objek-

tien manipuloinnissa ”maailma kädessä” on luontevampi. Ongelman muodostavat ne

maailmat, joissa tilanne ei ole selkeä. Esimerkiksi tieteellisen visualisoinnin yhteydes-

sä saattaa olla vaikeaa luoda tuttuja mielikuvia metaforia vahvistamaan.


Sivu 73

Avoin kysymys on myös se, tulisiko metaforan vaihtua automaattisesti tilanteiden

mukaan. Esimerkiksi tämän tutkimuksen tehtävissä olisi metaforaa voitu vaihtaa au-

tomaattisesti aina silloin, kun oletettiin käyttäjille muodostuvan kuvan objektien ma-

nipuloinnista. Ongelma on siinä, että tämäkään ei sovi kaikille, sillä osa käyttäjistä

muodostaa aina mallinsa vastakkaisesti. Automaattinen mukauttaminen on muutoin-

kin ongelmallista, sillä se saattaa aiheuttaa käyttäjän suunnantajun katoamisen.

Selkein ratkaisu metaforan vaihtamiseen on tarjota käyttäjälle mahdollisuus mukaut-

taa komentojen vaikutukset haluamakseen. Tähän voisi liittää myös komentosanojen

valitsemisen, joko etukäteen määrätystä joukosta tai mahdollisesti jopa täysin vapaa-

valintaisesti. Eräs koekäyttäjä muotoilikin tämän toivomukseksi: ”Olisi mukava saada

opettaa sanat itse, nyt tuntuu että käyttää jonkun muun sanoja”. Tämä onkin erittäin

hedelmällinen jatkotutkimusaihe, jota voitaisiin lähestyä esim. simuloidulla kokeella.

7.3 Virheiden vaikutukset

Virheiden korjauksen kannalta on tärkeää tietää erilaisten virheiden aiheuttamat kor-

jauskustannukset. Vaikutuksia voidaan mitata korjauskomentojen määränä tai niihin

kuluvana aikana. Tässä tutkimuksessa otettiin lähestymistavaksi komentojen määrä,

sillä puhesovelluksissa komentojen määrä on usein merkityksellisempää kuin aika.

Lisäksi ajalliseen arviointiin tarvittaisiin parempi tarkkuus kuin nyt käytetty yksi se-

kunti.

Virheiden korjaukseen menevien komentojen osuus oli 25% kaikista annetuista ko-

mennoista eli kysymyksessä on erittäin tärkeä komentoryhmä. Virheellisten komen-

tojen osuus oli 19%, mikä merkitse, että jokaista virheellistä komentoa kohden tarvit-

tiin keskimäärin 1.4 korjaavaa komentoa. Virheiden korjaukseen tarvitaankin eri mää-

rä komentoja sen mukaan, millaisesta ja missä tilanteessa tapahtuneesta virheestä on

kysymys.

Virheen vaatimat korjaustoimenpiteet liittyvät virheen tyyppiin (lisäys, poisto, muun-

nos, semanttinen), olotilaan (liikkeessä, paikallaan), liikkeiden toteuttamistyyliin (va-

kioliike, jatkuva liike), annettuun komentoon, tulkittuun komentoon sekä kontekstiin.

Korjauskustannuksiin vaikuttaa paitsi annettavien komentojen määrä myös niiden

tyyppi. Esimerkiksi korjaava komento tarkoittaa käytännössä vastakkaiskomennon


Sivu 74

antamista (esim. ”north” komennolle ”south”), mikä on yleensä huomattavasti vä-

hemmän virhealtis tapahtuma kuin virheellisen komennon toistaminen.

Käsittelen tässä korjaustoimenpiteitä sen mukaan, tapahtuuko virhe paikallaan oltaes-

sa vai jonkin muun komennon suorituksen aikana. Paikallaan oltaessa virheiden vai-

kutuksissa on vaihteluita ainoastaan sen mukaan, onko käytössä vakioliikkeeseen vai

jatkuvaan liikkeeseen perustuva tila. Jatkuvaan liikkeeseen perustuvassa tilassa vai-

kutukset ovat erilaiset sen mukaan, täytyykö käyttäjän antaa jokaisen komennon vä-

lillä pysäytyskomento vai ei. Taulukko 7-2 esittää virheiden korjaamiseksi tarvittavia

toimenpiteitä paikallaan oltaessa.

Virheen tyyppi VakioliikeJatkuva liike pakollisella

pysähtymiskomennolla

Jatkuva liike ilman pakollista py-

sähtymiskomentoa

1. Lisäys K P + K + P (P) + K + P

2. Muunto K + T P + K + P + T (P) + K + (P) + T

3. Poisto T T T

4. Semanttinen K + K P + K + P + K (P) + K + (P) + K

Taulukko 7-2: Virheen korjaaminen paikallaan oltaessa.

Kirjainlyhenteiden selitykset ovat K = korjaava liike, P = pysähtymiskomento, T = komennon toistami-

nen ja A = virhettä edeltävän liikkeen mukainen komento. Suluissa oleva komento tarkoittaa, ettei se

ole välttämätön, mutta varsinkin noviisit antavat sen useimmiten.

Virheen tapahtuessa liikkeen aikana vaikutukset ovat erilaisia kuin pysähdyksissä ol-

taessa sattuneet virheet. Tällöin merkitsevä tekijä on se, onko kysymyksessä pysäh-

tymiskomento vai jokin muu komento. Tilannetta on havainnollistettu taulukossa 7-3.

Pysähtymiskomento

Virheen tyyppi Jatkuva liike pakolli-

sella pysähtymisellä

Jatkuva liike ilman pa-

kollista pysähtymistä

Muu kuin pysähtymiskomento

1. Lisäys A A (P) + K + (P) + A

2. Muunto - (T) + K + T (P) + K + (P) + T (muuksi)

/ T (pysähtymiskomennoksi)

3. Poisto T + K + T (T) + K + T (P) + K + (P) + T

4. Semanttinen A A (P) + K + (P) + K

Taulukko 7-3: Virheen korjaaminen liikkeessä oltaessa.


Sivu 75

Virheiden korjaukseen tarvittavien komentojen perusteella voidaan arvioida järjestel-

män kokonaissuorituskykyä, kun tiedetään erityyppisten virheiden osuudet ja käytet-

tävät tehtävät. Parametrisoimalla eri komentojen vaikutukset voidaan taulukoissa 7-2

ja 7-3 esitettyjä virheenkorjaussekvenssejä käyttää hyväksi suunniteltaessa järjestel-

män komentoja ja virheenkorjausmekanismeja. Erityisen hyödyllistä tämä voi olla

virheenkorjauksessa, jolloin malleja voidaan käyttää hyväksi kontekstitietoutena pai-

nottamalla todennäköisimmin annettavien komentojen osuutta.

7.4 Virheiden korjaus ja palaute

Virheen korjauksella tarkoitetaan toimenpiteitä, jotka käyttäjä suorittaa joko tunnis-

tusvirheen tai semanttisen virheen vaikutusten korjaamiseksi. Virheiden hallintaan

liittyy lisäksi virheiden havaitseminen, ennaltaehkäisy sekä syiden analysointi. Vir-

heiden ennaltaehkäisyä ja syiden analysointia on käsitelty aiemmin tässä luvussa

tunnistusvirheiden ja semanttisten virheiden yhteydessä. Tässä käsitellään virheiden

havaitsemista ja korjaustoimenpiteitä, perumista sekä palautetta.

7.4.1 Virheiden havaitseminen ja korjaaminen

Mahdollisten virhetilanteiden havaitsemiseen on kolme lähdettä, toimiminen puheen-

tunnistusjärjestelmän tietojen, käyttäjän toimenpiteiden tai tilannetietouden perus-

teella. Ensimmäinen mahdollisuus sisältää sanojen tunnistustodennäköisyyksien ja

sanalistojen hyväksikäyttämisen. Käyttäjän toimenpiteistä voidaan havaita manuaali-

nen virheenkorjaaminen esim. taulukoiden 7-2 ja 7-3 perusteella. Tilannetietoudesta

voidaan päätellä tehtävän kannalta epämielekkäiden toimintojen esiintyminen.

Puheohjatun selaimen tapaisissa reaaliaikaisissa sovelluksissa keskustelu etenee ilman

kehotteita, jolloin kommunikaation suunta on pääasiallisesti käyttäjältä järjestelmälle.

Tällöin on käytännössä helpointa ja nopeinta hoitaa tavanomaisimmat virheidenkor-

jaustilanteet esim. toistamalla komento uudelleen tai antamalla uusi, virheen korjaava

komento. Tästä aiheutuu, että käyttäjän tekemä aloite virheen korjaamiseksi on jär-

jestelmän kannalta useimmiten piilotettu. Tämä jättää paljon toivomisen varaa, sillä

järjestelmä ei pysty oppimaan virheistä. Onkin tärkeää, että virheet pyritään havaitse-

maan ja niiden syyt analysoimaan, vaikka varsinaisia virheiden korjausoperaatioita ei

käynnistettäisikään.


Sivu 76

Virheiden korjauksen vuorovaikutteisuuden suhteen käyttäjien mielipiteet jakautuivat

kahtia. Osa käyttäjistä olisi kaivannut enemmän vuorovaikutusta järjestelmän ja

käyttäjän välille. Toiset eivät taas kaivanneet lainkaan interaktiivisuutta, vaan uskoi-

vat selviävänsä parhaiten hoitamalla virheiden korjauksen kokonaan itse. Tämän

vuoksi on selvää, että tarjottaessa interaktiivisia virheenkorjausmahdollisuuksia näistä

tulisi myös päästä helposti eroon ja niiden tulee olla kytkettävissä kokonaan pois

päältä. Tämä periaate sopii kaikkiin puhekäyttöliittymiin ja erityisesti reaaliaikaisiin,

joissa interaktiivinen virheenkorjaus saattaa hidastaa merkittävästi käyttöä.

Eräs hyvä vuorovaikutteisen virheenkorjauksen korvaava menetelmä on kohdassa

3.5.3 esitetty implisiittisten vahvistuksien käyttäminen. Implisiittiset vahvistukset tuli-

si rakentaa mahdollisimman vähän häiriötä aiheuttaviksi. Tämä koskee sekä niiden

aiheuttamaa viivettä että tarvitsemaa huomiota. Järkevin vaihtoehto saattaisi olla vah-

vistuksen ja perumistoiminnon yhdistäminen. Tällöin käyttäjä pystyy perumaan toi-

minnon tietyn ajan kuluessa, jolloin aloitetaan virheen korjaamiseksi tarvittavat toi-

menpiteet.

7.4.2 Perumistoiminto

Perumistoiminto, oli se sitten sijoitettu vahvistuksien yhteyteen tai omaksi komennok-

seen, ei ole triviaalisti toteutettavissa. Yksinkertaisissa toiminnoissa peruminen tar-

koittaa liikkeen pysäyttämistä ja palaamista virheellistä komentoa edeltäneeseen ti-

laan. Ongelmalliseksi tämä muodostuu, jos maailman tila on muuttunut ratkaisevasti

virheellisen komennon suorituksen aikana. Tällöin ei ole enää selvää, mitä tarkoittaa

palaaminen virhettä edeltäneeseen tilaan. Monitulkintaisuuksia seuraa myös niissä

tapauksissa, jolloin suoritettavana on enemmän kuin yksi komento kerrallaan.

Eräs seikka, josta käyttäjät olivat lähestulkoon yhtä mieltä, oli se, että virhetilanteissa

liikkeen tulisi pysähtyä. Tämä näkyi myös videonauhalta: lähes aina käyttäjät pysäyt-

tivät liikkeen virheiden yhteydessä, vaikka tilanne olisi ollut helposti korjattavissa il-

man pysähtymistäkin antamalla ainoastaan korjaava komento. Testien perusteella täl-

lainen toiminta ei kuitenkaan ole yleistä, sillä ainoastaan yksi henkilö käytti sitä use-

ammin kuin muutamassa tilanteessa. Kiintoisa jatkokokeiden aihe on, muuttaako pe-

rumistoiminto tätä käyttäytymistä.


Sivu 77

7.4.3 Palaute

Virheiden korjaamisen ohella olisi tärkeää tarjota käyttäjälle enemmän tietoa mahdol-

lisista virheiden syistä. Käyttäjätesteissä kysyttiin kokeenjohtajalta usein mahdollisia

virheiden syitä. Käyttäjiä ärsytti etenkin se, että toistuvien virheiden syy jäi arvoituk-

seksi. Eräs koehenkilö kysyikin: ”mistä johtuu, että cut on minulle vaikea? Periaat-

teessa helpoin sana”. Valitettavasti virheiden syiden päätteleminen on eräs heikoim-

mista puheentunnistusjärjestelmien ominaisuuksista.

Käyttäjille annettu palaute sisälsi tiedon tunnistetusta komennosta sekä tähän liittyvän

tunnistusarvon. Kaikki eivät kuitenkaan välittäneet palautteesta, jota järjestelmä tarjo-

si. Käyttäjien yleisesti melko yhdensuuntaiset mielipiteet vaihtelivatkin tämän asian

suhteen rajuimmin. Keskimääräisesti tarkasteltuna palautteella ei nähty olevan erityi-

sen suurta merkitystä ja sitä seurattiin melko vähän, pääasiallisesti ainoastaan virheti-

lanteissa. Tämä on mielenkiintoinen tulos, sillä se poikkeaa yleisestä käsityksestä.

Osasyynä tähän on tehtävien luonne, joka vaati käyttäjän koko visuaalisen huomion.

Palautteen antaminen onkin ongelmallista tilanteissa, joissa aistit ovat vahvasti kuor-

mitettuina. Vaikka puhekäyttöliittymien yhteydessä korostetaankin palautteen tärke-

yttä, ei sitä tule tarjota liikaa eikä liian häiritsevässä muodossa. Varsinkin tekstimuo-

dossa esitettyyn palautteeseen liittyy ongelmia, kuten sen sijoittaminen kuvaruudulle.

Vaihtoehtoina ovat erilaiset symbolit ja äänen käyttö. Graafista palautetta voidaan

käyttää pitkälti samaan tapaan kuin kohdassa 7.2.3 esitettyjä kontekstisidonnaisia

vihjeitä.

Äänen käyttäminen palautteen antamiseen on tehokasta, koska se vapauttaa käyttäjän

visuaalisia resursseja aihealueen, kolmiulotteisen maailman käyttöön. Sen käyttämi-

sessä on kuitenkin kaksi pääongelmaa, syötteidenantotapahtuman häiriintyminen ja

käyttäjien suhtautuminen. Ensiksi mainitun ongelmat ovat samoja kuin päällepuhumi-

sen ongelmat yleensäkin (ks. kohdat 3.4. ja 3.5.1). Jälkimmäisessä vaarana on se, että

käyttäjät kokevat puhepalautteen erityisen ärsyttävänä. Haastatteluissa koehenkilöiden

mielipiteet puhepalautteen mahdollisuudesta vaihtelivat suuresti osan tyrmätessä ide-

an täysin. Pidän kuitenkin äänipalautteiden käyttämistä tärkeänä ja mielenkiintoisena

jatkotutkimuksen aiheena. Ääntä voidaan kokeilla sekä puheen että auditoristen ikoni-

en [Gaver, 1989] muodossa.


Sivu 78

7.5 Toiminnallisuuden kehittäminen

Käyttäjätestejä varten rakennettu selain oli hyvin yksinkertainen sisältäen ainoastaan

perustoiminnallisuuden. Tässä on esitetty tärkeimpiä testien aikana esiin tulleita ke-

hitysnäkökohtia, jotka liittyvät komentojen antamiseen, tarkkaan työskentelyyn, pe-

rusliikkumisen ja kääntymisen tehostamiseen sekä xy-tason orientointiin.

7.5.1 Komentojen antaminen

Tutkittaessa pysähtymiskomentojen määriä eri tilanteissa havaittiin, että yksinkertai-

sissa tehtävissä käyttäjät antoivat komennot mieluiten suoraan toistensa perään. Mo-

nimutkaisissa tilanteissa, kuten asemointitehtävässä, liike taas pysäytettiin lähes aina

ennen seuraavan komennon antamista. Tätä havaintoa voidaan hyödyntää konteksti-

tietoutena arvioitaessa komentojen todennäköisyyksiä. Lisäksi voidaan olettaa, että

pysähtymiskomentojen määrällä pystytään arvioimaan tehtävän kompleksisuutta.

Toinen havainto komentojen antamisessa liittyy liikkumisessa käytettäviin variaatioi-

hin. Näitä kokeiltiin yhdeksännessä tehtävässä. Haastattelujen perusteella käyttäjät

eivät pidä lainkaan toimettomana olosta, vaan haluavat mieluummin kontrolloida lii-

kettä jatkuvasti, vaikka tämä vaikuttaisi tehtävän suoritukseen negatiivisesti sekä li-

sääntyneenä komentojen määränä että kuluvana aikana. Käyttäjille tulisikin tarjota

toimintoja, jotka tarjoavat osallistumisen tunteen. Tilanne on tietysti erilainen, jos

käyttäjällä on samaan aikaan muita tehtäviä suoritettavana. Tällöin on pelkästään

hyödyksi, ettei käyttäjän tarvitse kiinnittää puheohjaukseen liikaa huomiota.

7.5.2 Nopeuden kontrollointi ja tarkka työskentely

Käyttäjätesteissä tuli hyvin esille tarkan työskentelyn vaikeus. Usein tämä liittyi py-

sähtymiseen. Pysähtymisen yhteydessä tapahtuneista virheistä aiheutui kiusallisia ti-

lanteita, sillä tällöin muodostui helposti ”sahausilmiö”, edestakainen liikehdintä koh-

teen ympärillä. Tämä liittyy oleellisesti nopeuden säätelyyn, sillä käyttäjät eivät pys-

tyneet kontrolloimaan tilannetta suurta tarkkuutta vaativissa tehtävissä, kuten oltaessa

hyvin lähellä kohdeobjektia.

Nopeuden kontrollointi voidaan suorittaa sekä automaattisesti että manuaalisesti. Yk-

sinkertaisin tapa automaattiseen nopeuden säätelemiseen olisi käyttää objektien kokoa

ja läheisyyttä liikkeiden nopeuden määrittämiseen. Esimerkiksi lähestyttäessä objektia


Sivu 79

voidaan nopeutta vähentää. Tämä voitaisiin tehdä samaan tapaan kuin kohteen mukai-

sessa liikkumisessa [Mackinlay et al., 1990]. Vastaavasti vauhdin lisääminen ”tyhjillä

alueilla” nopeuttaisi objektien välillä kulkemista. Toinen mahdollisuus on käyttää

erilaisia paino- ja vetovoimaan liittyviä ratkaisuja. Näitä on hyödynnetty menestyk-

sellisesti kolmiulotteisten käyttöliittymien yhteydessä (ks. kohta 4.5). Vetovoimaan

pohjautuvien ratkaisujen hyvä puoli on se, että ne vähentävät ongelmallisten pysäh-

tymiskomentojen tarvetta.

Automaattisen nopeuden säätelemisen lisäksi esiintyy aina tarvetta manuaaliseen no-

peuden kontrollointiin. Käyttäjät esittivätkin useita eri mahdollisuuksia tämän toteut-

tamiseksi. Eniten käyttäjät ehdottivat kiihtyvyyttä säätelevien komentosanojen käyt-

tämistä sekä komennon toistamista sen nopeuttamiseksi. Myös parametreja ehdotet-

tiin, kuten ”slow west” ja ”east speed five”. Parametreja ei kuitenkaan pidetty niin hy-

vänä menetelmänä kuin kiihtyvyyden kontrollointia.

On mielenkiintoista, että käyttäjät pitivät kiihtyvyyden kontrollointia parempana

vaihtoehtona, sillä nopeuden säätelemistä pidetään ihmiselle helpompana kuin kiihty-

vyyden kontrollointia [Ware & Osborne, 1990]. Komentopohjaisessa tilanteessa saattaa

kuitenkin kiihtyvyyden säätely olla luonnollisempaa, sillä nopeuden sääteleminen pa-

rametreja käyttämällä vaatii parametrien vaikutusten hyvää tuntemista. Tämä on sel-

vitettävissä helposti vertailutesteillä, joissa mitataan sekä käyttäjien tyytyväisyyttä että

tehtävän suorittamisen tehokkuutta.

7.5.3 Perusliikkumisen vaihtoehdot

Erilaisista kehittyneemmistä liikkumismenetelmistä koehenkilöt toivoivat eniten koh-

dekeskeisiä ratkaisuja. Objektien luokse siirtymisessä voitaisiin käyttää hyväksi ob-

jektien ominaisuuksia kuten muotoa, kokoa ja väriä sekä näille annettuja nimiä. Vii-

meksi mainittu muistuttaisi hypertekstin kuumia sanoja. Tätä onkin käytetty hyväksi

useissa hypertekstiin liittyvissä puhekäyttöliittymissä. Objektien ominaisuuksien hy-

väksikäyttö olisi melko helposti toteuttavissa ilman kehittynyttä tekoälyäkin, sillä

VRML on rakenteinen kieli ja suurin osa objektien ominaisuuksista voidaan saada tätä

kautta. Pidemmälle vietynä tämä johtaa luonnollisen kielen käyttöön, jota on käsitelty

kohdassa 4.6.


Sivu 80

Yksinkertaisempi tapa kohdeorientoituneeseen liikkumiseen on käyttää komentoja,

joilla siirrytään objektilta toiselle. Kohdeobjektien määrittelyyn käytetään tällöin algo-

ritmia, joka etsii sopivat kohdeobjektit komentojen perusteella. Esimerkiksi kulku-

suunnassa olevan objektin luokse voitaisiin siirtyä ”next” komennolla jne. Kohdeob-

jektin valinta ei ole kuitenkaan yksikäsitteistä kolmiulotteisessa ympäristössä, varsin-

kaan dynaamisissa maailmoissa. Tämä menetelmä on kuitenkin kohtalaisen helposti

toteutettavissa ja yksikäsitteisempi kuin objektien ominaisuuksin perustuva liikkumi-

nen.

7.5.4 Kääntymiskomentojen tehostaminen

Kääntymiskomennot olivat nyt, kuten kaikki muutkin komennot, aina suhteessa käyt-

täjän paikkaan. Ne voitaisiin toteuttaa myös siten, että liikkeet suoritettaisiin suhteessa

objektin orientaatioon. Objektin näkökulmasta tämä muodostaisi kääntymiskomen-

noista absoluuttisia. Näin esimerkiksi objektin taakse kiertäminen olisi mahdollista

yhdellä komennolla (esim. ”turn back”) käyttäjän paikasta riippumatta.

Metaforaongelmaa tämä menetelmä ei kuitenkaan ratkaise, sillä komennot voidaan

tulkita edelleen joko käyttäjän tai objektin näkökulmasta. Ongelmaksi tässä nousee

tulkinnallisuuskysymys siitä, mikä on objektin normaaliorientaatio. Tämä on selvää

luonnollisilla objekteilla, kuten taloilla, mutta huomattavasti vaikeampaa määrittää

abstrakteille kappaleille. Tilannetta parantamaan voitaisiin käyttää kontekstuaalisia

vihjeitä samaan tapaan kuin semanttisten virheiden ennaltaehkäisemisessä.

Erityisen hyödyllistä objekteihin suhteutettujen kääntymiskomentojen käyttäminen on

tilanteissa, joissa tarvitaan nopeita toimintoja. Esimerkiksi CAD-käyttö vaatii paljon

tällaisia tilanteita. CAD-käytössä voidaan lisäksi olettaa, että käyttäjä tuntee kappaleet

hyvin, joten liikkeisiin voitaisiin käyttää diskreettejä siirtymiä, mikä myös nopeuttaisi

toimintaa.

7.5.5 XY-tason orientaation muuttaminen

Haastatteluissa tuli selkeästi ilmi tarve kuvaruudun tasossa tapahtuvalle orientaation

muuttamiselle. Suurin osa koehenkilöistä otti asian itse esille kysymällä, oliko tällai-

nen toiminto mahdollista. Toimintoa kysyttäessä tätä kuvailtiin suoristamiseen liitty-


Sivu 81

villä määreillä, esimerkiksi ”Saisiko tuon jotenkin suoraan? Häiritsi kun aina jäi vi-

noon. Jäin miettimään pystyykö sen suoristamaan näillä komennoilla”.

XY-tason orientaation muuttamiseen voitaisiin käyttää esimerkiksi ”rotate” sanaa ja

”clockwise / counter-clockwise” yhdistelmää samalla tavoin kuin kääntymiskomen-

noissakin. Myös ”turn left / right” vaihtoehto voisi olla soveltuva. Parempi menetelmä

saattaisi kuitenkin olla erillinen suoristamiskomento, sillä käyttäjät kaipasivat orien-

taation muuttamista ainoastaan silloin, kun kappale oli ”vinossa”. Suoristamiseen

liittyy sama normaaliorientaation määrittelemisen ongelma kuin kääntymiskomento-

jen tehostamisessakin.

7.5.6 Toiminnallisuuden lisäämisen prioriteetit

Käyttäjiltä kysyttiin puheen soveltuvuutta ohjaukseen tehtävätyypeittäin ja komento-

ryhmittäin. Tehtävittäin eroja oli ainoastaan perusliikkumistehtävissä, joihin puheoh-

jausta pidettiin vähemmän soveltuvana kuin muihin tehtäviin. Komentoryhmittäin taas

kääntymiskomentoja pidettiin vähiten soveltuvina, liikkumiskomentoja toiseksi so-

veltuvimpina ja etäisyyden säätelyyn tarkoitettuja komentoja kaikkein soveltuvimpi-

na.

Käyttäjille annettiin myös mahdollisuus valita, mihin toimintoihin he käyttäisivät pu-

heohjausta. Suurin osa käyttäjistä valitsisi puheohjauksen etäisyyden säätelyyn ja

kääntymiseen, perusliikkumiseen he sen sijaan käyttäisivät mieluummin hiirtä ja näp-

päimistöä. Tämä yhdessä tehtäväkohtaisen palautteen kanssa osoittaa, että vaikka liik-

kumiseen tarkoitetut komennot miellettiinkin soveltuviksi, puheohjausta ei pidetä si-

nällään liikkumiseen soveltuvana.

Kääntymiskomentojen osalta tulokset osoittavat, ettei niiden potentiaalia ole vielä

hyödynnetty täysimittaisesti. Eräs käyttäjien mielipiteisiin vaikuttava tekijä on kään-

tymiskomennoissa muita useammin esiintyneet virheet, mutta yksin tämä tekijä ei se-

littäne asiaa. Kääntymiskomennot valittiin kuitenkin yhtä usein ohjausmenettelyksi

kuin etäisyyden säätelyyn tarkoitetut komennot, joissa ongelmia esiintyi hyvin vähän

ja jotka käyttäjät mielsivät erittäin soveltuviksi.

Toiminnallisuuden jatkokehityksen kannalta voidaan edetä kahdella tapaa sen mu-

kaan, kehitetäänkö järjestelmää multimodaalisena vai pelkkään puhesyötteeseen pe-


Sivu 82

rustuen. Mikäli järjestelmää kehitetään multimodaalisena, voidaan perusliikkuminen

korvata muilla modaliteeteilla ja keskittää puheohjaus kääntymiseen ja etäisyyden

säätelyyn. Jos taas kehitystä jatketaan puhesyötteisiin perustuen, erityistä huomiota

tulee kiinnittää liikkumiseen, sillä käyttäjät eivät pitäneet perusliikkumista onnistu-

neena. Eräs vaihtoehto on tällöin luonnollisen kielen käyttäminen.

7.6 Multimodaalisuuden hyödyntäminen

Tämän tutkimuksen eräs tavoite oli tutkia puheen soveltuvuutta osaksi multimodaali-

sia kolmiulotteisia käyttöliittymiä. Perusoletuksena tässä on, että käyttäjän kädet ovat

joko kokonaan tai suurimman osan ajasta varattuina. Lisäksi oletetaan, että puhe on

pääasiallinen syötteiden antamismenetelmä. Puhetta voitaisiin tutkia myös täydentä-

vänä modaliteettina. Tällöin näkökulma muodostuisi kuitenkin hyvin erilaiseksi, sillä

perusoperaatiot olisi järkevintä toteuttaa jollain suorakäyttöisemmällä menetelmällä.

Tulokset osoittivat, että puheohjaus on vahvimmillaan etäisyyden säätelyssä, missä

sen käyttäminen on hyvin virhevapaata ja luonnollista. Myös kääntyminen on puhe-

ohjaukselle potentiaalinen kohde, joskin tällöin vastassa on suurempia haasteita. Pe-

rusliikkumiseen puhe soveltuu, mutta käyttäjät valitsisivat tähän mieluummin jonkin

muun modaliteetin.

Perusliikkumiseen olisi selkeintä valita katseeseen ja kosketukseen perustuvia mene-

telmiä, joskin nämä ovat ongelmallisia pienten näyttöjen kohdalla. Päähän asetettavis-

sa näytöissä voitaisiin hyödyntää pään orientaatiota ja silmien liikkeitä. Eräs mielen-

kiintoinen mahdollisuus on myös tietokoneen fyysinen liikuttaminen, jota on hyödyn-

netty pienissä kädessä pidettävissä laitteissa.

Pysähtymiskomentojen osalta mahdollisuus jonkun muun modaliteetin käyttämiseen

voisi helpottaa käyttöä merkittävästi. Eräs mahdollisuus on yksinkertaisiin liikkeisiin

perustuva tuntoaistin hyödyntäminen. Tämä voitaisiin toteuttaa esim. hansikkaaseen

sijoitetulla anturilla, joka olisi aina saatavilla eikä häiritsisi käsien muuta käyttöä mer-

kittävästi. Tämän menetelmän etuna on ajallinen tarkkuus, joka on puheen kohdalla

ongelmallista. Menetelmä ei kuitenkaan vaadi kinestistä tarkkuutta vaan soveltuu suo-

ritettavaksi muiden tehtävien ohessa. Lisäksi tuntoaistin välityksellä voidaan antaa

tehokasta palautetta [Levitt, 1994], mikä vähentää audiovisuaalista kuormitusta.


Sivu 83

7.7 Yhteenveto jatkokehityksestä

Virheiden hallinnan kehittäminen on tärkein puheohjatun selaimen jatkokehitysnäkö-

kohta. Edellytyksenä onnistuneelle virheiden hallinnalle on tilanteiden tunnistaminen

ja sopivien virheenkorjausmekanismien käyttäminen. Virheiden hallinnassa voidaan

soveltaa periaatteita ja menetelmiä, joita on esitetty puhesovellusten ja kolmiulotteis-

ten käyttöliittymien yhteydessä. Käyttäjätestit kuitenkin osoittivat, että puheen ja

kolmiulotteisten käyttöliittymien yhdistäminen muuttaa joitakin olettamuksia. Näin

kävi esim. nopeuden säätelyn ja palautteen merkityksen kohdalla.

Semanttisten virheiden vähentämiseksi olisi tärkeää löytää tilanteisiin parhaiten so-

veltuvat metaforat. Tämä ei kuitenkaan ole helppoa, sillä yksikäsitteistä metaforaa

lienee mahdotonta muodostaa. Huomiota tulisikin kiinnittää metaforien tukemiseen ja

erilaisiin vihjekäytäntöihin. Yksinkertaisten tilanteiden osalta kuitenkin havaittiin, että

metaforaan sopeudutaan hyvin. Suurempi ongelma on tällöin kolmiulotteisen maail-

man hahmottaminen. Huomio voidaankin suunnata tällaisissa tapauksissa maailman

hahmottamisen tukemiseen.

Tässä tutkimuksessa on tarkasteltu puheen käyttämistä hyvin pelkistetyissä olosuh-

teissa. Jatkon kannalta olisi mielenkiintoista suorittaa tutkimuksia, joissa kokeillaan

kehittyneempiä ohjausmuotoja ja monipuolisempia olosuhteita. Toimintovalikoimaa

voidaan laajentaa myös objektien valitsemiseen, käsittelyyn jne. Näillä saatetaan te-

hostaa toimintaa dramaattisesti, mutta ne tuovat samalla uusia virhemahdollisuuksia,

joiden korjaaminen saattaa olla huomattavastikin kompleksisempaa.

Erityisen mielenkiintoista on kehittää puheohjausta keskustelupohjaiseksi ja multimo-

daaliseksi. Järjestelmä ei olisi tällöin enää passiivinen komentojen vastaanottaja, vaan

voisi toimia myös aloitteen tekijänä. Vuorovaikutteisuutta voitaisiin käyttää virheiden

korjauksen lisäksi niiden ennalta ehkäisemiseen. Multimodaalisuus voisi puolestaan

auttaa vähentämään virheitä ja tätä kautta lisätä käyttäjien tyytyväisyyttä.

PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 8 – YHTEENVETO

Sivu 84

8 YHTEENVETO

Tämän tutkimuksen kohteena oli kolmiulotteisissa käyttöliittymissä tapahtuva vuoro-

vaikutus. Aihetta lähestyttiin puheohjauksen näkökulmasta. Puhe valittiin vaihtoeh-

doksi perinteisille ratkaisuille, koska se on tarpeeksi ilmaisuvoimainen menetelmä

kolmiulotteisen ympäristön hallintaan myös niissä tilanteissa, joissa käyttäjän kädet

eivät ole jatkuvasti käytettävissä.

Puheohjauksen tutkimiseksi rakennettiin puheentunnistusta hyödyntävä virtuaalimaa-

ilmojen selain. Selaimen avulla suoritettiin käyttäjätestejä, joissa tutkittiin erityisesti

virheiden vaikutuksia. Käyttäjätestien pohjalta esitettiin useita parannusehdotuksia

kehittyneemmän puheohjauksen muodostamiseksi. Sivutuotteena saatiin malli puhe-

ohjauksen liittämiseksi VRML 2.0-selaimiin. Mallin toimivuutta testattiin liittämällä

puheohjaus sellaiseen selaimeen, jota ei muutoin hyödynnetty kehitystyössä.

Järjestelmän tunnistusvirheiden osalta havaittiin, että kaikille käyttäjille soveltuvaa

komentovalikoimaa on mahdotonta muodostaa nykyisillä menetelmillä. Henkilökoh-

taiset erot olivat suuria, eikä ns. ongelmakäyttäjien suuria virhemääriä pystytty selit-

tämään pelkästään yksittäisten komentojen ongelmilla. Todettiin myös, että käytännön

olosuhteissa keskimääräinen virhetaso oli kolme kertaa suurempi kuin se, mitä ennak-

kotietojen perusteella odotettiin.

Havaittiin, että virheiden hallinnan täytyy perustua tilanteiden ymmärtämiseen, sillä

pelkän puheentunnistusjärjestelmän informaation varaan rakennettu virheenkorjaus ei

käytännössä toimi. Erityisesti on varottava virheiden kasaantumista tiettyihin virhe-

tyyppeihin, sillä tämä ärsyttää käyttäjiä ja vaikeuttaa virheiden haittavaikutusten mi-

nimointia. Virheiden määrällinen minimointi ei olekaan soveltuva ratkaisu reaaliai-

kaisten virtuaalimaailmojen yhteydessä.

Tunnistusvirheiden lisäksi kiinnitettiin huomiota semanttisiin virheisiin. Virheet liit-

tyivät pääasiassa käytettyyn ohjausmetaforaan, sillä käyttäjät sopeutuivat komentova-

likoimaan erittäin hyvin. Yksinkertaisissa tilanteissa havaittiin, että käytetyllä metafo-

ralla ei ole suurta vaikutusta. Tällöin suurempi ongelma olikin kolmiulotteisen maail-

man hahmottaminen. Puheen abstrakti luonne voikin helpottaa metaforan omaksu-

mista joissain tilanteissa. Tämän vuoksi sellaisia tuloksia, jotka on aikaisemmin saa-

vutettu muita modaliteetteja käyttäen, ei tule hyväksyä ilman niiden varmistamista


Sivu 85

puheohjaukseen soveltuviksi. Esimerkiksi Waren ja Osbornen [1990] esittämät vuoro-

vaikutusmetaforiin liittyvät havainnot olisi syytä tarkastaa empiirisin kokein sen

osalta, kuinka hyvin ne pitävät paikkansa puheen yhteydessä.

Monimutkaisten tilanteiden osalta havaittiin, että metafora vaatii tukemista. Erityisen

ongelmalliseksi havaittiin tilanteet, joissa maailmassa oli ainoastaan yksi käsitteelli-

sesti yhtenäinen objektiryhmä. Tältä osin assosioituminen objektien käsittelyyn on

niin vahvaa, ettei liikkumismetafora toimi kunnolla. Metaforan tukemiseen esitettiin

kohdassa 7.2.3 useita ratkaisuja, jotka pohjaavat kolmiulotteisen ympäristön hyödyn-

tämiseen.

Virheidenhallinnan kehittämiseksi esitettiin useita menetelmiä kirjallisuuteen poh-

jautuen. Huomiota kiinnitettiin erityisesti vahvistuksiin, sillä nämä ovat joustavampia

ja kevyempiä kuin varsinainen eksplisiittinen virheenkorjaus. Virheenhallinnan jous-

tavuus on tärkeää, sillä muutoin vaarana on järjestelmän reaaliaikaisuuden järkkymi-

nen. Virheidenhallinnan pohjaksi esitettiin virheiden korjaamisessa esiintyviä toimen-

pidesekvenssejä. Näiden käytännöllisyyden toteaminen ja tarkennus ovat jatkotutki-

musten tärkeitä aiheita.

Selaimen antaman palautteen osalta havaittiin, että käyttäjät seurasivat tätä hyvin vä-

hän. Tämä poikkeaa yleisestä käsityksestä, sillä palaute mielletään erittäin tärkeäksi.

Osasyynä palautteen vähäiseen seuraamiseen saattaa olla käytön aikana oleva visuaa-

linen kuormitus, jota voidaan vähentää antamalla palautetta muussa muodossa, kuten

puhetulosteina. Puhetulosteisiin liittyy kuitenkin useita ongelmia, minkä vuoksi myös

muita palautemuotoja tulee tarkastella. Esimerkiksi auditoriset ikonit ja tuntoaistin

käyttäminen ovat mahdollisia vaihtoehtoja.

Eräs tutkimuksen tavoite oli käyttäjien tuominen mukaan suunnitteluun. Käyttäjät il-

moittivat kaipaavansa erityisesti mahdollisuutta nopeuden kontrollointiin sekä peru-

mistoimintoa. Molempiin esitettiin useita ratkaisuja. Nopeuden kontrolloinnin osalta

havaittiin, että käyttäjien ehdottamat menetelmät poikkesivat siitä, mitä on totuttu pi-

tämään ihmiselle helpoimpana. Toinen mielenkiintoinen havainto oli se, että käyttäjiä

ärsytti toimettomana olo. He halusivat osallistua toimintaan, vaikka tämä ei olisikaan

tehokkuuden kannalta optimaalista. Onkin varottava suunnittelemasta sellaisia puhe-

käyttöliittymiä, jotka pyrkivät maksimoimaan tehokkuuden muiden seikkojen kustan-

nuksella.


Sivu 86

Käyttäjiltä tiedusteltiin myös puheen soveltuvuutta eri tilanteisiin. Parhaiten koehen-

kilöt mielsivät puheohjauksen soveltuvan etäisyyden säätelyyn sekä kääntymisen

kontrollointiin. Perusliikkumiseen käyttäjät haluaisivat käyttää mieluummin jotakin

muuta modaliteettia. Jatkokehityksen kannalta multimodaalisuus onkin tärkeä näkö-

kohta, sillä sen avulla voidaan helpottaa erityisesti ongelmallisia toimintoja ja keskit-

tää puheohjauksen kehitys sille parhaiten soveltuviin toimintoihin. Multimodaali-

suutta voidaan hyödyntää mm. katseohjauksella ja tuntoaistilla. Multimodaalisuuden

lisäksi tärkeä jatkokehityssuunta on luonnollisen kielen hyödyntäminen, joka mahdol-

listaa korkeamman tasoisen toiminnallisuuden.

Käyttäjätestien perustella puheohjaus soveltuu yksinkertaisiin tilanteisiin, mutta mo-

nimutkaisten tilanteiden osalta kehittämisen varaa on vielä paljon. Ohjaukseen käy-

tetty metafora on laajennettavissa monella tapaa, esimerkiksi objektien manipulointiin

soveltuvaksi. Toiminnallisuuden kehittämistä tärkeämpi näkökohta on kuitenkin pe-

rustoimintojen virhevapaus, sillä tämä ratkaisee lopulta järjestelmän käytettävyyden.

Tutkimuksessa ei suoritettu lainkaan eri vuorovaikutusmenetelmien, kuten erilaisten

ohjausmetaforien vertailua. Pääasiallinen syy tähän on näiden vaatima koejärjestely-

jen raskaus. Vertailututkimusten lisäksi tärkeä tulevaisuuden tutkimuskohde on tässä

esitettyjen päätelmien todentaminen yksinkertaistetuilla muodollisilla koetilanteilla.

Eräs merkittävä ongelma, joka vaikeutti analysointia, olikin koetilanteiden monimut-

kaisuus. Jatkotutkimukset tulee eriyttää siten, että osassa tutkitaan yksittäisiä asioita

formaalisti pienimuotoisissa kokeissa ja toisissa kerätään yleisvaikutelmia laajemmis-

sa yhteyksissä.

Eräs mahdollisuus jatkokehitykseen on järjestelmän muokkaaminen vapaaseen levi-

tykseen soveltuvaksi. Tämä on mahdollista, sillä on olemassa vapaasti levitettävä pu-

hesovellusten kehitysjärjestelmä [Microsoft, 1998b], joka soveltuisi korvamaan tässä

käytetyn kaupallisen sovelluksen. Nykyisen selaimen prototyyppi olisi muokattavissa

siten, että se soveltuisi EAI-rajapinnan avulla liitettäväksi mihin tahansa EAI:ta tuke-

vaan VRML 2.0-selaimeen. Uskon, että tällä tavoin käyttäjiltä saataisiin runsaasti ide-

oita, sillä testien perusteella konsepti on niin kiinnostava, että se herättää poikkeuk-

sellisen paljon huomiota ja saa osakseen kommentteja. Tämä voisi ohjata kehitystyötä

valtavasti eteenpäin, sillä käyttäjien osallistuminen suunnitteluun on äärimmäisen tär-

keää kehityksen tässä vaiheessa.

PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ LÄHDELUETTELO

Sivu 87

LÄHDELUETTELO

[Allen, 1994] Allen J. Linguistic Aspects of Speech Synthesis. In Voice Communication Between Hu-

mans and Machines. Roe, D., Wilpon, J. (editors). National Academy Press, Washington D.C.,

1994: 135-155.

[Andrews et al., 1998] Andrews, K., Pesendorfer, A., Pichler, M., Wagenbrunn, K.H., Wolte, J. Look-

ing Inside Vrwave: The Architecture and Interface of the Vrwave VRML97 Browser. In Proc.

of VRML’98, Monterey, California, Feb. 1998.

http://ece.uwaterloo.ca:80/vrml98/cdrom/papers/andrews/andrews.pdf. 17.4.1998.

[Atal & Jayant, 1996] Atal, B., Jayant, N. Speech Coding. In Survey of the State of the Art in Human

Language Technology. 1996. http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html.

9.4.1998.

[Balakrishnan et al., 1997] Balakrishnan, R., Baudel, T., Kurtenbach, G., Fitzmaurice, G. The Rock-

in’Mouse: Integral 3D manipulation on a plane. In Proc. of CHI ’97. New York: ACM, 1997:

311-318.

[Bates, 1994] Bates, M. Models of Natural Language Understanding. In Voice Communication Be-

tween Humans and Machines. Roe, D., Wilpon, J. (editors). National Academy Press, Wash-

ington D.C., 1994: 238-253.

[Bier, 1990] Bier, E. Snap-Dragging in Three Dimensions. In Proc. 1990 Symposium on Interactive

3D Graphics, Computer Graphics, 24 (2): 193-204.

[Bourdakis, 1996] Bourdakis, V. From CAAD to VR; Building a VRML model of London’s West End.

In The Third UK Virtual Reality Special Interest Group Conference, July 1996: 5-14.

http://fos.bath.ac.uk/vas/papers/3rd-UKVRSIG/. 17.04.1998.

[Bowman et al., 1997] Bowman, D., Koller, D., Hodges, L. Travel in Immersive Virtual Environ-

ments: An Evaluation of Viewpoint Motion Control Techniques. In Proceedings of the Virtual

Reality Annual International Symposium (VRAIS): 45-52, 1997.

http://www.cc.gatech.edu/gvu/people/Phd/Doug.Bowman/travel_final.ps. 20.4.1998.

[Bradford, 1995] Bradford, J. The Human Factors of Speech-Based Interfaces: A Research Agenda.

ACM SIGCHI Bulletin, 27 (2): 61-67.

[Brown, 1994] Brown, M. Design Specifications for Air Traffic Control Displays: 2D, 3D and VR.

Computer Science Technical Report 676, QMW College, University of London, May 1994.

[Bukowski & Sequin, 1995] Bukowski, R., Sequin, C. Object Associations – A Simple and Practical

Approach to Virtual 3D manipulation. In ACM 1995 Symposium on Interactive 3D Graphics:

131-138. http://http.cs.berkeley.edu/~bukowski/final9.ps. 17.4.1998.

[Buskirk & LaLomia, 1995] Buskirk, R., LaLomia, M. A comparison of speech and mouse/keyboard

GUI navigation. In Proceedings of ACM CHI’95 Conference on Human Factors in Computing

Systems 1995: 96.


Sivu 88

[Carlson, 1994] Carlson, R. Models of Speech Synthesis. In Voice Communication Between Humans

and Machines. Roe, D., Wilpon, J. (editors). National Academy Press, Washington D.C.,

1994: 116-134.

[Chapanis, 1975] Chapanis, A. Interactive Human Communication. Scientific American, 232: 36-42,

1975.

[Chen et al., 1988] Chen, M., Mountford, S., Sellen, A. A Study in Interactive 3-D Rotation Using 2-D

Control Devices. In Proceedings of SIGGRAPH’88, ACM SIGGRAPH, August 1988: 121-

129.

[Cohen & Oviatt, 1994] Cohen, P., Oviatt, S. The Role of Voice in Human-Machine Communication.

In Voice Communication Between Humans and Machines. Roe, D., Wilpon, J. (editors). Na-

tional Academy Press, Washington D.C., 1994: 34-75.

[d’Alessandro & Liénard, 1996] d'Alessandro, C. & Liénard, J.-S. Synthetic Speech Generation. In

Survey of the State of the Art in Human Language Technology: 4-10. 1996.

http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html. 9.4.1998.

[van Dam, 1997] van Dam, A. Post-WIMP User Interfaces. Communications of the ACM, 40 (2): 63-

67.

[Damper et al., 1996] Damper, R., Tranchant, M., Lewis, S. Speech Versus Keying in Command and

Control: Effect of Concurrent Tasking. International Journal Of Human-Computer Studies, 45:

337-348, 1996.

[Darken, 1994] Darken, R. Hands-off Interaction with Menus in Virtual Spaces. In Proceedings of

SPIE '94, Stereoscopic Displays and Virtual Reality Systems. Vol. 2177: 365-371.

http://www.npsnet.nps.navy.mil/darken/Publications/virtualmenus.pdf. 17.4.1998.

[Darken & Sibert, 1993] Darken, R., Sibert, J. A Toolset for Navigation in Virtual Environments. In

User Interface Software and Technology, 1993: 157-165. Atlanta, GA: ACM Press.

[Darken & Sibert, 1996] Darken, R., Sibert, J. Navigating Large Visual Spaces. The International

Journal of Human-Computer Interaction, 8 (1): 49-72.

[De Mori & Brugnara, 1996] De Mori, R., Brugnara, F. HMM Methods in Speech Recognition. In Sur-

vey of the State of the Art in Human Language Technology. 1996.


[Entropic, 1998] grapHvite Speech Recognition Prototyping System.

http://www.entropic.com/htk/graphvite.html. 20.4.1998.

[Fraser & Gilbert, 1991] Fraser, N., Gilbert, G. Simulating Speech Systems. Computer Speech and

Language, 5 (1): 81-99, 1991.

[Furui, 1994] Furui, S. Toward the Ultimate Synthesis/Recognition System. In Voice Communication

Between Humans and Machines. Roe, D., Wilpon, J. (editors). National Academy Press,

Washington D.C., 1994: 450-466.


Sivu 89

[Gaver, 1989] Gaver, W. The SonicFinder: An Interface That Uses Auditory Icons. Human-Computer

Interaction, 4 (1): 67-94, 1989.

[Goderéaux et al., 1996] Goderéaux, C., Diebel, K., El-Guedj, P.-O., Revolta, F., Nugues, P. An Inter-

active, Spoken Dialog Interface to Virtual Worlds. In Linguistic Concepts and Methods in

CSCW. Connolly, J., Permberton, L. (editors). Springer-Verlag, London, 1996: 177-200.

[Herndon et al., 1992] Herndon, K., Zeleznik, R., Robbins, D., Conner, D., Snibbe, S., van Dam, A.

Interactive Shadows. In Proc. ACM SIGGRAPH Symposium on User Interface Software and

Technology, 1992: 1-6.

[Herndon et al., 1994] Herndon, K., van Dam, A., Gleicher, M. The Challenges of 3D interaction: A

CHI’94 Workshop. SIGCHI Bulletin, 26 (4), Oct. 1994: 36-43.

[Hinckley et al., 1994] Hinckley, K., Pausch, R., Goble, J., Kassell, N. A Survey of Design Issues in

Spatial Input. In Fourth Annual Symposium on User Interface Software and Technology, No-

vember, 1994: 213-222.

[Hirschman, 1994] Hirschman, L. The Roles of Language Processing in a Spoken Language Interface.

In Voice Communication Between Humans and Machines. Roe, D., Wilpon, J. (editors). Na-


[Houde, 1992] Houde, S. Iterative Design of an Interface for Easy 3-D Direct Manipulation. In Pro-

ceedings of CHI’92, ACM SIGCHI, May 1992: 135-142.

[Hunt, 1996] Hunt, M. Signal Representation. In Survey of the State of the Art in Human Language

Technology. 1996. http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html. 9.4.1998.

[Jacob et al., 1994] Jacob, R. Sibert, L., McFarlane, D., Mullen, M. Integrality and Separability of

Input Devices. ACM Transactions on Computer-Human Interaction, 1 (1): 3-26, 1994.

[Kamm, 1994] Kamm, C. User Interfaces for Voice Applications. In Voice Communication Between

Humans and Machines. Roe, D., Wilpon, J. (editors). National Academy Press, Washington

D.C., 1994: 422-442.

[Karl et al., 1993] Karl, L., Pettey, M., Shneiderman, B. Speech-Activated versus Mouse-Activated

Commands for Word Processing Applications: An Empirical Evaluation. Intl. J. Man-Machine

Studies, 39 (4): 667-687, 1993.

[Karlgren et al., 1995] Karlgren J., Bretan, I., Frost, N., Johnsson, L. Interaction Models, Reference,

and Interactivity in Speech Interfaces to Virtual Reality. Paper presented at the Eurographics

Workshop, Kista Sweden, 1995. http://www.sics.se/~jussi/springer.ps. 20.4.1998.

[Kazi et al., 1995] Kazi, Z. Salganicoff M., Beitler, M. Chen S., Chester D., Foulds R. Direct Ma-

nipulation of 3-D Objects Through Multimodal Control: Towards a Robotic Assistant for

People with Physical Disabilities. ASEL Technical Report #ROB9509, Applied Science &

Engineering Laboratories, AI duPont Institute/University of Delaware. 1995.

http://www.asel.udel.edu/robotics/musiic/docs/musiic-ROB9509.ps.Z. 20.4.1998.


Sivu 90

[Koike, 1993] Koike, H. The Role of Another Spatial Dimension in Software Visualization. ACM

Transactions on Information Systems, 11 (3): 266-286. 1993.

[Leatherby & Pausch, 1992] Leatherby, J., Pausch, R. Voice Input as a Replacement for Keyboard

Accelerators in a Mouse-Based Graphical Editor: An Empirical Study. Journal of the Ameri-

can Voice Input/Output Society, 11:2, July 1992.

http://www.cs.virginia.edu/~uigroup/publications/92/journals/AVIOS/keyboardAccellerators/

paper.html. 20.4.1998.

[Levitt, 1994] Levitt, H. Speech Processing for Physical and Sensory Disabilities. In Voice Communi-

cation Between Humans and Machines. Roe, D., Wilpon, J. (editors). National Academy

Press, Washington D.C., 1994: 311-343.

[Liberman, 1994] Liberman, M. Computer Speech Synthesis: Its Status and Prospects. In Voice Com-

munication Between Humans and Machines. Roe, D., Wilpon, J. (editors). National Academy

Press, Washington D.C., 1994: 107-115.

[Mackinlay et al., 1990] Mackinlay, J., Card, S., Robertson, G. Rapid Controlled Movement Through a

Virtual 3D Workspace. Computer Graphics, 24 (4): 171-176, 1990.

[Makhoul & Schwartz, 1994] Makhoul, J., Schwartz, R. State of the Art in Continuous Speech Recog-

nition. In Voice Communication Between Humans and Machines. Roe, D., Wilpon, J. (edi-

tors). National Academy Press, Washington D.C., 1994: 165-198.

[Mane et al., 1996] Mane, A., Boyce, S., Karis, D., Yankelovich, N. Designing the User Interface for

Speech Recognition Applications. SIGCHI Bulletin, 1996, Volume 28 (4): 29-34.

[Marrin, 1997] Marrin, C. External Authoring Interface Reference.

http://cosmosoftware.com/developer/moving-worlds/spec/ExternalInterface.html. 14.4.1998.

[Martin, 1989] Martin, G. The Utility of Speech Input in User Computer Interfaces. International Jour-

nal of Man-Machine Studies, 30: 355-375, 1989.

[Microsoft, 1998a] Liquid Reality White Paper.

http://www.microsoft.com/dimensionx/lr/info/whitepaper.html. 14.4.1998.

[Microsoft, 1998b] Microsoft Speech SDK 3.0. http://research.microsoft.com/research/srg/. 14.4.1998.

[Mine, 1995] Mine, M. Virtual Environment Interaction Techniques. UNC Chapel Hill Computer Sci-

ence Technical Report TR95-018, 1995. ftp://ftp.cs.unc.edu/pub/technical-reports/95-

018.ps.Z. 20.4.1998.

[Moore, 1994] Moore, R. Integration of Speech with Natural Language Understanding. In Voice

Communication Between Humans and Machines. Roe, D., Wilpon, J. (editors). National

Academy Press, Washington D.C., 1994: 254-271.

[Nakatsu & Suzuki, 1994] Nakatsu, R., Suzuki, Y. What Does Voice-Processing Technology Support

Today? In Voice Communication Between Humans and Machines. Roe, D., Wilpon, J. (edi-

tors). National Academy Press, Washington D.C., 1994: 390-421.


Sivu 91

[O’Shaughnessy, 1987] O’Shaughnessy, D. Speech Communication. Addison-Wesley Publishing

Company, New York, 1987.

[Osborn & Agogino, 1992] Osborn, J., Agogino, A. An Interface for Interactive Spatial Reasoning and

Visualization. In Proc. ACM CHI'92 Human Factors in Computing Systems Conference,

ACM SIGCHI 1992: 75-82.

[Oviatt et al., 1997] Oviatt, S., DeAngeli, A., Kuhn, K. Integration and Sychnonization of Input Modes

during Multimodal Human-Computer Interaction. In Proceedings of Conference on Human

Factors in Computing Systems: CHI '97: 415-422, New York, ACM Press.

[Pichler et al., 1995] Pichler, M., Orasche, G., Grossman, E., McCahill, M. Vrweb: A Multi-System

VRML Viewer. In Proc. of First Annual Symposium on the Virtual Reality Modeling Lan-

guage (VRML 95): 77-85, San Diego, California, Dec. 1995.

http://www2.iicm.edu/vrml95/vrweb.html. 20.4.1998.

[Pittman et al., 1997] Pittman, J., Smith, I., Cohen, P., Oviatt, S. & Yang, T.-C. Quickset: A multimo-

dal interface for millitary simulations. In Proceedings of the 6th Conference on Computer-

Generated Forces and Behavioral Representation, University of Central Florida, 1996, 217-

224. http://www.cse.ogi.edu/CHCC/Publications/text.html.

[Poock, 1980] Poock, G. Experiments with Voice Input for Command and Control: Using Voice Input

to Operate a Distributed Computer Network. Naval Postgraduate School Report, NPS55-80-

016, Montrey, CA, USA, 1980.

[Price, 1996] Price, P. Spoken Language Understanding. In Survey of the State of the Art in Human

Language Technology. 1996. http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html.

9.4.1998.

[Raman, 1997] Raman, T. Auditory User Interfaces: Toward the Speaking Computer. Kluwer Aca-

demic Publishers, Boston Hardbound, August 1997.

[Robinett & Holloway, 1992] Robinett, W., Holloway, R. Implementation of Flying, Scaling, and

Grabbing in Virtual Worlds. In 1992 Symposium on Interactive 3D Graphics, ACM SIG-

GRAPH, 1992: 189-192.

[Roukos, 1996] Roukos, S. Language Representation. In Survey of the State of the Art in Human Lan-

guage Technology. 1996. http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html.

9.4.1998.

[Schmandt, 1994] Schmandt, C. Voice Communication with Computers. Van Nostrand Reinhold, New

York, 1994.

[Smith et al., 1996] Smith, A., Dunaway, J., Demasco, P., Peischl, D. Multimodal Input for Computer

Access and Augmentative Communication. In Annual ACM Conference on Assistive Tech-

nologies 1996: 80-85.


Sivu 92

[Stoakley et al., 1995] Stoakley, R., Conway, M., Pausch, R. Virtual Reality on a WIM: Interactive

Worlds in Miniature. In Human Factors in Computing Systems, CHI ’95 Conference Pro-

ceedings, ACM Press, 1995: 265-272.

[Trancoso, 1996] Trancoso, I. Transmission and Storage: Overview. In Survey of the State of the Art

in Human Language Technology. 1996.


[Ware, 1996] Ware, C. Moving Motion Metaphors. In Proceedings of CHI ’96: ACM conference on

Human Factors in Computing Systems: 225-226. New York, NY.

[Ware & Osborne, 1990] Ware, C., Osborne, S. Exploration and Virtual Camera Control in Virtual

Three Dimensional Environments. In Proceedings of 1990 Symposium on Interactive 3D

Graphics, ACM SIGGRAPH, 1990: 175-183.

[Ware et al., 1993] Ware, C., Arthur, K., & Booth, K. Fish Tank Virtual Reality. In Human Factors in

Computer Systems INTERCHI ’93 Conference Proceedings. ACM Press, 1993: 37-42.

[Venolia, 1993] Venolia, D. Facile 3D Direct Manipulation. In Human Factors in Computer Systems

INTERCHI ’93 Conference Proceedings. ACM Press, 1993: 31-36.

[Wilpon, 1994] Wilpon, J. Applications of Voice-Processing Technology in Telecommunications. In

Voice Communication Between Humans and Machines. Roe, D., Wilpon, J. (editors). Na-


[Wloka, 1995] Wloka, M. Interacting with Virtual Reality. In Virtual Prototyping - Virtual Environ-

ments and the Product Development Process, (ed. Rix, J., Haas, S., Teixeira, J.), Chapman &

Hall, 1995.

[Zue et al., 1996] Zue, V., Cole, R., Ward, W. Speech Recognition. In Survey of the State of the Art in

Human Language Technology. 1996.


Tampereen Yliopisto Tietojenkäsittelyopin laitos Toukokuu ...mt60043/Gradu/Gradu.pdf · Pro Gradu-tutkielma, 92 + 8 sivua Toukokuu 1998 Tiivistelmä Tässä työssä tutkitaan kolmiulotteisessa

Documents