Tampereen Yliopisto • Tietojenkäsittelyopin laitos • Toukokuu 1998
Pro Gradu -tutkielma
3XKHRKMDXV��'�Nl\WW|OLLWW\PLVVl
Markku Turunen <[email protected]> 19.5.1998
ii
Tampereen yliopisto
Tietojenkäsittelyopin laitos
Turunen, Markku:
Puheohjaus 3D-käyttöliittymissä
Pro Gradu-tutkielma, 92 + 8 sivua
Toukokuu 1998
Tiivistelmä
Tässä työssä tutkitaan kolmiulotteisessa ympäristössä tapahtuvaa vuorovaikutusta pu-
heohjauksen näkökulmasta. Puhetta käytetään vuorovaikutukseen, koska se mahdol-
listaa kolmiulotteisen virtuaalimaailman täysimittaisen hallinnan myös niissä tapauk-
sissa, joissa käsien käyttäminen ei ole mahdollista. Tutkimuksessa esitetään VRML-
maailmojen hallintaan soveltuva puheohjattu selain sekä tällä suoritetut käyttäjätestit.
Konstruktion pohjana on puheen luonnetta, puhesovellusten suunnitteluperiaatteita ja
kolmiulotteisten käyttöliittymien piirteitä selvittävä kirjallisuuskatsaus. Selaimella
suoritettujen käyttäjätestien tulosten pohjalta esitetään menetelmiä puheohjauksen te-
hostamiseksi. Erityisesti kiinnitetään huomiota virheiden hallintaan, koska puhetek-
nologioiden nykyisellä kehitystasolla tämä on merkittävin seikka puhesovellusten hy-
väksymisen kannalta. Toiminnallisuuden kehittämistä lähestytään komentopohjaisten
puhesyötteiden ohella luonnollisen kielen, multimodaalisuuden ja puhetulosteiden
kautta.
iii
SISÄLLYSLUETTELO
1 JOHDANTO .........................................................................................................1
2 PUHEEN KÄSITTELY.......................................................................................3
2.1 Puheen rakenne ................................................................................................. 3
2.2 Puheen esittäminen digitaalisesti ...................................................................... 5
2.3 Puheentunnistus................................................................................................. 5
2.3.1 Puheentunnistuksen periaate ..................................................................... 6
2.3.2 Puheentunnistuksen ongelmia ................................................................... 7
2.4 Puheentunnistusjärjestelmien ominaisuuksia.................................................... 8
2.4.1 Sanasto ja kieli .......................................................................................... 8
2.4.2 Puheen luonne ........................................................................................... 9
2.4.3 Olosuhteet................................................................................................ 10
2.4.4 Muita seikkoja......................................................................................... 10
2.5 Puheentunnistusjärjestelmien evaluointi ......................................................... 11
2.6 Puheen syntetisointi ........................................................................................ 12
2.7 Puheen merkityksen käsittely.......................................................................... 14
2.8 Lopuksi............................................................................................................ 15
3 PUHESOVELLUSTEN SUUNNITTELU JA EVALUOINTI.......................16
3.1 Puhe käyttöliittymäelementtinä....................................................................... 16
3.1.1 Puheen asema käyttöliittymässä.............................................................. 16
3.1.2 Puheen ymmärtämisen taso..................................................................... 17
iv
3.1.3 Kommunikaation suunta ......................................................................... 17
3.1.4 Puheen ja graafisen suorakäyttöliittymän eroista.................................... 18
3.2 Puhe multimodaalisissa käyttöliittymissä ....................................................... 19
3.3 Puheen keskeisimmät ominaisuudet................................................................ 20
3.4 Puheen käytössä huomioitavia seikkoja.......................................................... 21
3.5 Puhesovellusten suunnittelu ............................................................................ 23
3.5.1 Keskustelun ohjaus.................................................................................. 23
3.5.2 Virheiden hallinta.................................................................................... 24
3.5.3 Vahvistukset ............................................................................................ 26
3.5.4 Palaute ja ohjeet ...................................................................................... 26
3.6 Puhesovellusten evaluointikriteerejä............................................................... 27
3.7 Puhesovelluksiin liittyvä empiirinen tutkimus................................................ 28
3.8 Lopuksi............................................................................................................ 30
4 KOLMIULOTTEISET KÄYTTÖLIITTYMÄT ............................................31
4.1 Kolmiulotteinen käyttöliittymä ja sen perustoiminnot.................................... 31
4.2 Kolmiulotteisen käyttöliittymän erityispiirteitä .............................................. 33
4.3 Virtuaalimaailman luonne............................................................................... 35
4.4 Liikkuminen kolmiulotteisessa ympäristössä.................................................. 37
4.4.1 Liikkumisen motiivit ............................................................................... 37
4.4.2 Liikkumisen perusmetaforat.................................................................... 38
4.4.3 Liikkeen kontrollointi.............................................................................. 39
4.4.4 Korkean tason liikkumismetaforat .......................................................... 40
v
4.5 Vuorovaikutuksessa tarvittavien vapausasteiden rajoittaminen...................... 40
4.6 Puheen käytöstä kolmiulotteisissa käyttöliittymissä....................................... 42
4.7 Lopuksi............................................................................................................ 44
5 PUHEOHJATTU SELAIN ...............................................................................45
5.1 Lähtökohdat..................................................................................................... 45
5.2 Toiminnallisuus............................................................................................... 46
5.2.1 Toimintojen määrittäminen..................................................................... 46
5.2.2 Liikkeiden kontrollointi........................................................................... 47
5.2.3 Metafora .................................................................................................. 48
5.2.4 Toimintojen esittäminen komentoina...................................................... 48
5.3 Konstruointiin käytetyt välineet ...................................................................... 51
5.4 Selaimen toteutus ............................................................................................ 52
5.5 Huomiota toteutuksesta................................................................................... 53
6 KÄYTTÄJÄTESTIT .........................................................................................54
6.1 Testien tarkoitus .............................................................................................. 54
6.2 Testiolosuhteet ................................................................................................ 55
6.3 Koehenkilöt ..................................................................................................... 56
6.4 Havaintojen tallentaminen............................................................................... 56
6.5 Ensivaikutelmien keruu ja alustavat testit ....................................................... 57
6.6 Tehtävät........................................................................................................... 58
6.6.1 Harjoitustehtävät (1, 2 ja 3)..................................................................... 58
6.6.2 Liikkumistehtävät (4, 8 ja 9) ................................................................... 59
vi
6.6.3 Kääntymistehtävät (5 ja 6) ...................................................................... 59
6.6.4 Asemointitehtävä (7) ............................................................................... 61
6.7 Kyselylomake ja haastattelut........................................................................... 61
6.8 Testien suorittaminen ...................................................................................... 61
6.9 Materiaalin analysointi .................................................................................... 62
6.10 Huomioita testeistä...................................................................................... 63
7 PUHEOHJAUKSEN KEHITTÄMINEN TESTIEN POHJALTA ...............64
7.1 Tunnistusvirheet .............................................................................................. 64
7.1.1 Tunnistusvirheiden määrä ja jakaantuminen........................................... 64
7.1.2 Henkilökohtaiset erot tunnistusvirheissä................................................. 65
7.1.3 Virheellisten tulkintojen karsinnan toimivuus ........................................ 66
7.1.4 Virhetulkintojen karsinnan kehittäminen................................................ 67
7.1.5 Komentojen antamiseen liittyvien virheiden syyt ja korjaaminen.......... 68
7.2 Semanttiset virheet .......................................................................................... 69
7.2.1 Semanttisten virheiden lähteet ................................................................ 69
7.2.2 Semanttiset virheet ja ohjausmetafora..................................................... 70
7.2.3 Semanttisten virheiden vähentäminen metaforaa tukemalla................... 72
7.3 Virheiden vaikutukset ..................................................................................... 73
7.4 Virheiden korjaus ja palaute............................................................................ 75
7.4.1 Virheiden havaitseminen ja korjaaminen................................................ 75
7.4.2 Perumistoiminto ...................................................................................... 76
7.4.3 Palaute ..................................................................................................... 77
vii
7.5 Toiminnallisuuden kehittäminen..................................................................... 78
7.5.1 Komentojen antaminen ........................................................................... 78
7.5.2 Nopeuden kontrollointi ja tarkka työskentely ......................................... 78
7.5.3 Perusliikkumisen vaihtoehdot ................................................................. 79
7.5.4 Kääntymiskomentojen tehostaminen ...................................................... 80
7.5.5 XY-tason orientaation muuttaminen ....................................................... 80
7.5.6 Toiminnallisuuden lisäämisen prioriteetit............................................... 81
7.6 Multimodaalisuuden hyödyntäminen.............................................................. 82
7.7 Yhteenveto jatkokehityksestä.......................................................................... 83
8 YHTEENVETO..................................................................................................84
LÄHDELUETTELO ..................................................................................................87
Liite : Käyttäjätestien haastattelulomake.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 1 - JOHDANTO
Sivu 1
1 JOHDANTO
Kolmiulotteisten käyttöliittymien merkitys on kasvanut viime aikoina jatkuvasti.
Kolmiulotteisessa ympäristössä ihmisen ja tietokoneen vuorovaikutus on kuitenkin
huomattavasti monimukaisempaa kuin perinteisessä kaksiulotteisessa työpöytäympä-
ristössä. Ongelmaa on lähestytty kehittämällä erilaisia syöttölaitteita ja ohjelmallisia
ratkaisuja, joiden yhteisenä tekijänä voidaan pitää niiden hallinnan vaatimaa tark-
kuutta ja voimakasta suuntausta käsien hyödyntämiseen.
Nämä ratkaisut jättävät kuitenkin toivomisen varaa, sillä aina ei ole mahdollista käyt-
tää edistyksellisiä syöttölaitteita. On myös tilanteita, joissa käsien käyttäminen on jo-
ko rajoitettua tai kokonaan mahdotonta. Tämän vuoksi tarvitaan myös sellaisia mene-
telmiä, jotka soveltuvat käytettäväksi ilman tarkkaa motorista kontrollointia.
Tässä tutkimuksessa lähestytään kolmiulotteisten käyttöliittymien hallintaa käyttä-
mällä puhetta syötteiden antamiseen. Puhe on niin ilmaisuvoimainen kommunikoin-
timenetelmä, että sen avulla on mahdollista hallita kolmiulotteisia käyttöliittymiä
myös niissä tilanteissa, joissa käyttäjän kädet ovat kokonaan varattuina muihin tehtä-
viin. Ratkaisu mahdollistaa myös virtuaalimaailmojen käyttämisen sellaisille ihmis-
ryhmille, jotka muutoin jäisivät näistä osattomiksi. Esimerkiksi motorisesti vammaiset
ovat tällainen usein unohdettu käyttäjäryhmä.
Keskeisenä ajatuksena on tutkia, millaisia menetelmiä tarvitaan siihen, että virtuaali-
maailmaa pystytään hallitsemaan puheen avulla. Aihetta lähestytään kartoittamalla
aikaisempia puhesovellusten ja kolmiulotteisten käyttöliittymien tutkimuksia. Näiden
pohjalta esitetään malli puheohjauksen liittämiseksi virtuaalimaailmoihin ja tämän
konkretisointi puheohjatun VRML 2.0 -selaimen muodossa sekä selaimelle suoritetut
käyttäjätestit. Käyttäjätestien havaintojen pohjalta esitetään suunnitelma puheohjauk-
sen kehittämiseksi ja jatkotutkimusten suorittamiseksi. Tutkimus muodostaa ensim-
mäisen vaiheen iteratiivisesta prosessista, jonka tarkoituksena on kehittää kolmiulot-
teisten maailmojen täysimittaiseen hallitsemiseen soveltuva puhekäyttöliittymä.
Tutkimuksessa kiinnitetään erityistä huomiota virhetilanteisiin, sillä virheiden hallinta
on ratkaiseva seikka puhesovellusten hyväksymiselle. Suurin osa virheistä aiheutuu
teknologian kehittymättömyydestä. Puhekäyttöliittymien suunnittelu vaatiikin poik-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 1 - JOHDANTO
Sivu 2
keuksellisen paljon tietoutta pohjana olevasta teknologiasta. Tämän vuoksi käsitellään
lyhyesti keskeisimpiä puhetekniikoita käyttöliittymäsuunnittelun näkökulmasta.
Pääpaino teoreettisessa tarkastelussa on kuitenkin puhesovellusten suunnittelussa ja
kolmiulotteisten käyttöliittymien vuorovaikutusmenetelmissä. Kirjallisuudessa esi-
tettyjä puhekäyttöliittymien suunnittelunäkökohtia tulkitaan reaaliaikaisten järjestel-
mien kannalta. Kolmiulotteisten käyttöliittymien vuorovaikutusmenetelmistä käsitel-
lään erityisesti niitä, jotka ovat sovellettavissa puheohjaukseen.
Puheen ohella voidaan syötteiden antamiseen käyttää myös muita menetelmiä, jotka
eivät vaadi käsien käyttämistä. Tällöin on kysymys multimodaalisesta käyttöliitty-
mästä. Multimodaalisuuden teemaa pidetään yllä koko tutkimuksen ajan, sillä jatkon
kannalta on todennäköistä, että syötemodaliteettivalikoimaa laajennetaan. Tällä toi-
votaan parannettavan järjestelmän käytettävyyttä mm. vähentämällä virheitä. Käsitel-
tävien asioiden yhteydessä pyritään jo ennakkoon huomioimaan, kuinka multimodaa-
lisuus olisi hyödynnettävissä eri tilanteissa.
Puhetta voidaan käyttää syötteiden ohella myös tulosteisiin. Yhdessä nämä muodosta-
vat keskustelupohjaisen järjestelmän, joka mahdollistaa luonnollisen kaltaisen ja mo-
nipuolisen vuorovaikutuksen ihmisen ja tietokoneen välille. Puhetulosteet ovat yksi
mielenkiintoisimmista jatkokehityskohteista. Tämän vuoksi tässä tutkimuksessa lä-
hestytään puhekäyttöliittymiä keskustelupohjaisen mallin mukaisesti.
Tämä tutkimus liittyy läheisesti kolmiulotteisten käyttöliittymien tutkimukseen, mikä
on tällä hetkellä erittäin aktiivisen tarkastelun kohteena. Muita läheisiä tutkimusalu-
eita ovat puhekäyttöliittymät, näistä erityisesti reaaliaikaiset. Yhteyksiä on jatkokehi-
tyksen näkökulmasta myös vaihtoehtoisten kommunikointimenetelmien ja multimo-
daalisten käyttöliittymien tutkimukseen.
Tutkimus aloitetaan selvittämällä puheteknologioita eli puheen digitaalista käsittelyä.
Tätä tarkastellaan toisessa luvussa. Puhesovellusten suunnittelua käsitellään kolman-
nessa luvussa. Neljännessä luvussa tarkastellaan kolmiulotteisia käyttöliittymiä ja
erityisesti niiden vuorovaikutusmenetelmiä. Viidennessä luvussa esitetään puheohja-
tun selaimen prototyyppi. Prototyypille suoritettuja käyttäjätestejä kuvataan kuuden-
nessa luvussa ja niiden tuloksia sekä puheohjauksen kehittämistä seitsemännessä lu-
vussa. Kahdeksannessa luvussa esitetään yhteenveto tutkimuksesta.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 3
2 PUHEEN KÄSITTELY
Puheen käyttäminen ihmisen ja tietokoneen välisessä kommunikoinnissa perustuu
muutamaan perustekniikkaan. Näiden tunteminen on ensiarvoisen tärkeää kaikille pu-
hesovellusten tekijöille. Tämä pitää paikkansa varsinkin kehityskulun nykyisessä vai-
heessa, kun teknologia ei ole vielä erityisen kehittynyttä.
Puheen käyttöä lähestytään tässä tutkimuksessa keskustelupohjaisten järjestelmien
näkökulmasta. Keskustelupohjainen lähestymistapa kattaa teknologiatasolla puheen-
tunnistuksen, synteettisen puheen tuottamisen ja puheen merkityksen käsittelyn. Kus-
takin tekniikasta selvennetään niitä piirteitä, jotka vaikuttavat joko suoranaisesti tai
välillisesti puheen hyödyntämiseen käyttöliittymäelementtinä. Pääpaino tässä luvussa
on asetettu tutkimuksen kannalta keskeiselle menetelmälle, puheentunnistukselle.
Ennen tekniikoihin syventymistä selvitetään lyhyesti puheenkäsittelyn pohjalla olevia
seikkoja eli puheen rakennetta ja esittämistä. Puhetekniikoiden esittämisen ohella kä-
sitellään puheentunnistusjärjestelmien keskeisimpiä ominaisuuksia ja evaluointia. Lo-
pussa on yhteenveto käsitellyistä asioista.
2.1 Puheen rakenne
Foneemi eli äänne on pienin merkityksellinen yksikkö sanoja muodostettaessa. Mikä
tahansa kieleen kuuluva sana voidaan esittää jonona foneemeja, jotka vastaavat ihmi-
sen puheentuotantojärjestelmän tilanmuutoksia. Eri kielissä on erilaiset foneemien
joukot. Tyypillisesti kieleen kuuluu 20-40 foneemia.
Kuhunkin foneemiin liittyy allofoneja, jotka ovat erilaisia tapoja ääntää kyseinen fo-
neemi [O’Shaughnessy, 1987, 55-56]. Foneemien yhdistelmistä muodostuu tavuja, sanojen
yksiköitä. Sanoista muodostuu lauseita ja näistä edelleen monimutkaisempia kokonai-
suuksia.
Tarkastelun helpottamiseksi on hyödyllistä käsitellä puhetta eri tasoilla. Schmandt
[1994, 8-11] esittää mallin, jossa puhe jaetaan kahdeksalle tasolle (kuva 2-1). Schmandt
huomauttaa, että malli on analyyttinen eikä pyrikään kattamaan kaikkia puheen ilmi-
öitä. Puheen käsittelyn kannalta malli on kuitenkin erittäin hyödyllinen, sillä se auttaa
jäsentämään käsiteltäviä asioita puheen abstraktiusasteen mukaisesti.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 4
'LVNXUVVLQ�WDVR
3UDJPDDWWLQHQ�WDVR
6HPDQWWLQHQ�WDVR
6\QWDNVLQ�WDVR
/HNVLNDDOLQHQ�WDVR
)RQHHPLWDVR
$UWLNXODWRULQHQ�WDVR
$NXVWLQHQ�WDVR
Puheenymmärtäminen
Puheenkäsittelyn
perustekniikat
Kuva 2-1: Puheen tasot (muokattu lähteestä [Schmandt, 1994, 9]).
Alimman kokonaisuuden muodostavat akustinen taso, artikulatorinen taso sekä fo-
neemitaso. Puhe esitetään näillä tasoilla äänimolekyylien liikkeenä ilmassa, äänijär-
jestelmän erilaisina tiloina sekä foneemeina. Jos tilannetta tarkastellaan puheen vas-
taanottajan kannalta, korvautuu artikulatorinen taso havaintotasolla, joka kuvaa ääni-
signaalin käsittelyä kuuloelimissä ja aivoissa.
Leksikaalinen taso ja syntaksin taso muodostavat kokonaisuuden, jossa puhetta käsi-
tellään sana- sekä lausetasolla. Leksikaalinen taso kuvaa kielen sanavaraston, sanojen
muodostamissäännöt ja painotukset. Syntaksin tasolla tarkastellaan lauseiden raken-
netta eli laillisia sanakombinaatioita.
Puhetta käsitellään sen sisältämien merkitysten kannalta semanttisella, pragmaatti-
sella sekä diskurssin tasolla. Nämä muodostavat yhdessä korkean tason kokonaisuu-
den. Semanttisella tasolla tarkastellaan sanojen merkityksiä. Tarkastelu voi kohdistua
yksittäiseen sanaan tai useiden sanojen yhdistelmään. Pragmaattisella tasolla mielen-
kiinnon kohteena on puheen tarkoitus. Diskurssi käsittelee puhetapahtumaa siihen
osallistuvien tahojen muodostamien puheenvuorojen kautta.
Kun puheen käsittelyn tekniikoita tarkastellaan edellä esitetyn jäsennyksen pohjalta,
voidaan tehdä karkea yleistys: perustekniikat työskentelevät alimman ja keskimmäi-
sen kokonaisuuden tasoilla. Puheen ymmärtäminen puolestaan operoi pääasiassa kor-
keimman ja keskimmäisen kokonaisuuden tasoilla. Jakoa tulee pitää lähinnä viitteelli-
senä.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 5
2.2 Puheen esittäminen digitaalisesti
Puhe esiintyy akustisella tasolla ilmanpaineen vaihteluina. Jotta tietokonepohjainen
puheen käsittely olisi mahdollista, on puhe muunnettava digitaaliseksi. Digitaalisesti
esitettyä puhetta voidaan käyttää sellaisenaan puhetulosteisiin. Digitaalinen puhe toi-
mii myös pohjana muille puheteknologioille, kuten puheentunnistukselle.
Puhetta käsitellään digitaalisesti tallentamalla alkuperäinen puhesignaali tai mallinta-
malla puheen tuottamismenetelmiä. Signaalin tallentaminen eli koodaus tapahtuu
akustisella tasolla ja mallintaminen lähinnä artikulatorisella tasolla. Näillä täysin toi-
sistaan poikkeavilla menetelmillä on omat etunsa ja haittansa. Puhesignaalin koodaa-
misessa on vaikeutena informaation tehokas esittäminen. Puheen mallinnuksen pää-
ongelmana on puheen laatu [Trancoso, 1996].
Lopputuloksen kannalta on tärkeintä saavutettu puheen esityksen taso. Atal ja Jayant
[1996] erottavat neljä kriteeriä, joiden avulla voidaan arvioida puhetta esittävien jär-
jestelmien suorituskykyä. Heidän kriteerinsä ovat puheen laatu, esityksen tiiviys,
kommunikointiin aiheutuva viive sekä menetelmän monimutkaisuus.
Puheen laatua kuvataan viisiportaisella MOS-asteikolla (mean-opinion score). Laadun
arviointi suoritetaan laajalla aineistolla, joka sisältää käyttäjien mielipiteitä siitä, onko
puheen laatu ala-arvoista, huonoa, välttävää, hyvää vai erinomaista. Esityksen tiiviyttä
ilmaistaan luvulla, joka kertoo kuinka monta bittiä tarvitaan kuvaamaan yhtä sekuntia
puhetta. Hyväksyttävät kommunikointiviiveet esitetään millisekunneissa ja algoritmi-
en monimutkaisuutta kuvataan laskentateho- sekä muistivaatimuksilla.
Käyttöliittymäsuunnittelijan tulisi aina suorittaa tekniikan evaluointi esimerkiksi
edellä esitettyjen kriteerien mukaisesti. Erityisen tärkeää tämä on puhetulosteissa, sillä
huonolaatuinen tai pitkiä kommunikointiviiveitä aiheuttava puhetuloste voi olla mer-
kittävä käyttöliittymäongelma. Myös puheentunnistuksessa on puheen digitaalisen
esityksen laadulla merkitystä. Aina tulisi varmistaa, että puheentunnistusjärjestelmä ja
sille syötteenä annettava puhe soveltuvat yhteen.
2.3 Puheentunnistus
Makhoul ja Schwartz [1994] määrittelevät automaattisen puheentunnistuksen (ASR,
Automatic Speech Recognition) prosessiksi, jossa jatkuva puhesignaali kuvataan jou-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 6
koksi diskreettejä elementtejä. Nämä elementit voivat olla äänteitä, sanoja tai lauseita.
Puheentunnistuksen päämääränä voidaan yleensä pitää tekstimuotoisen lauseen muo-
dostamista syötteenä saadusta analogisesta puhesignaalista. Tässä kohdassa esitetään
puheentunnistuksen periaate pääpiirteissään sekä käydään läpi merkittävimpiä proses-
sia haittaavia ongelmia.
2.3.1 Puheentunnistuksen periaate
Puheentunnistus perustuu kontekstisidonnaisten äänteiden eli allofonien etsimiseen
puhesignaalista. Kun puhesignaali kuvataan äänteiksi, käytetään prosessissa väli-
muotona signaalin ominaisuuksista muodostettuja malleja. Makhoul ja Schwartz
[1994] toteavat, että tunnistus on periaatteessa mahdollista suoraan signaalistakin. Pu-
hesignaali sisältää kuitenkin suuria vaihteluita, minkä vuoksi se on hyödyllistä nor-
malisoida ja muodostaa malli ainoastaan tärkeimmistä ominaisuuksista.
Kuvassa 2-2 esitetyssä puheentunnistuksen yleistetyssä mallissa on kolme peruspro-
sessia, puhesignaalin digitalisointi, signaalin ominaisuuksien analysointi sekä signaa-
lin ominaisuuksien vertailu ja ratkaisun hakeminen. Vertailussa ja etsinnässä käyte-
tään hyväksi malleja kielen ominaisuuksista ja puheen yksiköistä. Analogisen signaa-
lin muuntaminen digitaaliseksi suoritetaan useimmiten jo käyttöjärjestelmän tasolla.
Analoginenpuhesignaali
Muunnosanalogisestadigitaaliseksi
Muunnosanalogisestadigitaaliseksi
Signaalinominaisuuksien
analysointi
Signaalinominaisuuksien
analysointi
Digitaalinenpuhesignaali
Signaalinominaisuudet
Vertailuja ratkaisun
etsintä
Vertailuja ratkaisun
etsintä
Teksti-tuloste
Rakenteiset mallitRakenteiset mallit
Ominaisuuksien mallitOminaisuuksien mallit
Kuva 2-2: Yleinen puheentunnistusjärjestelmän rakenne.
Digitalisoidun signaalin käsittely tapahtuu tyypillisesti 10 tai 20 millisekunnin jak-
soissa. Ensimmäinen vaihe jakson käsittelyssä on sen ominaisuuksien erittely. Sig-
naalista erotetaan foneettisen tunnistamisen kannalta tärkeät osat. Erottelussa pyritään
karsimaan puhujasta johtuvat vaihtelut, kommunikaatiokanavan häiriöt sekä tunneti-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 7
lan yms. vaikutukset. Jakson keskeisistä piirteistä muodostetaan ominaisuusvektori,
jossa on tyypillisesti 10-20 tärkeimmäksi katsottua piirrettä [Hunt, 1996].
Ominaisuusvektoreiden perusteella etsitään signaalin todennäköisintä vastaavuutta
sanatasolla. Ratkaisun muodostamisessa käytetään hyväksi tietoutta kielen ja puheen
rakenteista sekä järjestelmän opetusvaiheessa saatuja äänteiden malleja. Makhoul ja
Schwartz [1994] painottavat rakenteisten mallien osuutta. Heidän mukaansa näihin si-
sältyy huomattava osa siitä tiedosta, mikä meillä on kielen rakenteesta ja puheen
tuottamisesta sekä havainnoinnista.
Käytetyin menetelmä äänteiden mallintamiseen on 1970-luvulla puheentunnistukseen
sovellettu HMM (hidden Markov models). Tämä malli pohjautuu todennäköisyyksiin,
minkä ansiosta sen tärkeimpiä ominaisuuksia ovat opetusvaiheessa tapahtuva auto-
maattinen mallien muodostaminen sekä joustavuus signaalin variaatioiden käsittelys-
sä. De Morin ja Brugnaran [1996] mukaan HMM tarjoaa tarpeeksi vahvan pohjan pu-
heen variaatioiden käsittelyyn ja on samalla tarpeeksi joustava laajojen järjestelmien
toteuttamiseen.
2.3.2 Puheentunnistuksen ongelmia
Puheentunnistusta haittaa joukko ongelmia, joiden seurauksena tunnistusprosessi voi
epäonnistua. Suurimpana esteenä virheettömälle puheentunnistukselle pidetään puhe-
signaalissa esiintyviä vaihteluita. Zue, Cole ja Ward [1996] esittävät signaalin variaati-
oille kolme päälähdettä: lingvistiset vaihtelut, akustiset vaihtelut sekä henkilöihin liit-
tyvät vaihtelut.
Lingvistinen vaihtelu käsittää fonetiikkaan, syntaksiin, semantiikkaan ja puheen dis-
kurssiin liittyviä tekijöitä. Erityisenä ongelma pidetään äänteiden kontekstisidonnaista
luonnetta. Akustiset vaihtelut voivat aiheutua joko kommunikointiväylästä tai ympä-
ristötekijöistä. Henkilöihin liittyvät vaihtelut voivat olla puhujan sisäisiä tai erilaisiin
puhujiin liittyviä. Puhujan sisäiset vaihtelut liittyvät artikulaatioon, tunnetilaan ja pu-
henopeuteen. Puhujien välisiin eroihin liittyvät akustiset vaihtelut johtuvat mm. sosi-
aalisesta taustasta ja puheenmuodostamiseen liittyvistä fyysisistä tekijöistä.
Luonnollinen puhe on usein jatkuvaa ja spontaania. Se sisältää Cohenin ja Oviattin
[1994] mukaan mm. epäröintiä, vääriä aloituksia, korjauksia, katkoja sekä muita kieli-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 8
oppiin kuulumattomia ominaisuuksia. Heidän mukaansa nämä seikat tulisi havaita ja
korjata puheesta ennen jatkotoimenpiteitä. On kuitenkin syytä huomata, että näitä
elementtejä voidaan hyödyntää puheen ymmärtämisessä diskurssitasolla [Price, 1996].
2.4 Puheentunnistusjärjestelmien ominaisuuksia
Puheentunnistus on vielä melko puutteellista. Kaikkiin tilanteisiin soveltuvaa järjes-
telmää ei ole onnistuttu kehittämään. Tämän vuoksi tarkoitukseen soveltuvan järjes-
telmän valitseminen muodostaa tärkeän osan puhesovellusten suunnittelua. Käyttö-
liittymäsuunnittelun kannalta pohjalla olevan teknologian ominaisuuksien tunteminen
onkin ensiarvoista, sillä sen katsotaan hallitsevan sovelluksien suunnittelua [Mane et al.,
1996].
Olen koonnut taulukkoon 2-1 keskeisimpinä pitämiäni puheentunnistusjärjestelmien
ominaisuuksia. Oikeanpuolimmaisessa sarakkeessa ovat vaikeimmin toteutettavat,
mutta käytettävyyden kannalta tärkeimmät seikat. Esitystä ei pidä tulkita kategorioi-
vana, vaan lähinnä pyrkimyksenä luonnehtia järjestelmien pääpiirteitä.
Sanasto ja kieli
Sanaston koko suppea keskikokoinen laaja
Kielioppi fraasit sanaverkko säännöt
Laajennettavuus kiinteä dynaaminen
Puheen luonne
Puhuja riippuva mukautuva riippumaton
Tyyli sana kerrallaan havaitseminen jatkuva
Olosuhteet
Ympäristö optimaalinen häiriötekijöitä
Kanava erinomainen huonolaatuinen
Taulukko 2-1: Puheentunnistusjärjestelmien keskeiset ominaisuudet.
2.4.1 Sanasto ja kieli
Eräs järjestelmien tärkeimmistä ominaisuuksista on sanavaraston laajuus. Schmandt
[1994, 140] luokittelee järjestelmät tämän piirteen mukaan kolmeen ryhmään sen mu-
kaan, onko sanavarasto suppea (alle 200), keskikokoinen (200-5000) vai laaja (yli
5000). Tämän esimerkkiluokittelun lisäksi voidaan muodostaa muitakin luokitteluja.
Suppea sanavarasto soveltuu parhaiten komentoluonteiseen puheeseen. Keskikokoi-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 9
sella sanavarastolla voidaan jo toteuttaa useimmat keskustelupohjaiset ratkaisut. Laa-
jaa sanavarastoa hyödynnetään toistaiseksi lähinnä sanelukäytössä.
Sanavaraston koon lisäksi myös käytössä oleva kielioppi on tärkeä järjestelmän käyt-
töön vaikuttava seikka. Kielioppi vaikuttaa suuresti myös järjestelmän tunnistuskyky-
kyyn. Ilman mitään kielioppisääntöjä kaikki sanojen yhdistelmät ovat yhtä todennä-
köisiä. Tämä lähestymistapa ei ole missään nimessä sen paremmin luonnollinen kuin
tehokaskaan.
Yksinkertaisimmillaan järjestelmän kielioppi koostuu joukosta ennalta kiinnitettyjä
fraaseja, joissa ei sallita minkäänlaisia variaatioita. Tämä lähestymistapa soveltuu lä-
hinnä komentopohjaisiin sovelluksiin. Useimmiten kielioppi on kuitenkin joustavam-
pi. Se voidaan esittää sanaverkkona, luonnollisen kielen sääntöinä tai tilastollisesti
sanojen esiintymistodennäköisyyksinä. Kieliopissa on myös mahdollista hyödyntää
sovellusalueen alakohtaisia erikoispiirteitä.
Laajennettavuus on kolmas tärkeä seikka, joka liittyy puheentunnistusjärjestelmien
sanavarastoon. Laajennettavan sanavaraston avulla voidaan järjestelmä muokata vas-
taamaan käyttäjien tarpeita. Puheohjatun selaimen käytettävyystestien pohjalta on
syytä olettaa, että ongelmallisten komentojen vaihtaminen eli henkilökohtaisen sa-
naston luominen voisi vähentää tunnistusvirheitä merkittävästi.
2.4.2 Puheen luonne
Käyttäjien kannalta tärkein seikka lienee se, onko järjestelmä puhujasta riippumaton
vai ei. Puhujasta riippuvaisessa järjestelmässä vaaditaan jonkin asteinen ”sisäänkir-
joittautuminen”, mikä tarkoittaa käytännössä joukkoa käyttäjän lausumia, ennalta
määritettyjä sanoja tai lauseita. Puhujasta riippumaton järjestelmä on ainakin periaat-
teessa heti käytettävissä.
Jako puhujasta riippuvaisiin ja riippumattomiin järjestelmiin ei ole tiukka. Selkeimpä-
nä välimuotona voidaan erottaa puhujaan sopeutuvat järjestelmät. Näissä järjestelmä
sopeuttaa toimintaansa käyttäjän puhetapaan. Tällöin järjestelmän suorituskyky voi
parantua huomattavastikin oppimisen myötä.
Edellä mainittujen kolmen päätyypin lisäksi käytännön järjestelmissä esiintyy erilaisia
hybridiratkaisuja. Järjestelmä voi esimerkiksi olla puhujasta riippumaton, mutta tar-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 10
jota paremman suorituskyvyn, mikäli käyttäjä harjoittaa sen omaan puheeseensa.
Huomionarvoinen piirre on myös vaadittavan opetus- tai sopeutumisajan kesto; par-
haimmillaan järjestelmä tarvitsee ainoastaan muutaman minuutin opetukseen, kun taas
toisessa ääripäässä vaihe voi kestää useita tunteja.
Olemme tottuneet sujuvaan, jatkuvaan puheeseen, jossa ei ole taukoja sanojen välis-
sä. Puheentunnistusjärjestelmän on kuitenkin huomattavasti helpompi ymmärtää pu-
hettamme, mikäli sanojen välissä on selkeät tauot. Useimmat laajan sanavaraston ja
joustavan kieliopin omaavat järjestelmät pystyvätkin erottamaan ainoastaan selkeästi
toisistaan erillisinä lausutut sanat.
Jatkuvaa puhetta ja erillisiä sanoja tunnistavien järjestelmien lisäksi on olemassa yk-
sittäisiä sanoja lauseista havaitsevia järjestelmiä. Sanojen havaitseminen (word-
spotting) on mielenkiintoinen tekniikka, sillä se mahdollistaa luonnollisen kaltaisen
puhesyötteen, mutta ei vaadi varsinaista luonnollisen kielen ymmärtämistä. Tämä tek-
niikka olisi ollut ihanteellinen ratkaisu puheohjatun selaimen toteutukseen, mutta va-
litettavasti sanojen havaitsemista tukevat järjestelmät eivät ole vielä yleisiä.
2.4.3 Olosuhteet
Puheentunnistusjärjestelmiä on kritisoitu paljon siitä, etteivät ne useinkaan toimi hy-
vin muissa kuin optimaalisissa olosuhteissa. Tunnistukseen joskus dramaattisestikin
vaikuttavia olosuhdetekijöitä ovat mm. ympäristötekijät (taustamelu, huoneen akus-
tiikka jne.) sekä kommunikointikanava (mikrofoni, puhelinverkko). Osaan näistä te-
kijöistä voidaan vaikuttaa esim. vaihtamalla mikrofoni parempaan, toisiin taas on
useimmiten mahdotonta puuttua. Uskon, että ongelmallisissa olosuhteissa toimivien
järjestelmien tarve kasvaa entisestään julkisten ja hajautettujen sovellusten yleistyes-
sä.
2.4.4 Muita seikkoja
Sanaston ulkopuoliset sanat ovat kiusallinen ongelma, mikäli niitä ei pystytä erotta-
maan. Selainta testattaessa tuli eteen tilanteita, joissa käyttäjä antoi järjestelmälle
tuntemattoman komennon. Järjestelmä ei tunnistanut komentoja virheellisiksi, vaan
antoi niille niin hyvän tunnistustodennäköisyyden, että komennot otettiin huomioon,
luonnollisesti jossain muussa merkityksessä kuin miksi käyttäjä oli ne tarkoittanut.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 11
Olisi ehdottoman tärkeää, että järjestelmä pystyisi ehkäisemään edellä kuvatun kaltai-
set tilanteet. Makhoul ja Schwartz [1994] ehdottavat ratkaisuksi ulkopuolisten sanojen
lisäämistä sanavarastoon. Tämä ratkaisu tietysti edellyttää sanojen havaitsemista ja
tunnistamista sekä järjestelmän valmiutta dynaamiseen sanavarastoon ja kielioppiin.
Valitettavasti ulkopuolisten sanojen tunnistaminen on jo sinällään ongelmallista.
Myös järjestelmän sovelluskohteen luonteesta johtuvat kriteerit saattavat olla merkit-
täviä. Eräs tällainen asia on järjestelmän tunnistusyksikkö eli taso, jolla järjestelmä
antaa tulosteensa. Useimpiin tilanteisiin riittää sanataso, mutta on olemassa myös so-
velluksia, jotka vaativat tulosten äännetasoista erittelyä. Sovellusten kehitystyön kan-
nalta taas on tärkeää ohjelmointirajapinta.
2.5 Puheentunnistusjärjestelmien evaluointi
Ominaisuuksien tuntemisen lisäksi sovelluskehittäjän on syytä olla perillä puheentun-
nistusjärjestelmän suorituskyvystä. Suorituskyvyn mittaamisessa on kaksi osatekijää,
tehtävän ja teknologian evaluointi [Furui, 1994]. Teknisestä perspektiivistä katsottuna
suorituskyky määräytyy pitkälti järjestelmän kyvystä tunnistaa sanat oikein. Virheet-
tömyyttä mitataan vertaamalla väärin tulkittujen, pois jääneiden ja lisättyjen sanojen
suhdetta alkuperäiseen viestiin. Näin saadaan virhetason määritelmä:
Virhetaso =Muuttuneet + Poistetut + Lisätyt
Alkuperäisen viestin sanat 100
Virhetason rinnakkaisarvo eli oikein tunnistettujen sanojen osuus on vastaavasti mää-
riteltynä tunnistustaso.
Virhetasojen vertaaminen ei ole mielekästä voimakkaasti toisistaan poikkeavien jär-
jestelmien kesken. Järjestelmien suorittamien tunnistustehtävien vaikeutta kuvataan
kielen kompleksisuudella (perplexity). Kielen kompleksisuutta voidaan arvioida yk-
sinkertaistetusti sanaston koon ja peräkkäisten sanojen esiintymistodennäköisyyksien
pohjalta. Paras tapa selvittää kahden tehtävän välistä kompleksisuutta on mitata niitä
puheentunnistusjärjestelmien tuottamilla virheillä [Roukos, 1996].
Käytännön järjestelmien virhetasot vaihtelevat hyvin paljon tehtävien mukaan. Alhai-
simmat virhetasot saavutetaan yksinkertaisissa tehtävissä, kuten numeroiden tunnis-
tuksessa. Tällöin päästään jopa 0.3%:n virhetasolle. Kompleksisissa tehtävissä, kuten
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 12
spontaaneissa puhelinkeskusteluissa virhetaso on 50%:n luokkaa [Zue et al., 1996].
Kielen monimutkaisuus vähenee mitä kauemmaksi normaalista puhekielestä tullaan;
kaikkein pienimmillään se on suppeilla erikoisaloilla. Usein esitetäänkin alakohtaisia
kielen malleja osaratkaisuksi tunnistuksen ongelmiin.
Virhetasoja tulkittaessa tulee aina ottaa huomioon tehtävän vaatimukset. Toisiin teh-
täviin 10%:n virhetaso on aivan riittävä; toisissa käyttökelpoisuus saavutetaan vasta
alle 1%:n luokkaa olevalla virhetasolla. On myös muistettava, ettei tehokkuus yksi-
nään ole ratkaiseva tekijä: esimerkiksi synteettinen puhe voi olla hyvinkin ymmärret-
tävää, mutta useat ihmiset eivät halua sitä käyttää, koska he eivät pidä sitä miellyttä-
vänä.
Nykyisellä kehitystasolla voidaan puheentunnistusta soveltaa useille aloille ilman ras-
kaita erityisvaatimuksia. Visiot luonnollista puhetta virheettömästi tunnistavista jär-
jestelmistä ovat kuitenkin vielä kaukana nykytodellisuudesta. Olosuhdetekijät ovat
erityisen merkityksellisiä: puheohjatun selaimen käyttäjätestien tulokset osoittivat,
että kehitystyön kokemusten perusteella arvioitu 5%:n virhetaso oli testiolosuhteissa
lähes 15%:a. Näin suuri ero on vuorovaikutukseen dramaattisesti vaikuttava tekijä.
Järjestelmien evaluointiin voidaan käyttää muitakin kriteereitä kuin virhetasoa. Puhe-
ohjatun selaimen tapauksessa kiinnosti tunnistamisen nopeus, mikä on reaaliaikaisissa
sovelluksissa erittäin tärkeä käytettävyyteen vaikuttava seikka. Vasteajan merkitys
korostuu etenkin silloin, kun riittävää palautetta ei ole saatavilla (esim. puhelinlinjan
välityksellä tapahtuva kommunikointi).
2.6 Puheen syntetisointi
Puheen käsitteleminen signaalimuotoisena ei ole aina mielekästä. Ongelmia muodos-
tavat mm. signaalin suuri tilantarve ja kielen rikkaudesta aiheutuva tarvittavien sano-
jen paljous. Synteettisen puheen vahvoja puolia ovatkin juuri taloudellisuus ja jousta-
vuus. Pieni tilantarve mahdollistaa laajat keskustelupohjaiset järjestelmät. Joustavuus
taas tekee synteettisesta puheesta vahvan käyttöliittymäelementin, etenkin näköra-
joitteisille [Raman, 1997].
Puheen syntetisoinnin päämääränä pidetään syötteenä saadun tekstin muuntamista
puhesignaaliksi. Vaikka syöte voidaan antaa muussakin muodossa kuin merkkijonona
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 13
[Liberman, 1994], tarkastellaan tässä syntetisointia nimenomaan puheen tuottamisena
merkkijonosyötteestä. Tekstin muuntaminen syntetisoiduksi puheeksi koostuu kah-
desta päävaiheesta. Ensimmäiseksi annettu merkkijono muunnetaan puheen perusyk-
siköiksi, äänteiksi. Toisessa vaiheessa äänteistä muodostetaan digitaalinen puhesig-
naali.
Ensimmäinen vaihe syötteen käsittelyssä on sen muuntaminen joukoksi peräkkäisiä
sanoja. Sanoista muodostuva teksti normalisoidaan ennen jatkokäsittelyä. Normali-
soinnissa tekstissä esiintyvät symbolit ja lyhenteet korvataan kontekstiin sopivilla il-
maisuilla. Tähän käytetään sääntöjä tai tilastollisia menetelmiä. Normalisoidun tekstin
sanat muunnetaan äänteiksi käyttämällä hyväksi sekä leksikaalisia sääntöjä että sa-
nastoa. Vaikka sanasto voikin kattaa yli 99% kaikista sanoista, tarvitaan molempia
menetelmiä hyvään lopputulokseen pääsemiseksi [Allen, 1994].
Suora sanojen muuntaminen äänteiksi ei ole vielä riittävä keino ymmärrettävän ja
luonnollisen puheen tuottamiseksi. Äänteisiin vaikuttaa useita tekijöitä, joista tär-
keimpiä ovat tavujen painotus, koartikulaatio sekä erilaiset prosodiset tekijät
[Schmandt, 1994, 87]. Koartikulaatio tarkoittaa äänteiden riippuvuutta edeltävistä ja seu-
raavista äänteistä. Prosodisia tekijöitä ovat mm. äänteiden, sanojen ja tavujen keston
sekä painotuksen kontrollointi. Ongelmallista varsinkin prosodian kohdalla on se, että
vaikuttavat tekijät voivat esiintyä aina diskurssitasolla asti [Allen, 1994].
Äänteistä muodostetaan puhesignaali joko mallintamalla ihmisen äänentuotantomeka-
nismia tai puhesignaalin akustisia ominaisuuksia. Näiden kahden täysin synteettisen
menetelmän lisäksi voidaan myös yhdistellä luonnollisen puheen osia [d’Alessandro &
Liénard, 1996]. Kiinnostavimpana menetelmänä pidetään äänentuotantoa jäljittelevää
mallia. Siihen liittyy kuitenkin joukko sekä teoreettisia että käytännöllisiä ongelmia,
joita Carlsonin [1994] mukaan voidaan lähestyä mm. hermoverkoilla. Toistaiseksi
kuitenkin suurin osa puheen syntetisoinnista tapahtuu joko jäljittelemällä puhesignaa-
lin akustisia ominaisuuksia tai yhdistelemällä äänitietokannan elementtejä.
Syntetisoidun puheen laatua arvioidaan kahdella kriteerillä: ymmärrettävyydellä ja
luonnollisuudella. Nykyisin synteettistä puhetta pidetään yleisesti hyvin ymmärrettä-
vänä. Luonnollisuuden kanssa on sen sijaan vielä paljon tehtävää. Tämä muodostaa-
kin ongelman, sillä nimenomaan luonnollisuutta pidetään yhtenä vahvimmista puheen
käyttöä puoltavista ominaisuuksista.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 14
2.7 Puheen merkityksen käsittely
Perusteknologiat käsittelevät puhetta akustiselta tasolta aina syntaksin tasolle asti.
Jotta voimme rakentaa kehittyneitä järjestelmiä, tarvitsemme menetelmiä myös kor-
keampien tasojen eli puheen merkityssisältöjen käsittelyyn. Useimmiten nämä mene-
telmät perustuvat luonnollisen kielen käsittelyyn.
Luonnollisen kielen käsittelyn menetelmiä voidaan hyödyntää sekä puheen tunnistuk-
sen että puheen tuottamisen osana. Puheen ymmärtämisessä on kysymys merkityksen
etsimisestä syötteenä saadulle puheelle. Puheen tuottamisessa taas on kysymys luon-
nollisten lauseiden tuottamisesta annetun sisällön pohjalta. Tärkeintä molemmissa
tapauksissa on puheen olennaisen sisällön ymmärtäminen ja tämän yhteys luonnolli-
seen kieleen.
Puhutun kielen ymmärtäminen sisältää kaksi komponenttia, puheen tunnistamisen ja
luonnollisen kielen käsittelyn. Integroimalla nämä komponentit voidaan parantaa
molempien lopputulosta. Luonnollisen kielen käsittely voi avustaa tunnistusprosessia
tarjoamalla merkityksen tunnistettaville sanoille [Hirschman, 1994]. Puheentunnistus voi
puolestaan helpottaa prosodisen informaation kautta kielen käsittelyä [Price, 1996].
Yksinkertaisin tapa prosessoida puhuttua kieltä on välittää puheentunnistuskompo-
nentin lopputulos luonnollista kieltä käsittelevälle komponentille jatkotoimenpiteitä
varten. Tämä naiivi lähestymistapa kärsii kuitenkin puutteista, joita aiheuttavat mm.
puheen eroaminen merkittävästi kirjoitetusta tekstistä, puheentunnistusjärjestelmien
rajoitukset sekä tunnistuksessa häviävä informaatio [Moore, 1994].
Käytetyin menetelmä puheentunnistuksen ja luonnollisen kielen käsittelyn yhdistämi-
seksi lienee erilaiset N-Best–liittymän variaatiot. Tässä menetelmässä puheentunnis-
tusjärjestelmä välittää halutun määrän parhaiksi toteamiaan hypoteeseja järjestelmän
luonnollista kieltä käsittelevälle osalle. Hypoteesit arvotetaan ja esitetään tämän mu-
kaisessa järjestyksessä. Tiukempaan integrointiin on kehitetty sanaverkkoihin perus-
tuvia jäsentäjiä, dynaamisia kielioppiverkkoja sekä kehittyneitä N-Best-muunnelmia
[Moore, 1994]. Näissä menetelmissä osien vuorovaikutus on kaksisuuntaista.
Keskustelupohjaiseen käyttöliittymään kuuluu olennaisena osana tietokoneen antamat
vastaukset tuottava komponentti. Sen tehtäviin kuuluu päättää milloin tarvitaan tulos-
teita ja lisäkysymyksiä, tuottaa sisältö käsiteltävän tietosisällön, kontekstin ja dialogin
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 2 – PUHEEN KÄSITTELY
Sivu 15
tilan pohjalta, muotoilla näistä selkeä lauserakenne sekä koordinoida keskustelun kul-
kua suhteessa muihin tulosteisiin [Price, 1996]. Sovellustasolla on kuitenkin vaikea
erottaa luonnollista kieltä käsittelevän komponentin osuus sovelluksen muiden kom-
ponenttien osuudesta [Bates, 1994].
2.8 Lopuksi
Puheen käsittelyyn liittyvät tekniikat ovat laajan kehitystyön kohteena. Edistystä ta-
pahtuu sekä kehittämällä edelleen toimivaksi osoittautuneita ratkaisuja että tutkimalla
kokonaan uusia ratkaisuja ja apumenetelmiä. Puheen käsittelyn eri osa-alueet eivät ole
myöskään erillisiä vaan omaavat yhteisiä menetelmiä ja voivat näin hyötyä myös
toistensa edistysaskeleista.
Useimmat puheen käsittelyyn liittyvät menetelmät ovat perusluonteeltaan ilmiöitä
aproksimoivia; esimerkiksi puheentunnistuksen tulisi ihanteellisesti pohjautua kuule-
misen mallintamiseen. Tietomme näistä ilmiöistä ei kuitenkaan ole läheskään riittä-
vällä tasolla. Tämän vuoksi tarvitaan erilaisia vaihtoehtoisia menetelmiä, joiden par-
haita puolia yhdistelemällä voidaan saavuttaa useimpiin tarkoituksiin käyttökelpoinen
taso. Eräs mahdollisuus on visuaalisen informaation käyttäminen tunnistuksen tukena.
Visuaalista informaatiota voidaan hyödyntää mm. hahmontunnistuksen, katseen seu-
rannan ja huulten asentojen kautta.
Puhesovellusten suunnittelu ja toteuttaminen on prosessi, joka nojaa poikkeuksellisen
paljon teknologisiin lähtökohtiin. Ellei teknisiä mahdollisuuksia tunneta ja osata
käyttää hyväksi, on vaarana epäsoveltuvien ratkaisujen käyttäminen ja mahdollisuuk-
sien hukkaaminen. Tämä toimii myös toisin päin: teknologian rajoituksia on mahdol-
lista kompensoida onnistuneilla käyttöliittymäratkaisuilla. Tämä asettaakin puheso-
vellusten suunnittelijat vaativaan rooliin.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 16
3 PUHESOVELLUSTEN SUUNNITTELU JA EVALUOINTI
Puheen käyttämisellä uskotaan olevan dramaattinen vaikutus ihmisen ja tietokoneen
välisen kommunikoinnin laatuun. Uskotaan myös, että puhe mahdollistaa tietokonei-
den käytön entistä useammille ihmisille. Kuitenkin puheen käyttäminen ihmisen ja
tietokoneen välisessä viestinnässä on melko vähäistä. Osaltaan tähän vaikuttaa se, et-
tei puheen soveltamisen menetelmiä tunneta vielä riittävästi. Kehittyneiden puheso-
vellusten tuottamiseksi tarvitaan paitsi edistyksiä teknologiassa myös lisätietoutta pu-
heen sovellusmahdollisuuksista.
Tässä luvussa esittelen puheen käyttöä käyttöliittymäsuunnittelun näkökulmasta. En-
simmäiseksi käsitellään puhetta käyttöliittymäelementtinä. Seuraavassa kohdassa tar-
kastellaan puhetta osana multimodaalisia käyttöliittymiä. Puheen merkittävimpiä
ominaisuuksia ja keskeisimpiä käytössä huomioonotettavia seikkoja esitellään tämän
jälkeen. Loppuosa luvusta keskittyy puhesovellusten suunnitteluun, evaluointiin sekä
empiirisiin tutkimuksiin. Lopuksi esitän joitakin kommentteja puhesovellusten suun-
nittelusta.
3.1 Puhe käyttöliittymäelementtinä
Puhetta voidaan hyödyntää käyttöliittymäelementtinä monin tavoin ja useissa eri yh-
teyksissä. Puhesovelluksien toteutuksen kannalta on tärkeää valita näkökulma heti
suunnittelun alkuvaiheessa. Suunnittelun kannalta tärkeitä seikkoja ovat puheen ase-
man, ymmärtämisen tason ja kommunikaation suunnan määrittäminen. On myös hyö-
dyllistä tuntea puheen erot graafiseen suorakäyttöliittymään.
3.1.1 Puheen asema käyttöliittymässä
Kun puhe on pääasiallisin syötteiden antamistapa, käytetään usein termiä puhekäyttö-
liittymä (SUI). On syytä huomata, ettei pääasiallinen puheen käyttö kuitenkaan sulje
pois muiden syötekanavien mahdollisuutta. Kun puhetta käytetään syötteiden antami-
seen tasavertaisesti yhdessä muiden kommunikointimenetelmien kanssa, on kyse
multimodaalisesta käyttöliittymästä.
Auditiivinen käyttöliittymä (AUI) ei käytä perinteistä näyttöä vaan hoitaa tulosteet
syntetisoidun puheen kautta. Multimediakäyttöliittymässä puhetta käytetään yhtenä
mahdollisena tulostemuotona tehostamaan kommunikointia ja luomaan viihtyvyyttä.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 17
Käyttöliittymä voi olla myös täysin puheeseen pohjautuva, jolloin sekä kaikki tulos-
teet että syötteet hoidetaan puhetta käyttäen.
Tässä tutkimuksessa asioita käsitellään lähinnä puhekäyttöliittymän näkökulmasta,
sillä puheohjattu selain kuuluu tähän ryhmään. Jatkokehityksen myötä on tarkoitukse-
na laajentaa syöte- ja tulostevalikoimaa myös multimodaalisuuden ja multimedian
suuntaan. Tämän vuoksi asioita käsitellään hieman laajemmin kuin mitä pelkkä puhe-
käyttöliittymän näkökulma vaatisi.
3.1.2 Puheen ymmärtämisen taso
Cohen ja Oviatt [1994] käsittelevät puheentunnistuksen sovelluksia sen mukaan, halu-
taanko tunnistus suorittaa tekstin tasolla vai onko päämääränä puheen tarkoituksen
ymmärtäminen. Samaa erottelua voidaan mielestäni käyttää myös puhetta tulosteena
käyttäviin sovelluksiin. Puheen tarkoituksen ymmärtäminen liitetään usein luonnolli-
sen kielen ymmärtämiseen, jota käsiteltiin kohdassa 2.7.
Puheen tarkoituksen ymmärtäminen ei kuitenkaan vaadi kaiken sanotun ymmärtä-
mistä, sillä tärkeintä on saada selville se, mihin puheella pyritään. Puheen tarkoituk-
sen ymmärtäminen liittyykin läheisesti käyttäjän suorittaman tehtävän tavoitteen ym-
märtämiseen. Tehtävän tavoite voi olla hyvinkin selkeästi esitetty jo käyttöliittymän
rakenteessa (esim. lomakkeen täyttö). Usein tehtävän tavoite on kuitenkin vaikeam-
min pääteltävissä.
Puheohjatun selaimen kehittämisessä voidaan puheen ymmärtämistä hyödyntää erityi-
sesti virhetilanteiden hallinnassa. Käyttäjätesteissä havaittiin, että kontekstitietous
mahdollistaa yksinkertaisen puheen ymmärtämisen, jos käytettävissä on N-Best sana-
lista (ks. kohta 2.7). Tällöin on mahdollista vähentää virheitä arvioimalla puheentun-
nistusjärjestelmän hypoteesien mielekkyyttä tehtävän näkökulmasta. Tämä ratkaisu ei
edellytä lainkaan varsinaista luonnollisen kielen käsittelyä, mutta mahdollistaa irrot-
tautumisen pelkästä tekstitason tunnistuksesta.
3.1.3 Kommunikaation suunta
Käyttöliittymän luonnetta määrää paljon kommunikaation suunta. Kommunikaatio voi
olla yksisuuntaista, käyttäjältä järjestelmälle tai järjestelmältä käyttäjälle. Se voi olla
myös keskustelupohjaista eli käyttäjän ja järjestelmän välistä dialogia. Perinteinen
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 18
suorakäyttöinen liittymähän on melko yksisuuntainen aloitteen tekemisen ollessa pää-
osin käyttäjällä. Osa puheeseen perustuvista käyttöliittymistä sen sijaan pitää vuoro-
puhelun ohjauksen tiukasti itsellään.
Järjestelmän kommunikatiivinen luonne määrää pitkälti, millainen suunnittelu sovel-
tuu parhaiten tilanteeseen. Jos aloitteen tekeminen on pääosin järjestelmän hallussa
(esim. henkilötietojen kysely puhelimen välityksellä), keskustelun kulkua voidaan
mallintaa esim. äärellisellä automaatilla. Komentopohjaisissa sovelluksissa taas vali-
taan usein helpoin mahdollinen vaihtoehto eli tarjotaan käyttäjälle jatkuvasti kaikki
mahdolliset komennot käytettäväksi. Puhesovelluksissa tämä ei ole kovin hedelmälli-
nen lähestymistapa: käyttämällä kontekstisidonnaista kielioppia ja sanavarastoa pys-
tytään vaikuttamaan esim. tunnistuksen virhetasoihin merkittävästi.
Puheohjatun selaimen tapaisiin reaaliaikaisiin järjestelmiin soveltuu parhaiten käyttä-
jän aloitteeseen pohjautuva kommunikointimalli. Tämä ei kuitenkaan tarkoita, että
kommunikaation tulisi olla täysin yksisuuntaista. Järjestelmä voi tehdä aloitteen mm.
virhetilanteiden yhteydessä. Tämän tulee kuitenkin olla tarkoin harkittua, sillä vaarana
on reaaliaikaisuuden väheneminen. Keskustelupohjainen malli onkin mielenkiintoi-
nen, mutta vaikeasti hyödynnettävä lähestymistapa.
3.1.4 Puheen ja graafisen suorakäyttöliittymän eroista
Puhetta hyödyntävä käyttöliittymä eroaa huomattavasti totutusta: esimerkiksi käyttä-
jän toimintojen havaitseminen on puheentunnistuksessa erittäin virhealtis tapahtuma,
kun taas perinteisen käyttöliittymän näkökulmasta se on hyvin triviaali seikka [Brad-
ford, 1995]. Tämän perustavanlaatuisen seikan lisäksi puheella on monia muitakin eroja
suhteessa perinteisiin käyttöliittymiin.
Cohen ja Oviatt [1994] analysoivat suorakäyttöisyyden ja luonnollisen kielen vahvuuk-
sia ja heikkouksia. He havaitsivat suorakäyttöisyyden edullisemmaksi, kun käsiteltä-
vät objektit ovat näkyvillä, ne ovat tunnettuja eikä niitä ole liikaa valintatilanteissa.
Lisäksi suorakäyttöisyys vähentää mahdollisia virheitä, koska valintoja on rajoitettu.
Luonnollista kieltä taas suosivat Cohenin ja Oviattin mukaan tilanteet, joissa on tarve
käsitellä objekteja, toimintoja ja tapahtumia joukosta, jota ei pystytä esittämään ker-
ralla tai tutkimaan yksityiskohtaisesti. Myös toimintojen ajallisen siirtämisen mah-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 19
dollisuus ja asioiden esittäminen käyttäjän omalla kielellä sekä monimutkaisten kuva-
uksien nopea ilmaiseminen ovat luonnolliselle kielelle sopivia käyttökohteita.
Koska rajoittamaton luonnollinen kieli ei ole vielä puheentunnistuksen saavutettavis-
sa, osa edellä kuvatuista puheen eduista jää toistaiseksi hyödyntämättä. Tulee myös
huomata, että kun puhetta käytetään korvaamaan suorakäyttöisyyttä, tulee erityistä
huomiota kiinnittää niihin asioihin, jotka ovat suorakäyttöisyyden vahvoja alueita.
Todennäköisimmät puhesovelluksen käytettävyysongelmat ovat tällöin odotettavissa
juuri näillä alueilla.
3.2 Puhe multimodaalisissa käyttöliittymissä
Multimodaalisella lähestymistavalla pyritään ehkäisemään virheitä, parantamaan jär-
jestelmään luotettavuutta, avustamaan virheiden korjausta sekä tarjoamaan vaihtoeh-
toisia kommunikointitapoja erilaisiin tilanteisiin ja olosuhteisiin [Cohen & Oviatt, 1994].
Multimodaalisuus saattaa myös nopeuttaa kommunikointia ja tehdä käyttöliittymän
luonnollisemmaksi sekä mahdollistaa toisten kommunikointimuotojen simuloinnin
esim. vammaisille käyttäjille [Smith et al., 1996].
Multimodaalisen käyttöliittymän suunnittelun kannalta tärkein seikka on sopivimpien
modaliteettien valitseminen kuhunkin tehtävään. Koska eri modaliteetteja käytetään
harvoin tasapuolisesti, multimodaalisiin käyttöliittymiin voidaankin tehdä jako sen
perusteella, onko käyttöliittymä perusluonteeltaan graafinen vai puheeseen pohjautu-
va. Cathy Wolf [Mane et al., 1996] esittää näkökohtia, joissa eritellään multimodaalisuu-
den hyötyjä molemmissa vaihtoehdoissa.
Graafisissa käyttöliittymissä puhetta voidaan käyttää viittaamaan asioihin, jotka eivät
ole suoraan saavutettavissa sekä määrittelemään objekti ja siihen kohdistuva toiminto.
Objektin ja toiminnon määritteleminen voi tapahtua joko yhdessä osassa (”kopioi ot-
sikko kolmannelle sivulle”) tai rinnakkain (”siirrä tämä tähän”). Tulosteena puhetta
voidaan hyödyntää tarjoamalla käyttäjälle informaatiota muuttamatta kuvaruudun ti-
laa. Viimeiseksi mainittu seikka on tärkeä erityisesti vahvasti visuaaliseen ilmaisuun
pohjautuvissa sovelluksissa. Selaimen käyttäjätesteissä havaittiin, että palautetta seu-
rattiin hyvin vähän. Uskon, että käyttämällä puhetulosteita voidaan tätä seikkaa pa-
rantavaa merkittävästi.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 20
Puheeseen perustuvissa käyttöliittymissä grafiikkaa voidaan käyttää palautteen antoon
ja varmistuksiin, muistin tukena, kehotteisiin, osoittamaan objekteja sekä varameka-
nismina. Grafiikan etuja tulosteena on sen nopeus puheeseen verrattuna; näppäimistön
ja hiiren käyttäminen taas on perusteltua paitsi varamekanismina myös vaihtoehtoi-
suuden kannalta.
Edellä multimodaalisuutta on käsitelty pelkästään puheen ja graafisten suorakäyttö-
liittymien näkökulmasta. Monipuolisemmissa multimodaalisissa käyttöliittymissä,
joissa voidaan käyttää hyväksi mm. katseohjausta, eleitä ja hahmontunnistusta, tulee
samoin etsiä kullekin modaliteetille sopivimmat käyttökohteet ja välttää modaliteetille
ongelmallisia tilanteita. Itse uskon etenkin katseohjauksen sopivan puheen kanssa
käyttöliittymäelementiksi, sillä tämä kombinaatio mahdollistaa monipuolisen kom-
munikoinnin ilman käsien käyttöä.
3.3 Puheen keskeisimmät ominaisuudet
Puheen tehokas hyödyntäminen käyttöliittymässä vaatii sen ominaisuuksien hyvää
tuntemusta. Esittelen tässä keskeisimpiä puheen ominaisuuksia, kuten luonnollisuutta,
tehokkuutta ja suosiota ihmisten välisessä kommunikoinnissa. Näiden seikkojen poh-
jalta esitän motiivit puheen käyttöön.
Puheen käyttöä perustellaan useimmiten sillä, että se on luonnollista. Käytämme pu-
hetta jatkuvasti, minkä seurauksena puheesta on kehittynyt tehokkain, suosituin ja
laajimmin levinnyt kommunikointimenetelmämme. Tuomalla puhe osaksi ihmisen ja
tietokoneen vuorovaikutusta uskotaan olevan mahdollista hyödyntää niitä etuja, jotka
vallitsevat ihmisten välisessä puhekommunikaatiossa [Kamm, 1994]. On kuitenkin syytä
huomata, että puhe kommunikaationa on nimenomaan opittu menetelmä ihmisten vä-
lillä; kuinka puhetta voidaan soveltaa ihmisen ja tietokoneen väliseen kommunikoin-
tiin onkin yksi ongelmallista peruskysymyksistä.
Puheen katsotaan olevan tehokkain kommunikointimuoto ihmisten välisessä interaktii-
visessa ongelmanratkaisussa. Chapaniksen [1975] kuuluisassa tutkimuksessa verrattiin
erilaisia kommunikointimenetelmiä. Pyrkimyksenä oli selvittää, mikä käytetyistä mo-
daliteeteista olisi kaikkein hyödyllisin ihmisen ja tietokoneen välisessä vuorovaiku-
tuksessa. Tutkimuksella oli selvä puhetta suosiva lopputulos: puhe oli yli kaksi kertaa
nopeampi kuin seuraavaksi tehokkain tapa eli kirjoitus. Erittäin mielenkiintoinen on
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 21
myös Chapaniksen havainto, että pelkkä puheen käyttö oli ainoastaan hieman hitaam-
paa kuin kaikkien muiden saatavilla olevien modaliteettien yhteiskäyttö.
Tehokkuuteen liittyy nopeuden ohella monia muitakin tekijöitä, kuten ilmaisuvoimai-
suus ja lisäkapasiteetin tuominen. Puheen avulla on mahdollista ilmaista asioita, joi-
den ilmaiseminen muilla tavoin on erittäin vaikeata tai jopa mahdotonta. Puheella
nähdään myös olevan tuottavuutta lisäävä vaikutus etenkin useita samanaikaisia teh-
täviä sisältävissä tilanteissa. Jakamalla tehtävät tällaisissa tilanteissa eri modalitee-
teille on kokonaistoimintaa mahdollista tehostaa [Martin, 1989].
Puhe on myös suosittu kommunikointitapa – useissa tilanteissa haluaisimme käyttää
puhetta, vaikka jonkin muun menetelmän käyttö saattaisikin olla tehokkaampaa.
Osaltaan mieltymys puheeseen voi johtua ihmisten erilaisista ongelmanratkaisuta-
voista: Bradford [1995] esittää, että käyttöliittymät ovat perinteisesti keskittyneet on-
gelmanratkaisuun visuaalis-tilallisella lähestymistavalla. Kuitenkin osa ihmisistä
ajattelee verbaalis-akustisen lähestymistavan mukaisesti. Puheen tuominen käyttöliit-
tymään voisi parantaa käyttäjien tyytyväisyyttä tietokoneita kohtaan ja laajentaa näin
käyttäjäjoukkoa.
Puheen käyttöön voidaan löytää kaikkiaan kuusi motiivia. Puhe voi olla ainoa, tehok-
kain tai miellyttävin mahdollinen käytettävissä oleva modaliteetti tai se voi toimia
avustavana, vaihtoehtoisena tai korvaavana kommunikointimenetelmä. Käyttöliitty-
mäsuunnittelussa on erittäin tärkeää ottaa huomioon ne motiivit, jotka ovat johtaneet
puheen valintaan. Esimerkiksi käyttäjien hyväksymät virhetasot ovat todennäköisesti
täysin erilaisia niissä tapauksissa, joissa puhe on valittu miellyttävyyden perusteella
kuin niissä, joissa puhe korvaa toisen, ehkä tilanteeseen paremmin soveltuvan moda-
liteetin. Tässä tutkimuksessa puhetta käytetään lähinnä korvaavana modaliteettina.
Tämä tekee sen käyttämisestä erittäin vaikeaa ja asettaakin suuren haasteen käyttö-
liittymäsuunnittelulle.
3.4 Puheen käytössä huomioitavia seikkoja
Puheen hyödyntämiseen liittyy joukko seikkoja, jotka on syytä ottaa huomioon on-
nistuneen käyttöliittymäsuunnittelun varmistamiseksi. Nämä seikat liittyvät joko suo-
raan puheen luonteeseen tai ihmisten välisessä kommunikoinnissa muodostuneisiin
tapoihin.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 22
Yksi suurimmista ongelmista komentopohjaisissa puhesovelluksissa on komentojen
ulkoaosaamisen tarve. Mikäli sovellus ei ole tuttu eikä sitä käytetä usein, voi tämä
muodostaa kynnyskysymyksen järjestelmän käyttöön. Sama ongelma vaivaa luonnol-
lisesti perinteisiä komentopohjaisia järjestelmiä. Määrän lisäksi on huomiota syytä
kiinnittää myös komentojen merkityksiin. Puheohjatun selaimen osalta huomattiin,
että väärä komentovalikoima voi tuottaa ongelmia jo hyvin suppeallakin sanavalikoi-
malla. Komentopohjaisissa järjestelmissä onkin ensiarvoisen tärkeää kiinnittää huo-
miota sanaston valintaan.
Puheen väliaikainen luonne voi olla ongelmallinen, jos halutaan tarkastella edeltäviä
tapahtumia. Käyttäjän voi olla vaikeaa palauttaa mieleen aikaisemmin annettuja ko-
mentoja, mikäli näitä ei pystytä tulkitsemaan komentojen vaikutuksista tai anneta suo-
rana palautteena käyttäjälle. Varsinkin virhetilanteissa on usein ongelmallista selvittää
virheen syytä, koska mahdollinen palaute on aina approksimaatio annetusta syötteestä.
Schmandt [1994, 101-104] esittää tulosteena käytettävän puheen ongelmiksi mm. hitau-
den sekä puheen väliaikaisen, peräkkäisen ja julkisen luonteen. Puheen hitaus sekä
sen väliaikainen ja peräkkäinen luonne ovatkin ongelmallisia tulosteiden suunnittelun
kannalta. Puheen julkinen luonne rajoittaa käyttömahdollisuuksia sekä syötteiden että
tulosteiden kohdalla.
Puhekommunikointiin liittyy monia opittuja tapoja, joista on vaikea päästä eroon,
vaikka luonnollisen kaltaista keskustelua ei odotettaisikaan. Kamm [1994] luettelee
keskeisimmiksi tällaisiksi tavoiksi ihmisten taipumuksen puhua jatkuvasti ilman tau-
koja sanojen välillä, keskeyttää toisensa puhumalla päällekkäin sekä taukojen käytön
keskustelun rakenteen ohjailuun.
Ihmisten on erityisen vaikeaa puhua tauottaen puhettaan jokaisen sanan välillä, vaik-
ka tähän olisi kehotettukin. Erityinen ongelma tämä on luonnollisen kaltaisissa lau-
seissa, mutta ilmiö tulee esille myös komentoluonteisessa puheessa: puheohjatun se-
laimen käyttäjätesteissä tämä näkyi komentojen yhteenliittämisenä, varsinkin virheti-
lanteiden korjaamisessa. Toinen ongelma, josta käyttäjien saattaa olla vaikea päästä
eroon, on puheeseen kuulumattomien äänteiden esiintyminen puheen lomassa.
Taipumus keskeyttää toisten puhe siinä vaiheessa, kun asia on ymmärretty, on samoin
hyvin syvälle kommunikointitapoihin juurtunut. Pelkän puheen varassa toimivissa
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 23
käyttöliittymissä onkin erittäin ongelmallista, jos tietokoneen puhetta ei voida kes-
keyttää. Vaikka päällepuhumista esiintyy, suurin osa puheenvuorojen vaihdoksista
hoidetaan puheeseen liittyvien vihjeiden, kuten taukojen käytön ja prosodisen infor-
maation avulla. Näiden sääntöjen laiminlyönti voi merkitä ongelmien, kuten päällek-
käin puhumisen lisääntymistä. Kehitettäessä käyttöliittymää keskusteluluonteisem-
maksi onkin syytä tarkkailla tilanteita, jotka ovat potentiaalisia ongelmakohtia, kun
käytetään puhetulosteita.
3.5 Puhesovellusten suunnittelu
Jokaisen käyttöliittymän pohjana on suunnitelma, jonka avulla saadaan selville tehtä-
vän suorittamiseksi tarvittava informaatio. Niin kauan kuin luonnollisen puhekielen
käyttö ei ole mahdollista, on puhekäyttöliittymän päärooli ohjata käyttäjää täyttämään
teknologian vaatimukset [Kamm, 1994]. Voidaankin perustellusti sanoa, että sovellusten
pohjana oleva puheteknologia hallitsee käyttöliittymäsuunnittelua: tehdyt ratkaisut
perustuvat useammin teknologian vaatimuksiin kuin käyttäjän kannalta parhaisiin
vaihtoehtoihin [Mane et al., 1996].
Puhekäyttöliittymien ongelmia ei voida kuitenkaan laittaa pelkästään teknologian
syyksi: huolellisella käyttöliittymäsuunnittelulla voidaan kiertää suurin osa teknisistä
rajoituksista ja saavuttaa näin käyttäjän kannalta haluttu lopputulos teknologian pettä-
essäkin [Kamm, 1994]. Puhetta on kuitenkin käytetty tähän asti pääosin ad-hoc periaat-
tein sovellettuna. Sovellusten tulevan kehityksen yhtenä ongelmana pidetäänkin ylei-
sen suunnittelumetodologian puuttumista. Hahmottelen tässä joitakin tärkeimpiä
suunnittelusääntöjä, jotka liittyvät keskustelun ohjaukseen, virheiden hallintaan, pa-
lautteeseen, vahvistuksiin ja ohjeisiin.
3.5.1 Keskustelun ohjaus
Ihmisillä on käytössään runsas valikoima erilaisia keskustelutekniikoita, kuten vuo-
ronvaihtoon liittyvät menetelmät [Bradford, 1995]. Vuoronvaihtoon, uusien asioiden
esille tuomiseen ja muihin keskustelun suuntaan vaikuttaviin seikkoihin liittyvät pu-
heen ominaisuudet ovat kuitenkin vaivoin hyödynnettävissä. Keskustelun kulku ete-
nee tämän vuoksi pitkälti joko käyttäjän komentojen tai tietokoneen esittämien ke-
hotteiden varassa.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 24
Kehotteet ovat kommunikoinnin onnistuneisuuteen suuresti vaikuttava tekijä. Niinkin
yksinkertaiselta vaikuttava seikka kuin myöntävän tai kieltävän vastauksen pyytämi-
nen käyttäjältä voi muodostua hyvinkin virhealttiiksi, jos kehote on muotoiltu huo-
nosti. Kehotteiden informaatiosisältöön vaikuttaa suuresti myös käyttäjien taso: koke-
neille käyttäjille voidaan antaa suppeampia kehotteita kuin noviisikäyttäjille. Kehot-
teita voidaan myös lyhentää käytön aikana niiden muodostuessa tutuiksi.
Kun kehotteisiin käytetään puhetta, vaikuttaa keskustelun kulun suunnitteluun dra-
maattisesti se, onko käyttäjällä mahdollisuus aloittaa vastauksen antaminen ennen ke-
hotteen loppumista. Kehotteen päälle puhuminen mahdollistaa informatiivisemmat
kehotteet, sillä kokeneemmat käyttäjät pystyvät keskeyttämään kehotteen heti tarvit-
tavan informaation saatuaan [Mane et al., 1996]. Tämä vähentää myös ihmisen lyhyt-
kestoisen muistin rajoituksista aiheutuvia virheitä. Schmandtin [1994, 109] mukaan ke-
hotteiden keskeytettävyyteen ei voida kuitenkaan luottaa, sillä osalla ihmisiä on tai-
pumus seurata sanoma loppuun saakka. Hänen mukaansa keskeytyksiin liittyy myös
ajoitusongelmia.
Yksi kehotteiden suunnittelun avoimista kysymyksistä on se, kuinka hyvin käyttäjät
adaptoituvat kehotteissa käytetyn kielen tyyliin ja sanastoon eli ryhtyvät käyttämään
samanlaista kieltä kuin sovelluksessa esiintyy [Bradford, 1995]. Vaikka tällä onkin mer-
kitystä eniten luonnollista kieltä käyttävissä sovelluksissa, uskon puheselaimella suo-
ritettujen käyttäjätestien pohjalta, että asialla on vaikutusta myös komentopohjaisissa
sovelluksissa.
3.5.2 Virheiden hallinta
Kuten kohdassa 2.5 todettiin, puheentunnistus ei ole vielä läheskään virheetöntä. Tä-
män vuoksi virheisiin on varauduttava: sovellusten tulee olla yksinkertaisia ja virhe-
sietoisia eli ne tulee suunnitella siten, että virheiden vaikutukset saataisiin minimoitua
[Wilpon, 1994]. Virheiden hallinta voidaan jakaa viiteen vaiheeseen: ennalta ehkäisyyn,
havaitsemiseen, syiden etsimiseen, virheen korjauksen suunnittelemiseen ja virheen
korjaukseen.
Virheet vähentävät sekä tuottavuutta että käyttäjien tyytyväisyyttä. Virheiden ennalta-
ehkäisyllä voidaan vaikuttaa merkittävästi sovelluksen laatuun – hyvä esimerkki on
sanaston valinta niin, että sanat ovat puheentunnistuksen kannalta toisistaan selkeästi
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 25
erotettavissa. Näen virheiden ehkäisemisessä pääongelmaksi sen, että suurin osa pro-
sessiin vaikuttavista seikoista on tilanneriippuvaisia, kuten olosuhteiden vaihtelut ja
käyttäjien ominaisuudet. Näihin on luonnollisesti suunnittelun tasolla vaikeaa puuttua.
Erään yleisen ongelman muodostavat virheelliset tulkinnat, jotka on tehty muusta kuin
sovellukselle suunnatusta puheesta. Näiden seurauksia voidaan vähentää liittämällä
järjestelmään mekanismi huomion kohdistamiseksi. Kohdistaminen voidaan suorittaa
joko mikrofoniin tai käyttöliittymään sijoitetulla kytkimellä tai erillisillä puhekomen-
noilla. Molempiin tapoihin liittyy kuitenkin ongelmia: kytkin on käytännössä erittäin
ärsyttävä ja helposti unohtuva; puheeseen liitetyt komennot taas voivat hidastaa
kommunikointia merkittävästi ja heikentää järjestelmän tunnistuskykyä lisäämällä sa-
naston kompleksisuutta. Eräs kiinnostava mahdollisuus on visuaalisen informaation,
kuten katseen paikan hyödyntäminen.
Virheen korjaaminen alkaa sen havaitsemisesta. Sekä käyttäjän että järjestelmän tulisi
pystyä tekemään aloite virheen korjaamiseksi [Kamm, 1994]. Perinteisestihän virheen
korjaaminen jätetään käyttäjän huoleksi, ellei virhe ole triviaali, kuten syötteen muo-
don oikeellisuuden tarkastus. Kun järjestelmä huomaa mahdollisen virheen, se voi
joko pyytää käyttäjältä vahvistusta, käynnistää virheen korjauksen tai korjata virheen
automaattisesti.
Käyttäjillä on taipumus muuttaa ääntämistään virheiden seurauksena. Tällöin virheen
korjaaminen saattaa aiheuttaa uusia virheitä. Ennen virheen korjausta tulisikin pyrkiä
löytämään virheen mahdolliset syyt, jotta voitaisiin suorittaa oikeat korjaustoimenpi-
teet. Myös virheen ja sen korjaustoimenpiteen kustannusten suhteella on merkitystä:
virheen korjauksen ei tule olla automaattista vaan suunniteltua ja harkittua.
Yksinkertaisin tapa virheiden korjaamiseksi on pyytää käyttäjää toistamaan sanoman-
sa. Tällöin on kuitenkin vaarana päätyminen virhekierteeseen, joka voi haitata käyt-
täjän tyytyväisyyttä ohjelmaa kohtaan todella paljon. Parempi tekniikka on ainoastaan
potentiaalisten sanojen tarkasteleminen (esim. N-Best listalta, ks. kohta 2.7), jolloin
voidaan käyttää suppeampaa sanavarastoa. Toinen mahdollisuus on pyytää käyttäjää
toistamaan toiminto muun modaliteetin välityksellä. Viimeisenä keinona, kun mikään
muu ei enää onnistu, tulee käyttäjälle tarjota mahdollisuus päästä tilanteesta siististi
pois [Kamm, 1994].
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 26
3.5.3 Vahvistukset
Vahvistuksilla voidaan ennakoida mahdollisia virhetilanteita. Ne ovatkin eräänlainen
ennaltaehkäisyn ja virheidenkorjauksen välimuoto. Vaikka vahvistuksia tuleekin
käyttää säästeliäästi etteivät ne aiheuta ylimääräistä kuormitusta ja lisää tyytymättö-
myyttä järjestelmää kohtaan, on myös sellaisia tilanteita, joissa vahvistusta on syytä
käyttää.
Schmandt [1994, 165-167] jakaa vahvistusmenettelyt kahteen luokkaan, eksplisiittisiin ja
implisiittisiin vahvistuksiin. Eksplisiittistä vahvistusta voidaan hänen mukaansa käyt-
tää tilanteissa, joissa toiminnon seurauksia on vaikea perua tai perumismahdollisuutta
ei ole lainkaan. Eksplisiittisen vahvistuksen hyviä puolia on, että siinä voidaan käyttää
(samaan tapaan kuin virheiden korjauksessa) supistettua sanavarastoa ja korkeita tun-
nistuskynnyksiä. Se on kuitenkin hidas, epämukava ja vaatii aina käyttäjän huomiota
sekä pakottaa toimimaan.
Implisiittisessä vahvistuksessa käyttäjää informoidaan tulevasta toimenpiteestä, jonka
jälkeen pidetään tauko, jonka aikana käyttäjällä on mahdollisuus perua toiminto. Ellei
käyttäjä reagoi tauon aikana toiminto suoritetaan tämän jälkeen normaalisti. Schmandt
pitää implisiittisen vahvistuksen ongelmina tauon sopivan pituuden määrittämistä se-
kä oikean perumismenetelmän löytämistä. On lisäksi syytä huomioida, että implisiitti-
nen vahvistus on ongelmallinen tehtävissä, joissa nopeus on ensiarvoista.
3.5.4 Palaute ja ohjeet
Käyttäjät haluavat usein opastusta siihen, mitä heidän tulee kussakin tilanteessa sanoa
sekä siihen, kuinka heidän tulisi sanottavansa esittää. Käyttäjän informointi onkin var-
sinkin noviiseille tärkeä osa käyttöliittymää [Mane et al., 1996]. Liiassa käyttäjän opas-
tuksessa on kuitenkin ongelmansa, varsinkin jos kaikki opastus liitetään kehotteisiin.
Hyödyllistä olisikin erottaa selkeästi kehotteisiin ja opastukseen kuuluvat asiat, jolloin
noviisikäyttäjillä on tarvittava apu saatavilla, mutta se ei häiritse kokeneita käyttäjiä
tai vie liikaa tilaa kuvaruudulta.
Palaute on erityisen tärkeää pelkkään puheeseen perustuvissa käyttöliittymissä – mis-
sä se on valitettavasti myös vaikeinta toteuttaa tehokkaasti. Palautteen annossa on
syytä muistaa siitä aiheutuvat kustannukset, kuten muistin kuormittuminen ja huo-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 27
miokyvyn vieminen muualle sekä puhepalautetta käytettäessä sen rajoitukset, mm.
hitaus.
3.6 Puhesovellusten evaluointikriteerejä
Puhesovellusten kehityksen kannalta olisi tärkeää saada aikaiseksi yleisiä kriteerejä
järjestelmien evaluoimiseksi. Järjestelmiä voidaan tarkastella kolmesta näkökulmasta,
tekniikan, tehtävän tai käytettävyyden perspektiivistä. Lisäksi tulisi arvioida teknolo-
gian valmiutta tehtävään.
Tekniikan ja tehtävän evaluoimiseen liittyviä seikkoja on käsitelty kohdassa 2.5. Tär-
kein tässä huomioitava seikka on se, että puheteknologian evaluoinnin tulisi palvella
aina käyttöliittymäsuunnittelua [Furui, 1994]. Näinhän ei välttämättä ole, sillä esim.
standardiksi muodostunutta virhetasoa parempi kriteeri olisi usein se, kuinka hyvin
järjestelmä kykenee hylkäämään sanaston ulkopuoliset sanat.
Sovelluksen käytettävyyden arviointiin voidaan käyttää sekä objektiivisia että subjek-
tiivisia kriteerejä. Nakatsu ja Suzuki [1994] luettelevat objektiivisiksi kriteereiksi:
• tehtävän suorittamisen asteen,
• tehtävän suorittamiseen kuluvan ajan,
• tehtävän suorittamiseen tarvittavien tapahtumien lukumäärän, ja
• virheenkorjauskertojen lukumäärän.
Subjektiivisesti arvioitaviksi he taas luettelevat:
• käyttäjän tyytyväisyyden toteutusta kohtaan,
• järjestelmän aiheuttaman kuormituksen, ja
• käyttäjän mieltymykset eri menetelmiä kohtaan.
Lisäisin Nakatsun ja Suzukin esittämiin objektiivisesti arvioitaviin kriteereihin vielä
virheenkorjaukseen kuluvan ajan, varmistuksien aiheuttamat haitat (määrä, kuluva
aika) sekä multimodaalisissa järjestelmissä kunkin modaliteetin käyttöasteen.
Edellä esitetyt kriteerit eivät suinkaan ole ainoita mahdollisia. Yleisesti ottaen puhe-
järjestelmien evaluointiin soveltuvat perinteiset käytettävyyden arviointimenetelmät,
luonnollisesti tilanteen mukaan sovellettuna. Evaluoinnin tarkoitusperät ja sovelluk-
sen sekä tehtävän luonne vaikuttavat myös valittaviin asioihin huomattavasti.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 28
Itse pidän ongelmallisena perinteistä tapaa arvioida sovelluksia ainoastaan kvantitatii-
visten kriteerien mukaan. Tämä johtaa käytännössä siihen, että tehtävää arvioidaan
ainoastaan suorituksen tehokkuudella. Vaikka tehokkuus onkin tärkeä tekijä, niin se ei
missään nimessä ole ainoa käytettävyyteen vaikuttava seikka. Puhetta käytetään usein
vaihtoehtoisena ja korvaavana kommunikointimuotona, jolloin tehokkuuden arviointia
parempia kriteereitä voivatkin olla esim. käyttäjien mieltymyksiin liittyvät seikat. Pu-
heohjatun selaimen käyttäjätesteissä kiinnitettiin paljon huomiota käyttäjien mielipi-
teisiin ja havaittiin, että esimerkiksi osallistumisen tunne voi olla tärkeämpää kuin te-
hokkuus.
Ennen järjestelmän toteuttamista tulisi suorittaa teknologian valmiuden evaluointi, eli
arvioida soveltuuko puheen käyttö kyseiseen tehtävään. Kamm [1994] esittää tämän
arviointiin kaksi kriteeriä:
1. Hyväksyykö käyttäjä järjestelmän, eli pystyykö hän suorittamaan tehtävän
onnistuneesti, jolloin käyttö on tehokasta ja sujuvaa?
2. Hyväksyykö palvelun tarjoaja järjestelmän, eli ovatko järjestelmän tarjo-
amat hyödyt ja säästöt oikeassa suhteessa kustannuksiin?
3.7 Puhesovelluksiin liittyvä empiirinen tutkimus
Empiiristen tutkimusten osuus käyttöliittymäsuunnittelussa on merkittävää varsinkin
alkuvaiheessa, kun kartutetaan suunnitteluperiaatteita. Puheen käyttöön liittyvä empii-
rinen tutkimus voidaan jakaa kolmeen luokkaan sen mukaan, onko tutkimuksen koh-
teena ihmisten välinen kommunikaatio, ihmisen ja simuloidun tietokonesovelluksen
välinen kommunikaatio vai ihmisen ja tietokoneen välinen kommunikaatio.
Ihmisten välisen kommunikaation tutkimista käytetään silloin, kun kerätään tietoa me-
netelmistä, joita voi olla mahdollista hyödyntää myös ihmisen ja tietokoneen välisessä
kommunikaatiossa. Klassinen esimerkki on Chapaniksen [1975] tutkimus eri modali-
teettien soveltuvuudesta interaktiiviseen ongelmanratkaisemiseen. Ihmisten välisen
kommunikoinnin tutkimuksen suurimpana vaikeutena on tulosten yleistäminen kos-
kemaan ihmisen ja tietokoneen välistä kommunikointia.
Huomattava osa suoritetuista empiirisistä tutkimuksista on ihmisen ja simuloidun tie-
tokoneohjelman välisiä. Näistä käytetään usein nimitystä Wizard of Oz -tutkimukset.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 29
Simuloituja kokeita käytetään sekä suunnittelun että tutkimuksen apuna. Useimmiten
simuloinnin syynä on se, että kokeen tarkoitusperien kannalta tarkoituksenmukaisen
järjestelmän rakentaminen on mahdotonta. Suunnittelun kannalta taas on tärkeää
päästä kiinni mahdollisiin ongelmakohtiin mahdollisimman aikaisessa vaiheessa: si-
muloitu koe voi paljastaa ongelmia mm. sovelluksen loogisessa rakenteessa, kehot-
teissa jne. [Mane et al., 1996].
Kokeen luonteen kannalta on olennaista se, tietävätkö käyttäjät puhuvansa koneelle
vai ihmiselle, sillä ihmisten on todettu puhuvan eri tavalla koneille kuin toisilleen [Fra-
ser & Gilbert, 1991]. Mikäli ohjelmaa halutaan simuloida luonnollisen tuntuisesti, ovat
nopeat ja luotettavat vastaukset tärkeitä. Toisaalta on myös varottava liian täydellisiä
vastauksia esim. luonnollisen kielen käsittelyssä [Cohen & Oviatt, 1994].
Vaikka simuloidut kokeet ovatkin hyödyllisiä, niihin liittyy useita ongelmallisia nä-
kökohtia. Eräs näistä on virheiden simulointi: kuinka esim. tunnistusvirheitä tulisi si-
muloida ja paljonko tähän tarvitaan tietoutta tunnistusjärjestelmän rakenteesta? Myös
simuloitujen tutkimusten rajoitukset tulisi ottaa huomioon: missä tilanteissa ne voivat
viedä tutkimusta väärään suuntaan tai johtaa tuottamattomiin sovelluksiin? [Mane et al.,
1996]. Reaaliaikaisissa järjestelmissä nämä seikat ovat erityisen ongelmallisia, sillä
syötteisiin tulisi reagoida sekunnin kymmenyksissä. Puheohjatun selaimen kohdalla
simuloiduista kokeista luovuttiinkin, sillä ne olisivat muodostuneet erittäin raskaiksi
ja virhealttiiksi.
Ihmisen ja tietokoneen välisessä kommunikoinnissa puheen käyttöä on pyritty moti-
voimaan usein tehokkuusnäkökohdilla. Puheen hyödyllisyyden todistamista on lä-
hestytty erilaisilla järjestelmien vertailututkimuksilla. Paljon huomiota ovat herättä-
neet mm. Poockin [1980] ja Martinin [1989] tekemät tutkimukset, joissa puheen käyttö
todettiin näppäimistön käyttöä nopeammaksi. Tuloksia ei ole kuitenkaan oikopäätä
hyväksytty, varsinkin Poockin tutkimusta vastaan on hyökätty voimakkaasti [Damper et
al., 1996].
Vertailututkimuksia pidetään tärkeinä, koska toivotaan, että niiden avulla löydetään
puheelle edullisia käyttökohteita ja käyttäjäryhmiä. Näissä tutkimuksissa on kuitenkin
useita ongelmia, kuten se, että niissä vertaillaan pikemminkin teknologiaa kuin moda-
liteettia. Toinen merkittävä vertailututkimusten ongelma on se, että niiden tulokset
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 3 – PUHESOVELLUSTEN SUUNNITTELU
Sivu 30
eivät useinkaan ole yleistettävissä tutkimuksessa käytetyn sovellusalueen ulkopuolelle
[Leatherby & Pausch, 1992].
Syötteidenantomenetelmiä vertailevia tutkimuksia hedelmällisempi suuntaus on pu-
heen soveltuvuutta arvioivat tutkimukset. Esimerkkejä tästä suuntauksesta tarjoavat
mm. Karlin, Petteyn ja Shneidermanin [1993] sekä Oviattin, DeAngelin ja Kuhnin
[1997] tutkimukset. Näissä tutkimuksissa lähestytään puheen käyttöä etsimällä sekä
puheelle soveltuvia kohteita että tilanteita, jotka ovat puheelle ongelmallisia. Puheoh-
jatun selaimen käyttäjätutkimukset kuuluvat tähän ryhmään, tosin ne ovat niin alusta-
via, että niitä voidaan pitää vielä osaksi sovelluskehityksen evaluointivaiheena.
3.8 Lopuksi
Yleisesti ottaen puhesovellusten suunnittelussa pätevät normaalit käyttöliittymäsuun-
nittelun periaatteet: käyttäjäkeskeisyys, iteratiivinen, vaiheittainen eteneminen ja
käyttäjien mukanaolo. Puhesovelluksien suunnittelussa on kuitenkin ensiarvoisen tär-
keää, että käyttäjiin saadaan kosketus mahdollisimman aikaisessa vaiheessa. Yleisten
periaatteiden puuttuessa on vaikeaa saada kokemuksia muutoin kuin rakentamalla
prototyyppejä. Käyttöliittymäsuunnittelua vaikeuttaa mm. se, että ihmiset puhuvat hy-
vin eri tavoin; spesifit ongelmat selviävät ainoastaan käytännössä.
Tässä tutkimuksessa puhetta käsitellään pääasiallisesti ainoana syötteiden lähteenä.
Tämä lähestymistapa ei kuitenkaan ole aina paras mahdollinen. Multimodaaliset
käyttöliittymät tarjoavatkin mahdollisuuden hyödyntää eri kommunikointimenetelmi-
en parhaita puolia. Multimodaalisuuden hyödyntämiseksi tarvitaan kuitenkin tietoa
kunkin kommunikointimenetelmän hyvistä ja huonoista puolista. Tämän vuoksi pe-
rustutkimus kommunikointimodaliteeteista onkin korvaamatonta.
Puheohjatun selaimen prototyypissä hyödynnettiin puhetta ainoastaan syötemodali-
teettina. Uskon kuitenkin, että keskustelupohjaisten järjestelmien periaate on hyödyn-
nettävissä useimmissa puhesovelluksissa. Tämä näkyi hyvin myös prototyypin käyt-
täjätestien kommentteina, joissa toivottiin enemmän vuorovaikutusta järjestelmän ja
käyttäjän välille. Toisaalta useat käyttäjät esittivät myös jyrkän vastalauseensa puhe-
tulosteille. Selvää on, että asia kaipaa lisätutkimusta.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 31
4 KOLMIULOTTEISET KÄYTTÖLIITTYMÄT
Kolmiulotteisia käyttöliittymiä pidetään merkittävänä askeleena ihmisen ja tietoko-
neen välisen vuorovaikutuksen evoluutiossa. Niiden nähdään jopa tuovan mukanaan
samankaltaisen vallankumouksen kuin graafisten käyttöliittymien yleistyminen 1980-
luvulla. Samoin kuin puheenkin kohdalla, on käyttöliittymäsuunnittelu kuitenkin
huomattavasti vaikeampaa verrattuna perinteisiin kaksiulotteisiin suorakäyttöliitty-
miin.
Tässä luvussa tarkastelen kolmiulotteisten käyttöliittymien vuorovaikutusmenetelmiä.
Huomiota on kiinnitetty erityisesti sellaisiin asioihin, jotka ovat tärkeitä puheohjauk-
sen kannalta. Tutkimuksen kannalta olennaisinta on virtuaalisessa ympäristössä liik-
kuminen. Tätä ennen selvitetään alueeseen liittyviä peruskäsitteitä, kolmiulotteisten
käyttöliittymien erityispiirteitä sekä virtuaalisen ympäristön luonnetta. Liikkumisen
lisäksi tarkastellaan vuorovaikutuksessa tarvittavien vapausasteiden rajoittamista se-
kä tutkimuksen kannalta kiinnostavaa puheen käyttöä virtuaaliympäristöissä. Lopuksi
esitän muutamia ajatuksia kolmiulotteisen maailman hallintaan liittyen.
4.1 Kolmiulotteinen käyttöliittymä ja sen perustoiminnot
Kolmiulotteisiin käyttöliittymiin liittyy joukko käsitteitä, joiden hallitseminen on
välttämätöntä sovellusten suunnittelijoille sekä usein myös niiden käyttäjille. Esittelen
tässä keskeisimmät asiat, kuten käytettävän koordinaatiston, objekteille mahdolliset
perusoperaatiot, vuorovaikutuksen perustoiminnot sekä maailman havainnointiin
liittyvät metaforat.
Kolmiulotteisella käyttöliittymällä tarkoitetaan tässä kolmedimensioista avaruutta,
joka sisältää joukon objekteja. Tätä virtuaalista maailmaa voidaan esittää erilaisissa
koordinaatistoissa. Tässä yhteydessä käytämme nk. oikeakätistä koordinaatistoa, joka
on esitetty kuvassa 4-1 vasemmalla. Koordinaatisto on valittu sen luonnollisuuden
vuoksi: useimmille meistä lienee tutuin tämä esitystapa, jossa x-akselin arvot kasvavat
oikealle, y-akselin arvot ylös ja z-akselin arvot suoraan katsojaan päin. Kuvassa on
esitettynä myös luonnolliset tasot, xy, xz ja yz.
Kolmiulotteisen maailman sisältämien objektien asema voidaan määrittää paikan ja
orientaation avulla. Näin objektin aseman ilmaisemiseen tarvitaan kuusi parametria
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 32
eli toisin sanoen kullakin kappaleella on kuusi vapausastetta. Paikan ja orientaation
lisäksi objekteille voitaisiin määritellä vielä koko. Tämän tutkimuksen kannalta on
kuitenkin tarkoituksenmukaista keskittyä ensisijaisesti paikan ja orientaation tarkas-
teluun.
[�
]�
\�
\�
[]�WDVR
[\�WDVR
\]�WDVR
[�
\�
]�
\�
[]�WDVR
[\�WDVR
\]�WDVR \]�WDVR
[�
]�
\�
Kuva 4-1: Kolmiulotteisen maailman dimensiot ja perusoperaatiot.
Kappaleen paikka määritellään sen keskipisteen koordinaattien perusteella. Orientaa-
tio määritellään vastaavasti kappaleen kallistuskulmana koordinaattiakseleiden suh-
teen. Näitä parametrejä muuttamalla saadaan aikaan kuusi perusoperaatiota, paikan
siirto x-, y- ja z-suunnassa sekä kappaleen kiertäminen x-, y- ja z-akselien suhteen.
Operaatioita on havainnollistettu kuvassa 4-1 oikealla, missä tumma objekti esittää
perustilaa ja vaaleammat kappaleet ovat kukin sekä siirtyneet että kiertyneet yhden
akselin suhteen positiiviseen suuntaan.
Robinettin ja Hollowayn [1992] mukaan virtuaaliympäristöjen perustoimintoja ovat
paikan, orientaation ja koon vaihtaminen. Kaikki kolme voivat kohdistua sekä käyt-
täjään että objektiin. Toiminnot vastaavat suoraan kolmiulotteisille objekteille määri-
teltyjä perusoperaatioita ja toimivat siten pohjana korkeamman tason operaatioita
muodostettaessa. Käyttäjän näkökulmasta perustoimintoina voidaan pitää maailmassa
liikkumista ja objektien valitsemista, manipulointia sekä skaalaamista [Mine, 1995].
Kolmiulotteinen avaruus voidaan jakaa edelleen aliavaruuksiin, joilla on omat koordi-
naatistonsa. Jokaisella kappaleella on lisäksi paikallinen koordinaatisto. Näin yhdessä
maailmassa voi olla useita eri koordinaatistoja, jotka ovat aina suhteessa toisiinsa [Ro-
binett & Holloway, 1992]. Tässä käsittelemme avaruudessa tapahtuvia operaatioita aina
maailman koordinaatiston suhteen. Objekteja manipuloidaan näin käyttäjän näkökul-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 33
masta vastakohtana objektin näkökulmasta suoritettavalle manipuloinnille [Chen et al.,
1988].
Kolmiulotteista avaruutta tarkastellaan aina jostain pisteestä käsin. Tämä piste, käyt-
täjän paikka eli tarkkailupiste, määritetään samoin kuin muutkin maailmaan sisältyvät
objektit. Tarkkailupiste voidaan olettaa kameraksi, jonka läpi maailmaa tarkastellaan.
Kameralle voidaan normaalien objektien ominaisuuksien lisäksi määritellä muitakin
parametrejä, kuten esim. katselukulma ja syvyysterävyys. Näillä ei kuitenkaan ole tar-
vetta operoida samassa mittakaavassa kuin paikan ja orientaation muutoksilla, joten
niitä ei käsitellä tarkemmin tässä tutkimuksessa.
Virtuaalisen maailman tarkasteluun liittyy kaksi toisistaan selkeästi poikkeava lähes-
tymistapaa, joiden pohjalle korkeamman tason metaforat rakennetaan. Ensimmäisen
mukaan liikkuminen voidaan nähdä tarkkailupisteen aseman muutoksena eli kameran
paikkaa ja orientaatiota manipuloimalla saadaan aikaan liikettä. Tämä tuottaa havain-
noinnin kannalta saman tuloksen kuin toisen näkemyksen mukainen ympäröivän
maailman liikuttaminen tarkkailupisteen suhteen. [Ware & Osborne, 1990]
4.2 Kolmiulotteisen käyttöliittymän erityispiirteitä
Kolmiulotteiset käyttöliittymät ovat huomattavasti monimutkaisempia kuin perinteiset
kaksiulotteiset käyttöliittymät. Käyttöliittymäsuunnittelun kannalta merkittävimpiä
tekijöitä ovat kolmiulotteisen tilan ja siinä sijaitsevien kappaleiden hahmottamiseen
liittyvät seikat sekä useampien vapausasteiden aiheuttama vuorovaikutusmenetelmien
monimutkaistuminen.
Kolmiulotteisen tilan hahmottaminen on vaikeaa, koska ihmisillä on ongelmia syvyy-
den havaitsemisessa ja kappaleiden välisten suhteiden ymmärtämisessä. Syvyyden
havaitsemista voidaan tukea erilaisilla syvyysvihjeillä. Syvyysvihjeitä tarjoavat mm.
perspektiivi, liike, stereokuva, tekstuuri, varjot ja väri. Perinteisesti stereokuvaa pide-
tään vahvimpana tekijänä syvyyden havaitsemisessa. Lähes yhtä vahva, jopa vahvem-
pikin syvyysvihje on liike: yhdessä nämä ovat erittäin tehokkaita syvyyden hahmot-
tamisessa [Ware et al., 1993]. Syvyysvihjeiden määrä vaikuttaa kolmiulotteisessa tilassa
tapahtuvien tehtävien suoritusnopeuteen ja –tarkkuuteen merkittävästi. On kuitenkin
todennäköistä, että vihjeiden käytön määrällä on raja, jonka jälkeen merkittävää pa-
rannusta ei enää tapahdu [Brown, 1994].
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 34
Kolmiulotteisen tilan hahmottamiseen eli tilanhahmottamiskykyyn [Osborn & Agogino,
1992] liittyy oleellisesti siinä olevien kappaleiden välisten suhteiden ymmärtäminen.
Katsojan täytyy pystyä hahmottamaan kappaleen paikan lisäksi myös sen orientaatio
suhteessa muihin tilassa sijaitseviin kappaleisiin. Puutteellisesta tilanhahmottamisky-
vystä seuraa virheitä, jotka ilmenevät epämielekkäinä toimenpiteinä. Koska tässä tut-
kimuksessa ollaan kiinnostuneita siitä, kuinka hyvin valittu ohjausmetafora soveltuu
vuorovaikutukseen, tulee maailman hahmottamisesta aiheutuvat virheet erottaa vuo-
rovaikutusmenetelmiin liittyvistä virheistä. Tätä lähestytyttiin käyttämällä testeissä
sellaisia maailmoja, joissa syvyysvihjeiden käyttötarve oli minimoitu sekä tutkimalla
kappaleiden välisten suhteiden ymmärtämistä läpinäkyvyyttä hyväksikäyttäen. Ha-
vaittiin, että maailman hahmottamiseen liittyvät ongelmat ovat yksinkertaisissa tilan-
teissa merkityksellisempiä kuin ohjaukseen liittyvät kysymykset.
Operaatiot kolmiulotteisessa maailmassa ovat luonnostaan monimutkaisia. Ongelmia
syntyy erityisesti tapauksissa, joissa tehtävän dimensiot ja käytettävissä olevan vuoro-
vaikutusmenetelmän dimensiot eivät kohtaa. Perinteisesti ongelma on määritelty kos-
kemaan tapauksia, joissa korkean vapausasteen omaavia tehtäviä yritetään kontrolloi-
da vähän vapausasteita tarjoavilla menetelmillä. Yhtä lailla ongelmia esiintyy tehtä-
vissä, joissa useita vapausasteita omaavia menetelmiä käytetään kontrolloimaan vä-
hemmän vapausasteita tarvitsevia tehtäviä.
Ihmisen ja tietokoneen välisen vuorovaikutuksen kannalta olisi parasta, jos kuhunkin
tehtävään pystyttäisiin valitsemaan sen ominaisuuksien kannalta tarkoituksenmukaisin
syöttölaite. Käytännössä tämä on kuitenkin harvoin mahdollista mm. sen vuoksi, että
useimmat kolmiulotteiseen manipulointiin tarkoitetut syöttölaitteet eivät sovi hyvin
kaksiulotteisiin tehtäviin. Käytännössä ainoastaan harvan ihmisen työskentely sisältää
pelkästään kuuden vapausasteen hallintaa vaativia tehtäviä. Mikäli haluttaisiin käyttää
aina tehtävään parhaiten soveltuvaa syöttölaitetta, jouduttaisiin jatkuvasti vaihtamaan
työskentelyvälinettä.
Lisäksi useita vapausasteita kontrolloivien laitteiden käytössä on ongelmia silloinkin,
kun tehtävä sisältää useiden vapausasteiden hallintaa (esim. vapaasti ilmassa liikutel-
tavan lepakon epätarkkuus ja rasittavuus). Tässä tutkimuksessa on otettu lähestymis-
tapa, jossa kolmiulotteista maailmaa hallitaan sellaisilla menetelmillä, kuten puheella
ja tulevaisuudessa ehkä katseohjauksella, jotka eivät vaadi eksplisiittistä syöttömoda-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 35
liteettien valintaa. Tämä vapauttaa käyttäjän sidoksista laitteistoon ja mahdollistaa
näin luonnollisemman kommunikoinnin.
Tehtävän ja syöttölaitteiden dimensioiden erosta muodostuvaa ongelmaa on lähestytty
kuvaamalla perinteisten syöttölaitteiden antamaa informaatiota tehtävän vaatimaan
useampiulotteiseen syöteavaruuteen ja toisaalta rajoittamalla syöttölaitteiden dimensi-
oita tehtävien vaatimusten tasalle. Tehtävään tarvittavia dimensioita määriteltäessä
tulee ottaa huomioon dimensioiden integroinnin aste: mikäli dimensiot ovat käsitteel-
lisesti erillisiä, ei vapausasteita integroivasta syöttölaitteesta ole vastaavaa hyötyä [Ja-
cob et al., 1994].
Kaikkein eniten huomiota on kohdistettu erilaisiin virtuaaliohjaimiin, jotka mahdol-
listavat kolmiulotteisen käyttöliittymän hallinnan normaalia kaksiulotteista hiirtä
käyttäen. Näillä ratkaisuilla on melko vähän hyödyntämismahdollisuuksia tämän tut-
kimuksen kannalta. Puhesyötteiden kannalta on olennaisempaa tarkastella vuorovai-
kutuksessa tarvittavien dimensioiden rajoittamista, koska tämä auttaa puheen abstrak-
tin luonteen hyödyntämisessä. Asiaa käsitellään tarkemmin kohdassa 4.5.
4.3 Virtuaalimaailman luonne
Koska virtuaalisen maailman luonne määrää pitkälti millainen käyttöliittymäsuunnit-
telu tilanteeseen sopii, tulee sovelluksen suunnittelijan olla tarkkaan tietoinen kolmi-
ulotteisen maailman merkittävimmistä ominaisuuksista. Tässä käyttöliittymäsuunnit-
teluun vaikuttavia tekijöitä lähestytään virtuaalisen tilan esittämisen, sovelluksen
käyttötarkoituksen, maailman koon ja sen sisältämien objektien sijoittumisen sekä
maailman dynaamisuuden ja realistisuuden kautta. Kaikki nämä seikat vaikuttavat
siihen, millaisia vuorovaikutusmenetelmiä käyttäjälle tulisi tarjota erilaisissa tilanteis-
sa.
Virtuaalimaailmojen esitystekniikoiden jaotteluperusteena voidaan käyttää tietokoneen
esittämän tilan ja käyttäjän tilan välistä suhdetta [Brown, 1994]. Perinteisessä työpöytä-
mallissa katsojan tila ja virtuaalinen tila ovat täysin erillisiä. Uppouttavassa virtuaa-
litodellisuudessa käyttäjä on kokonaan virtuaalisessa tilassa, laajennetussa todellisuu-
dessa taas joko virtuaalinen tila on tuotu osaksi reaalimaailman tilaa tai päinvastoin.
Katsojan tila ja virtuaalinen tila voivat olla näin täysin erillisiä, toisensa poissulkevia
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 36
tai yhdistettyjä. Näistä voidaan tarpeen vaatiessa erotella vielä erilaisia variaatioita
(esim. puoli-uppouttavat virtuaaliympäristöt).
Tässä tutkimuksessa käsitellään kolmiulotteisia käyttöliittymiä perinteisen, kaksiulot-
teisen näyttölaitteen välityksellä esitetyn virtuaalitodellisuuden näkökulmasta. Tällöin
käytännössä huomioonotettavia seikkoja on mm. se, että käyttäjän osallistumisen tun-
ne ei ole niin voimakas kuin esim. uppouttavassa ympäristössä.
Kolmiulotteisten käyttöliittymien suosituin käyttötarkoitus on ollut tähän saakka eri-
laisissa CAD/CAM –sovelluksissa. Näiden järjestelmien yleispiirre on syötteiden an-
tamiseen tarvittava tarkkuus. Toisaalta CAD-ohjelmia on käytetty myös mallintamaan
kokonaisia kaupunginosia, joissa käyttäjä voi liikkua vapaasti tietoverkkojen välityk-
sellä [Bourdakis, 1996]. Tällöin tärkeimmäksi asiaksi muodostuu navigoinnin jousta-
vuus. Tehtävän tulisikin aina määrätä käytettävät vuorovaikutusmenetelmät [Herndon et
al., 1994]. Tässä tutkimuksessa on oletettu tyypilliseksi selaimen käyttötarkoitukseksi
virtuaalisen maailman tutkiminen, eikä niinkään objektien manipulointi.
Virtuaalisen maailman koko saattaa vaihdella aina pienestä, yksittäisen objektin sisäl-
tävästä maailmasta rajattoman kokoiseen universumiin. Darken ja Sibert [1993] esittä-
vät käyttökelpoisen kriteerin virtuaaliympäristöjen luokittelemiseksi. Heidän mu-
kaansa maailma voidaan tulkita pieneksi silloin, kun se voidaan esittää jostakin pis-
teestä yhdellä kertaa siten, että tärkeät yksityiskohdat ovat näkyvissä. Muutoin se tul-
kitaan laajaksi. Laajoihin maailmoihin liittyy ongelmia, jotka tässä tutkimuksessa ha-
luttiin välttää. Kaikki käyttäjätestien maailmat olivatkin pieniä. Tulevaisuudessa on
kuitenkin tärkeää laajentaa tutkimusta myös suurten maailmojen yhteyteen.
Maailmaa voidaan karakterisoida koon lisäksi objektien levittäytymisen ja dynaami-
suuden suhteen. Harvassa maailmassa objektien ja objektiryhmien etäisyydet ovat
suuria, kun taas tiheässä maailmassa objektien väliset etäisyydet ovat lyhyitä. Objek-
tien jakautuminen voi olla epätasaista; suuri määrä objekteja voi olla jakautunut sa-
malle alueelle peittäen toisensa, mikä tekee maailmasta sekavan. Käyttäjätesteissä
maailmat olivat yksinkertaisuuden vuoksi selkeitä ja harvoja. On kuitenkin oletetta-
vaa, että puheohjaus soveltuisi hyvin sekaviin ja tiheisiin maailmoihin, sillä tällöin
pystyttäisiin hyödyntämään puheen erityisominaisuuksia, kuten objektien valintaa nii-
den ominaisuuksien perusteella (ks. kohta 3.1.4). Tämä onkin erittäin mielenkiintoi-
nen jatkotutkimuksen aihe.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 37
Staattisessa maailmassa objektien asema ei muutu ajan kuluessa päinvastoin kuin dy-
naamisessa maailmassa. Tästä asetelmasta voidaan myös erottaa välimuotoja, puoli-
dynaamisia maailmoja, joissa joko objektien asema tai paikka voi muuttua. Muutokset
voivat olla edelleen joko deterministisiä tai epädeterministisiä [Darken & Sibert, 1993].
Merkittävin dynaamisiin maailmoihin liittyvä ongelma puheohjauksen kannalta on
virheenkorjaus, joka on huomattavasti kompleksisempaa dynaamisissa maailmoissa
kuin staattisissa tilanteissa (ks. kohta 7.4.2).
Objektit voivat muodostaa joko fyysistä maailmaa jäljittelevän virtuaaliympäristön tai
toisaalta tyystin abstraktin maailman, jossa objektit eivät edes ole fyysisesti mahdolli-
sia. Käyttäjien odotukset maailmassa toimimisen suhteen ovat tällöin hyvinkin erilai-
sia: esim. reaalimaailmaa muistuttavassa virtuaaliympäristössä oletetaan automaatti-
sesti objektien käyttäytyvän luonnollisesti [Houde, 1992]. Tätä voidaan käyttää hyödyk-
si objektien vapausasteiden rajoittamisessa. Realistisuus voi muodostaa myös ongel-
mia, mikä näkyi käyttäjätesteissä siinä, että käteen sopivaa objektia mieluummin kä-
siteltiin, kuin että sen ympärillä olisi liikuttu.
4.4 Liikkuminen kolmiulotteisessa ympäristössä
Tässä tutkimuksessa virtuaalimaailmassa tapahtuvaa vuorovaikutusta tarkastellaan
pääasiallisesti liikkumiseen pohjautuen. Liikkumista säätelevät useat eri tekijät, kuten
vuorovaikutuksen pohjalla olevat motiivit. Liikkumiseen käytettävä perusmetafora ja
käyttäjän suorittamat liikettä kontrolloivat tekijät muodostavat yhdessä erilaisia kor-
kean tason liikkumismetaforia. Nämä kaikki vaikuttavat siihen, millainen vuorovai-
kutustapahtumasta muodostuu.
4.4.1 Liikkumisen motiivit
Mackinlay kollegoineen [1990] lähestyy kolmiulotteisessa tilassa liikkumista suoritet-
tavan tehtävän vaatimusten näkökulmasta. He erottavat neljä päätyyppiä, yleisen liik-
kumisen eli tutkimisen, kohteen mukaisen liikkumisen, tarkoin määriteltyyn paikkaan
liikkumisen sekä liikerataan perustuvan liikkumisen. Darken ja Sibert [1996] ovat tut-
kineet laajalti virtuaalimaailmoissa tapahtuvaa navigointia. He esittävät, että päätehtä-
vän mukaiseen tarkoitukseen pohjaava liikkuminen voi olla naiivin haun kaltaista,
missä kohteen sijaintia ei tiedetä, päämäärätietoista, jolloin kohteen sijainti tiedetään
tai tutkimista, jolloin mitään varsinaista kohdetta ei ole.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 38
Liikkumiseen liittyvät motiivit voidaan jakaa karkeasti kahdentyyppisiin tapauksiin,
niihin missä käyttäjällä on selkeä kohde, johon hän haluaa päästä sekä niihin, joissa
käyttäjällä ei ole kohdetta, vaan hän pikemminkin haluaa saada käsityksen ympäris-
töstään. Darken ja Sibert huomauttavat, että paikanhakuun liittyvät tehtävät ovat
yleensä toisiinsa liittyneitä, jolloin esimerkiksi päämäärätietoista hakua saattaa edel-
tää useita naiviin hakuun pohjautuvia vaiheita. Joskus voi olla myös vaikeaa tehdä
eroa objektien tutkimisen ja maailmassa liikkumisen välille: tällöin käyttäjän sisäinen
malli toiminnoista ja käytännössä suoritettavat toimenpiteet saattavat olla hyvinkin
erilaisia. Tämä ilmiö tulikin hyvin esille puheohjatun selaimen käyttäjätesteissä.
Tässä tutkimuksessa keskityttiin sellaisiin tehtäviin, joissa käyttäjillä oli aina selkeä
kohde. Tulevaisuuden kannalta on mielenkiintoista tutkia myös sellaisia maailmoja,
joissa käyttäjä joutuu navigoimaan maailmassa kohteita etsien. On todennäköistä, että
puheen käyttämiselle löytyy tällöin menetelmiä, jotka ovat vaikeita toteuttaa muilla
tavoin. Esimerkiksi objektien luokse siirtymisessä voidaan käyttää hyväksi perustoi-
menpiteitä ilmaisuvoimaisempia komentoja. Näitä on hahmoteltu kohdassa 7.5.3.
4.4.2 Liikkumisen perusmetaforat
Ware ja Osborne [1990] esittivät kolme vuorovaikutusmetaforaa, joiden variaatioina
voidaan pitää suurinta osaa käytännössä toteutetuista vuorovaikutusmenetelmistä.
Heidän esittämiensä metaforien mukaan maailmaa voidaan havainnoida kädessä pi-
dettävän kameran avulla, pitämällä maailmaa kädessä tai ohjaamalla virtuaalista kul-
kuneuvoa maailmassa. Mikään menetelmistä ei ole heidän mukaansa ylivoimainen
kaikkiin tehtäviin, vaan jokaisella on omat heikot ja vahvat alueensa.
Tarkasteltaessa maailmaa kädessä pidettävän kameran läpi käyttäjän tarkkailupisteen
asema muuttuu suhteessa käden liikkeeseen. Vastaavan liikkeen suorittaminen kädes-
sä pidettävälle maailmalle aiheuttaa maailman aseman muuttumisen käden liikkeen
suuntaisesti. Näin ollen sama käden liike näkyy käyttäjälle vastakkaissuuntaisena
muutoksena näkymässä eri metaforia käytettäessä.
Esimerkkinä metaforien vaikutuksista siirtymä oikealle aiheuttaisi kuvan 4-1 esityk-
sen mukaisessa maailmassa tarkkailupisteen position x-koordinaatin kasvamisen
(siirtyminen origosta oikealla) käytettäessä ”kamera kädessä” –metaforaa ja vastaa-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 39
vasti käytettäessä ”maailma kädessä” –metaforaa tarkkailupisteen x-koordinaatti pie-
nenisi (siirtyminen origosta vasemmalle).
Virtuaalista kulkuneuvoa käytettäessä tarkkailija havaitsee maailman kulkuneuvon
kautta. Liike on tällöin suhteessa kulkuneuvoon, mikä tekee tästä objektikeskeisen
tarkastelutavan. Kulkuneuvon ominaisuuksien kontrollointi saattaa tuottaa lisää vapa-
usasteita, jolloin esim. kulkuneuvon suunta ja kameran suunta saattavat olla erilaiset.
4.4.3 Liikkeen kontrollointi
Liikkumista määräävät käytettävän metaforan lisäksi erilaiset käyttäjän suorittamat
liikkeen kontrollointitoimenpiteet. Bowman et al. [1997] esittävät uppouttaviin virtu-
aaliympäristöihin tarkoitetun taksonomian, jossa liikettä määräävät tekijät jaetaan
kolmeen pääluokkaan, liikkeen suunnan tai kohteen valitsemiseen, nopeuden tai kiih-
tyvyyden kontrolloimiseen sekä liikkeen kestoa määrääviin tekijöihin. Heidän takso-
nomiansa on esitetty yleistettynä kuvassa 4-2.
VXXQQDQ�WDL�NRKWHHQYDOLWVHPLQHQ
QRSHXGHQ�WDL�NLLKW\Y\\GHQ�YDOLWVHPLQHQ
OLLNNHHQ�NHVWRQNRQWUROORLQWL
VXXQQDQ�YDOLQWDDQ�SHUXVWXYD�RKMDXV
NRKWHHQ��GLVNUHHWWL��YDOLQWD
YDNLRDUYRLQHQ
HNVSOLVLLWWLVHVWL�NRQWUROORLWX
Nl\WWlMlQ�WDL�\PSlULVW|Q�VNDDODDPLQHQ
DXWRPDDWWLQHQ�WDL�DGDSWLLYLQHQ
YDNLROLLNH
MDWNXYD�NRQWUROORLQWL
DORLWWDPLVHQ�MD�ORSHWWDPLVHQ�NRQWUROORLQWL
DXWRPDDWWLQHQ�DORLWXV�WDL�ORSHWXV
Kuva 4-2: Liikkeen kontrolloinnin taksonomia.
Suunnan valitsemiseen perustuva liike ei riipu maailmassa olevista objekteista. Koh-
teen valitseminen tapahtuu aina jonkin maailmassa olevan objektin tai ennalta mää-
rätyn paikan mukaisesti. Paikan ei välttämättä tarvitse liittyä mihinkään objektiin.
Mielenkiintoinen esimerkki käyttäjän tai ympäristön skaalaamisesta on Stoakleyn ja
kollegoiden [1995] kehittämät kädessä pidettävät miniatyyrimaailmat.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 40
4.4.4 Korkean tason liikkumismetaforat
Erilaisia perusmetaforien ja liikkeen kontrollointimenetelmien pohjalta muodostuvia
korkean tason liikkumismetaforia on käytännössä melkein yhtä paljon kuin sovelluk-
siakin. Nämä voidaan jakaa melko kattavasti kävelyyn, lentämiseen, kulkuneuvon oh-
jaamiseen ja kohteen tai paikan mukaiseen siirtymiseen. Mikään menetelmä ei sovellu
yleispätevästi kaikkiin tilanteisiin: pelkästään yhden liikkumismuodon käyttäminen
saattaa rajoittaa liiaksi käyttäjää [Bourdakis, 1996]. Tämä näkyi hyvin myös puheohjatun
selaimen tapauksessa.
Nopeimmiksi ja luotettavimmiksi liikkumistavoiksi on todettu erilaiset siirtymisme-
netelmät, joissa käyttäjä määrittää paikan, jonne siirrytään välittömästi. Haittapuolena
välittömässä siirtymisessä on se, että käyttäjän tietoisuus omasta asemastaan maail-
massa voi häiriintyä. Lisäksi siirryttävän paikan täytyy olla joko etukäteen tunnettu
(listalta valinta tai kuvaileminen) tai sen täytyy olla näkökentässä (valinta kohdisti-
mella). [Bowman et al., 1997]
Välitöntä siirtymistä parempaan tulokseen päästään siirtymällä kohteeseen pehmeästi.
Useisiin toteutettuihin järjestelmiin sisältyy tällainen kiinnostuksen kohteen mukainen
liikkumismekanismi, missä toimenpide tapahtuu kahteen osaan, liikkumiseen ja
orientoitumiseen jaettuna. Tämän menetelmän etuna on mm. se, että käyttäjä pystyy
kasvattamaan tietoutta ympäristöstä liikkumisen aikana [Mackinlay et al., 1990]. Tämä
menetelmä soveltuisi hyvin puheohjauksen yhteyteen. Tässä haluttiin kuitenkin tutkia
perustoimenpiteitä, jotka ainakin periaatteessa mahdollistavat yleispätevän liikkumi-
sen.
4.5 Vuorovaikutuksessa tarvittavien vapausasteiden rajoittaminen
Liikkumisen lisäksi virtuaalimaailmoissa tarvitaan menetelmiä objektien käsittelyyn.
Tähän on kehitetty runsaasti erilaisia menetelmiä varsinkin kolmiulotteisten käyttö-
liittymien alkuaikoina, jolloin tehtävät koostuivat pääosin objektien manipuloinnista.
Suurin osa näistä ratkaisuista olettaa, että tehtävät suoritetaan joko hiiren tai datahan-
sikkaiden välityksellä eli kinestistä syötteidenantomenetelmää käyttäen. Esitän tässä
sellaisia menetelmiä, joita on mahdollista hyödyntää puhetta käytettäessä.
Esitetyt ratkaisut lähestyvät objektien käsittelyä rajoittamalla tehtävän kannalta epä-
olennaisia vapausasteita. Paitsi objektien manipulointiin, näitä menetelmiä voidaan
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 41
hyödyntää myös liikkumiseen, sillä liikkuminen voidaan nähdä kameran paikan ja
orientaation manipulointina. Selaimelle suoritettujen käyttäjätestien pohjalta havait-
tiin, että näitä menetelmiä voidaan hyödyntää erityisesti tarkassa työskentelyssä (ks.
kohta 7.5.2).
Erilaisten oletusarvojen käyttö on suosittu tapa poistaa tarpeettomia vapausasteita
sellaisissa tapauksissa, joissa objektin käsittelyssä ei tarvita kaikkia dimensioita. Teh-
täviä tulee tällöin tarkastella tarpeeksi pienissä osissa, sillä esimerkiksi niinkin perus-
luonteisen tehtävän kuin kappaleen osoittamisen on todettu jakautuvan erillisiin, pe-
räkkäisiin osiin [Balakrishnan et al., 1997]. Mikäli johonkin osatehtävään tarvitaan vä-
hemmän dimensioita kuin muihin, tulisi vapausasteita rajoittaa tällaista osatehtävää
käsiteltäessä sen vaatimusten tasolle. Reaalimaailmassakin kuuden vapausasteen teh-
tävät jaetaan usein osiin [Hinckley et al., 1994].
Oletusarvojen valinnassa voidaan käyttää hyväksi ihmisten kokemuksia reaalimaail-
massa tapahtuvasta objektien käsittelystä. Houden [1992] tutkimuksessa havaittiin, että
ihmisillä oli luonnollisen kaltaisessa tilanteessa selkeitä odotuksia sen suhteen, kuinka
objektien tuli käyttäytyä. Hänen onnistui jakaa useimmat manipulointitehtävät kol-
meen luokkaan, joiden perusteella objektien vapausasteita pystyttiin rajoittamaan ti-
lanteeseen sopivaksi. Houde huomauttaa, että manipulointimahdollisuuksien tulee
kuitenkin olla joustavia, sillä ihmiset käsittelivät esineitä eri tavoin. On myös selvää,
että tämänkaltaiset ratkaisut toimivat vain hyvin rajoitetuilla virtuaaliympäristöjen
osa-alueilla. Reaalimaailman vastaavuudet voivat olla myös vuorovaikutusta rajoitta-
va tekijä, sillä käyttäjien oletukset reaalimaailman objektien käyttäytymisestä vaikut-
tavat vahvasti vuorovaikutukseen.
Oletusarvojen lisäksi käytetään erilaisia yleisluontoisia ”vetovoimaan” pohjautuvia
ratkaisuja. Näistä tunnetuin lienee painovoiman hyväksikäyttöön pohjaava menetelmä
[Bier, 1990], jota on sittemmin hyödynnetty paljolti sekä itsenäisesti että osana muita
ratkaisuja. Tässä mallissa kohdistin kiinnittyy painovoimafunktion vaikutuksesta ob-
jektiin saapuessaan objektin vaikutusalueelle. Venolian [1993] ratkaisu on hieman sa-
mansuuntainen: siinä käytetään hyväksi magneettimetaforaa, jonka mukaisesti objek-
tit vetävät toisiaan puoleensa ollessaan tarpeeksi lähekkäin. Bukowskin ja Sequinin
[1995] menetelmässä objekteja voidaan liikutella ensin vapaasti; käyttäjän lopettaessa
siirron objekti asemoidaan uudelleen siihen liittyvien assosiaatiosuhteiden perusteella.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 42
4.6 Puheen käytöstä kolmiulotteisissa käyttöliittymissä
Puhetta on käytetty toistaiseksi hyvin vähän kolmiulotteisten käyttöliittymien syöttei-
denantomenetelmänä, vaikka sekä puheen että kolmiulotteisten käyttöliittymien näh-
däänkin olevan tärkeitä tekijöitä tulevaisuuden käyttöliittymissä [van Dam, 1997]. Tämä
johtunee osaksi puheteknologian kehittymättömyydestä, osaksi siitä, että virtuaalito-
dellisuuden yhteydessä on ollut voimakas suuntautuminen pois komentopohjaisista
käyttöliittymistä. Alueella on kuitenkin tehty jonkin verran tutkimusta. Tarkastelen
tässä neljää lähestymistapaa, jotka hyödyntävät puhetta luonnollisen kielen yhteydes-
sä, komentopohjaisena, multimodaalisen käyttöliittymän osana sekä avustavana
kommunikointimenetelmänä.
Karlgren kollegoineen [1995] on tutkinut luonnollisen kielen käyttöä virtuaaliympä-
ristöissä. He ovat ottaneet lähestymistavaksi sen, että puhuttu luonnollinen kieli so-
veltuu hyvin sellaisten asioiden ilmaisemiseen, joita on vaikeaa tai jopa mahdotonta
ilmaista muilla menetelmillä (ks. kohta 3.1.4). Karlgrenin ja kumppaneiden tutkimuk-
sessa esiintyy kaksi puheen käyttöön liittyvää tärkeää näkökulmaa: puhemetaforan
muodostuminen eli kenelle puhe on suunnattu ja puheessa esiintyvien viittausten sel-
vittämisen vaikeus.
Puhemetaforissa vastaanottaja voidaan kuvitella virtuaaliminäksi, maailmaksi, juma-
laksi, objektiksi tai agentiksi. Mikäli käskyjen vastaanottaja on maailma, käyttäjä ole-
tetaan eräänlaiseksi jumalolennoksi. Jumala-metaforassa vastaanottajaa taas pyyde-
tään toteuttamaan annetut komennot. Agentti puolestaan on käyttäjää palveleva hen-
kilö, joka toteuttaa käyttäjän antamia komentoja. Karlgren ja kumppanit ottivat lähtö-
kohdaksi agenttimetaforan; itse näkisin objektilähtöisen näkökohdan paremmaksi,
koska agenttimetaforaan liittyy merkittäviä ongelmia, kuten komentojen epäsuoruus.
Komentopohjaisen puheen osalta puhemetafora ei ole kovinkaan merkittävä, mutta
mitä enemmän lähestytään luonnollista puhekieltä, sitä tärkeämmäksi tämä asia muo-
dostuu. Jatkotutkimuksissa puhemetaforan valintaan tuleekin kiinnittää huomiota.
Jälkimmäinen Karlgrenin ja kollegoiden esille ottama näkökohta, puheeseen sisältyvi-
en viittausten (esim. ”siirrä se tuonne”) selvittäminen, onkin yksi merkittävimmistä
kysymyksistä luonnollista kieltä käyttävissä liittymissä. Ongelmia tuottaa mm. objek-
tien nimeäminen, mikä on erityisen vaikeaa abstraktien maailmojen yhteydessä. Käy-
tettävän kielen on kuitenkin todettu olevan melko hyvin hallittavissa: Goderéauxin ja
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 43
kumppaneiden [1996] hyvin samankaltaisessa kontekstissa suorittamassa tutkimukses-
sa havaittiin, että yksittäisten sanojen osuus kommunikoinnissa oli 45% ja negaatio-
lauseita käytettiin ainoastaan 2%:ssa tapauksista. Käytännössä viittausten selvittämi-
seen kannattaa käyttää simuloitua koetta, jonka avulla viittauksia pystytään selvittä-
mään ilman työlästä prototyypin rakentamista.
Vaikka jotkut tutkijat näkevätkin perinteiset kaksiulotteiset menetelmät, kuten valikot,
soveltumattomiksi kolmiulotteisiin käyttöliittymiin, uskotaan näiden käytölle löyty-
vän perusteltuja tilanteita. Puheen on nähty mm. soveltuvan hyvin perinteisten ko-
mentopohjaisten tehtävien ohjaukseen kolmiulotteisten käyttöliittymien yhteydessä.
Useita vapausasteita suoraan kontrolloivien laitteiden on todettu olevan huonoja kak-
siulotteisissa tehtävissä, eikä vaihtaminen erilaisten laitteiden välillä olisi aina kovin-
kaan tehokasta [Hinckley et al., 1994].
Darkenin [1994] esittämä puheohjattu valikkojärjestelmä on hyvä esimerkki puheen
hyödyntämisestä tilanteessa, jossa yhdistetään kaksi- ja kolmiulotteista käyttöliitty-
mää. Perusideana on tarjota menetelmä niihin tilanteisiin, joissa tarvitaan tarkkoja,
diskreettejä syötteitä. Kontekstisidonnaiset, hierarkkiset menut toimivat käyttäjän ja
virtuaalimaailman välissä. Ne antavat tarvittavan informaation toimenpiteiden suorit-
tamiseen ja aiheuttavat mahdollisimman vähän ylimääräistä kuormitusta. Menetelmä
mahdollistaa syötteiden antamisen ilman käsien käyttöä ja perinteisiä kaksiulotteisten
käyttöliittymäkomponenttien ja kolmiulotteisten virtuaalimaailmojen yhdistämisen
ongelmia. Se onkin malliesimerkki tehtävän dimensioiden ja syötteidenantomenetel-
män dimensioiden kohtaamisesta.
Multimodaaliset käyttöliittymät ovat alue, jossa puheesta uskotaan olevan erityisesti
hyötyä. Varsinkin kannettavat henkilökohtaiset tietokoneet muodostavat kohteen, jos-
sa käyttäjä hyötyy multimodaalisesta syötteestä. Lähestymistapaa on tutkittu mm. so-
tilaskäytön sovelluksissa [Pittman et al., 1997] sekä erilaisissa muissa simulaatioissa.
Nämä eivät kuitenkaan sisällä puhesyötteitä varsinaisiin kolmiulotteisiin toimintoihin.
Tämän asian suhteen tutkimuskentässä onkin selvä aukko, jota tämä tutkimus pyrkii
osaltaan selvittämään.
Paitsi vuorovaikutukseen virtuaalisen kolmiulotteisen maailman kanssa, voidaan pu-
heentunnistusta käyttää hyväksi myös avustavassa kommunikoinnissa reaalimaailman
kolmiulotteisissa tehtävissä [Kazi et al., 1995]. Tulevaisuuden käyttöliittymien tulisikin
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 4 – 3D-KÄYTTÖLIITTYMÄT
Sivu 44
ottaa huomioon myös nämä usein unohdetut käyttäjäryhmät, joihin kuuluvat esim.
erilaiset vammaiset ja lukutaidottomat [Herndon et al., 1994]. Uskon, että osa virtuaali-
maailmassa suoritettavien tutkimuksien tuloksista on siirrettävissä myös reaalimaail-
man kommunikointiin.
4.7 Lopuksi
Kolmiulotteisessa maailmassa tapahtuvaan vuorovaikutukseen ei ole vielä onnistuttu
löytämään yhtä hyviä menetelmiä kuin mitä kaksiulotteisiin työpöytäympäristöihin on
kehitetty. Usein ratkaisuina esitetään käyttöliittymäkomponentteja, joiden hallitsemi-
nen vaatii tarkkaa motorista kontrollointia. Tämä ei ole mahdollista kaikissa tilanteis-
sa eikä kaikille henkilöille. Puhe on merkittävä kommunikointiväline vaihtoehtoisena
syötteidenantomenetelmänä, sillä se soveltuu tehtäviin, joissa kädet eivät ole lainkaan
käytettävissä. Vaikka toiminta ei olisikaan tällöin maksimaalisen tehokasta, puhe
kuitenkin mahdollistaa kolmiulotteisen käyttöliittymän hallitsemisen.
Puhetta on tutkittu tähän asti kolmiulotteisten käyttöliittymien yhteydessä lähinnä
luonnollisen kielen näkökulmasta ja täydentävänä modaliteettina. Perusvuorovaiku-
tuksen yhteydessä puheohjausta ei sen sijaan ole juurikaan tutkittu. Näen kuitenkin
tarpeelliseksi myös perusvuorovaikutuksen tutkimisen, sillä tämä luo pohjan kor-
keamman tason toiminnallisuuden kehittämiseen ja mahdollistaa virtuaalimaailmojen
hallitsemisen myös silloin, kun edistyneemmät menetelmät eivät toimi. Esimerkiksi
multimodaalisten käyttöliittymien yhteydessä on tärkeää mahdollistaa kommunikointi
myös pelkästään yhtä modaliteettia käyttäen.
Seuraavassa luvussa esitetään puheohjattu VRML-selain, joka rakennettiin puheen
peruskäytön tutkimiseksi ja jatkotutkimusten koealustaksi. Selain on tässä vaiheessa
vielä hyvin yksinkertainen, mutta sitä on tarkoitus kehittää käyttäjätestien pohjalta.
Selaimella suoritetut käyttäjätestit muodostavatkin merkittävän osan tätä tutkimusta,
samoin kuin jatkokehityksen osalta esitetyt tutkimusideat. Lopullisena tavoitteena on
luoda puhetta monipuolisesti hyödyntävä menetelmä virtuaalisten maailmojen täysi-
mittaiseen hallitsemiseen.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 5 – PUHEOHJATTU SELAIN
Sivu 45
5 PUHEOHJATTU SELAIN
Puheohjauksen tutkimiseksi kolmiulotteisten käyttöliittymien yhteydessä rakennettiin
puheohjattu virtuaalimaailmojen selain. Prototyyppi konstruoitiin liittämällä puheen-
tunnistusjärjestelmä VRML 2.0-selaimeen. Kokoonpanon avulla suoritettiin käyttäjä-
testejä, joilla haluttiin selvittää puheohjauksen mahdollisuuksia ja ongelmia kolmi-
ulotteisissa käyttöliittymissä. Näiden pohjalta hahmotellaan kehittyneempää toimin-
nallisuutta virtuaalimaailmojen hallintaan.
Esitän tässä puheohjatun selaimen rakenteen ja toteutuksen siinä laajuudessa kuin se
on tarpeellista jatkon kannalta. Ensimmäiseksi selvitetään suunnittelun lähtökohtia.
Pääosa luvusta kohdistuu selaimen toiminnallisuuden kuvaukseen. Toteutuksen kan-
nalta tarkastellaan käytettyjä välineitä sekä toteutusprosessia. Lopuksi esitetään joita-
kin toteutukseen liittyviä huomioita.
5.1 Lähtökohdat
Koska käyttäjätesteissä haluttiin tutkia puheen soveltuvuutta kolmiulotteisten käyttö-
liittymien hallintaan pelkistetyissä olosuhteissa, lähdettiin toteutuksessa siitä, että
käyttäjän tulisi olla mahdollista hallita virtuaalimaailmaa täysin puheohjausta käyttä-
en. Tällä asetelmalla haluttiin saada ensinnäkin perustietoa siitä, kuinka puheohjaus
soveltuu kolmiulotteisen käyttöliittymän täysivaltaiseen hallintaan. Toisekseen näin
pystyttiin havainnoimaan puheen vahvoja ja heikkoja puolia multimodaalisia ratkai-
suja silmällä pitäen.
Selaimelle soveltuvimmiksi käyttökohteiksi ajateltiin erilaisia informaatiopalveluita,
joissa käyttäjän ensisijaisena tarkoituksena on saada käsitys esitetystä virtuaaliympä-
ristöstä ja siinä olevista objekteista. Varsinaista objektien manipulointia pidettiin vä-
hemmän tärkeänä toiminnallisuutena.
Tutkimalla käytetyn puheentunnistusjärjestelmän (ks. kohta 5.3) suorituskykyä ha-
vaittiin, että virhetasojen pitäminen kohtuullisella tasolla eli alle kymmenessä prosen-
tissa edellyttää, ettei komentovalikoima ylittäisi kymmentä komentoa. Lisäksi halut-
tiin minimoida komentojen muistamiseen liittyvät ongelmat (ks. kohta 3.4). Käytän-
nössä komentovalikoima mahdollistaisi ainoastaan hyvin suppean toiminnallisuuden,
jolla tulisi selviytyä useimmissa tilanteissa.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 5 – PUHEOHJATTU SELAIN
Sivu 46
Koska selaimen tärkeimmäksi kohteeksi määritettiin virtuaalimaailman havainnoimi-
nen, tulisi myös käytettävän komentovalikoiman tukea tätä päämäärää. Erilaisista
kohdassa 4.1 esitetyistä kolmiulotteisen maailman toimenpiteistä tärkeimmäksi kat-
sottiin liikkuminen, sillä se tukee parhaiten maailman havainnointia ja on yksinkertai-
sinta toteuttaa. Lisäksi haluttiin, että toimintovalikoima tukisi jollain tapaa myös ob-
jektien tarkastelua, sillä usein maailma koostuu ainoastaan yhdestä varsinaisesta koh-
teesta.
5.2 Toiminnallisuus
Toiminnallisuuden kannalta tärkeitä seikkoja ovat toimintojen määrittäminen, liikkeen
kontrollointi, näistä muodostuva metafora sekä toimintojen esittäminen komentoina.
5.2.1 Toimintojen määrittäminen
Liikkuminen on pohjimmiltaan näkökulman eli kameran paikan manipulointia, joten
siitä voidaan erottaa kuusi erilaista perusoperaatiota vapausasteiden mukaisesti. Pe-
rusliikkumiseen valittiin suuntaan pohjautuva liikkeen kontrollointi (ks. 4.4.3) eli ka-
meran siirto pääakseleiden mukaisesti. Käytännössä tämä tarkoittaa sitä, että liikutta-
essa horisontaalisesti vaikutetaan katsojan paikkaan x-koordinaatin mukaisesti, verti-
kaalisesti y-koordinaatin mukaisesti ja syvyyssuunnassa z-koordinaatin mukaisesti.
Suora katselupaikan liikuttaminen ei ole tehokkain mahdollinen menetelmä kaikkiin
tilanteisiin, mutta se tarjoaa yleispätevän ratkaisun, joka sopii kaikkiin tilanteisiin se-
kä kolmi- että kaksiulotteisessa liikkumisessa. Tätä voidaan pitää tärkeänä seikkana,
sillä osa varsinkin informaation visualisointiin tarkoitetusta materiaalista on luonteel-
taan ”2 ½-ulotteista” eli yhdistää useita kaksiulotteisia näkymiä samaan kolmiulottei-
seen tilaan [Koike, 1993]. Kohteen mukainen liikkuminen olisi erittäin hyvä lisä täy-
dentämään suuntaan pohjautuvaa liikkumista. Ainoana menetelmänä kohteen mukai-
nen liikkuminen ei sen sijaan ole riittävä [Mackinlay et al., 1990].
Koska perusliikkuminen päätettiin toteuttaa suoraviivaisesti katsojan paikan siirtämi-
senä, olisi ollut luonnollista tarjota vastaavankaltaiset kääntymisoperaatiot orientaati-
on muutoksille. Tämä olisi vastannut mallia, jossa käyttäjä manipuloi kameran asen-
toa sen pysyessä paikallaan. Tällä lähestymistavalla on kuitenkin ongelmansa: se ei
tue maailmassa olevien objektien tarkastelua lainkaan, vaan esim. halutessaan nähdä
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 5 – PUHEOHJATTU SELAIN
Sivu 47
edessään olevan kohteen takaapäin käyttäjän olisi sekä siirryttävä kohteen taakse että
muutettava orientaatiotansa 180 astetta.
Tutkimalla eri selaimissa esiintyviä vuorovaikutusmenetelmiä havaittiin, että kohteen
tarkastelu hoidetaan useimmissa tapauksissa liikkumalla kohteen ympärillä siten, että
etäisyys ja fokus kohteeseen säilyvät. Tämä saavutetaan muuttamalla tarkkailupisteen
paikkaa kahden koordinaatin mukaisesti ja orientaatiota yhden koordinaatin mukai-
sesti. Reaalimaailman vastaavuus olisi esimerkiksi näyttelyesineen ympärillä kiertävä
katselija. Käyttäjän kannalta sama päämäärä saavutettaisiin muuttamalla kappaleen
orientaatiota eli kysymys on tällöin kohdassa 4.4.2 esitetyn terminologian mukaisesti
”kamera kädessä” ja ”maailma kädessä”- metaforien välisestä erosta.
5.2.2 Liikkeiden kontrollointi
Toiminnallisuuden osalta oli päätettävä liikkeiden nopeuden ja keston kontrolloinnis-
ta. Nopeuden kannalta paras mahdollinen vaihtoehto olisi automaattinen kontrollointi,
koska jatkuva kontrollointi on käytännössä liian vaikeaa puheen luonteesta johtuen.
Parametrisoitu nopeuden kontrollointi eli nopeuden ilmaiseminen määreen avulla taas
on vaikeaa, koska se edellyttää eri parametrien vaikutusten hyvää tuntemusta. Koska
automaattinen nopeuden kontrollointi vaatisi kontekstin huomioonottamista, tässä
prototyypissä tyydyttiin vakionopeuksiseen liikkumiseen. Erilaisia vaihtoehtoja tilan-
teen parantamiseen kartoitettiin käyttäjätestien aikana: näitä on esitetty kohdassa
7.5.2.
Liikkeiden keston kontrolloinnin osalta toteutettiin mahdollisista vaihtoehdoista (ks.
kohta 4.4.3) kaksi, vakioliike sekä aloittamis- ja lopettamiskomentoihin perustuva lii-
ke. Nämä olivat soveltuvimpia vaihtoehtoja, sillä jatkuva kontrollointi on käytännössä
mahdotonta puheohjauksella toteutettavaksi eikä automatiikan käyttäminen ollut rea-
listista tämän projektin puitteissa. Vakioliikkeestä toteutettiin kaksi variaatiota, vakio-
nopeuksinen liike sekä tapa, jossa nopeus on asetettu äärettömäksi eli liike on
diskreetti siirtymä lähtöpisteestä maalipisteeseen. Aloittamis- ja lopettamiskomentoi-
hin perustuvassa liikkumisessa liikkeen lopettaa pysähtymiskomento ”cut”.
Perustilassa sallittiin vain yksi liike kerrallaan. Kokeiluja varten toteutettiin tila, jossa
komentojen vaikutukset yhdistettiin, jolloin oli mahdollista saada aikaan jopa viiden
liikkeen kombinaatio. Tämän tilan hyödyntäminen tuottikin mielenkiintoisia tuloksia,
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 5 – PUHEOHJATTU SELAIN
Sivu 48
sillä sen nähtiin mm. parantavan käyttäjän osallistumisen tunnetta (ks. kohta 7.5.1).
Lisäksi sallittiin mahdollisuus uuden korvaavan komennon antamiseen ennen edelli-
sen komennon vaikutuksen loppumista. Jatkon kannalta on hyödyllistä tutkia erilaisia
lähestymistapoja komentojen suorittamiseen, sillä käyttäjätestien perusteella näillä on
merkittävä vaikutus varsinkin käyttäjien tyytyväisyyteen.
5.2.3 Metafora
Vuorovaikutukseen liittyy olennaisesti matalan tason vuorovaikutusmetaforan valinta:
halutaanko komentojen vaikutukset toteutettavan ”kamera kädessä” vai ”maailma kä-
dessä” näkökulmasta käsin. Kuten kohdassa 4.4.2 todettiin, kumpikaan näistä metafo-
rista ei sovellu kaikkiin tilanteisiin. ”Kamera kädessä” metafora valittiin, koska sen
nähtiin tukevan paremmin maailmassa liikkumista. ”Kamera kädessä” metafora on
lisäksi aloittelijoille helpommin opittava [Ware & Osborne, 1990].
Kokonaisuutena liikkumis- ja kääntymistoiminnoista syntyy metafora, jossa käyttäjä
liikkuu virtuaalisessa tilassa ohjaten itseään ajoneuvolla, joka ei edellytä katsomis-
kulman vaihtumista liikkumisen aikana. Mahdollisia tulkintoja on muitakin, eräs
niistä on täydellinen ulkoistaminen maailman suhteen eli käyttäjä myös ajattelee lii-
kuttavansa virtuaalista kameraa kolmiulotteisessa avaruudessa. Objekteja tarkastelta-
essa on luonnollinen tulkinta jo edellä mainittu kiertely objektin ympärillä.
Aikaisemmissa tutkimuksissa ohjausmetaforia on tarkasteltu sellaisten syöttölaitteiden
yhteydessä, jotka perustuvat käsien käyttöön. Tällöin esim. kinestinen palaute toimii
metaforaa tukevana tekijä. Puhetta käytettäessä ollaan pelkästään (audio)visuaalisen
informaation varassa. Metaforaa tukemaan lisättiin selaimeen kohdistin. Kohdistin
toteutettiin läpinäkyvänä suorakulmiona keskelle kuvaruutua. Tämän toivottiin autta-
van käyttäjää metaforan omaksumisessa, sillä kohdistin tarjoaa kiintopisteen, jonka
käyttäjä voi hahmottaa joko omana paikkanaan tai maailmassa liikuteltavana objekti-
na. Käyttäjätesteissä kuitenkin havaittiin, ettei tämä keino yksinään ole riittävä.
5.2.4 Toimintojen esittäminen komentoina
Toiminnallisuus täytyy realisoida komennoiksi. Komennot haluttiin pitää mahdolli-
simman luonnollisina metaforan kannalta, mutta kuitenkin selkeästi toisistaan erotet-
tavina puheentunnistusjärjestelmän näkökulmasta. Nämä kaksi tavoitetta ajautuivatkin
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 5 – PUHEOHJATTU SELAIN
Sivu 49
pian ristiriitaan: sellaisen komentovalikoiman löytäminen, joka olisi tukenut hyvin
sekä käytettävää metaforaa että puheentunnistuksen luotettavuutta ei ollut helppoa.
Komentojen kokeileminen oli erittäin vaivalloista, sillä yhden komennon muuttami-
nen vaikutti koko järjestelmän tunnistuskykyyn. Tästä vaiheesta muodostuikin pitkäl-
linen iteratiivinen prosessi.
Perusliikkumiskomentojen osalta selkein ratkaisu oli käyttää yksisanaisia, suuntaa
osoittavia komentoja. Tunnistuksen kannalta havaittiin parhaiten soveltuviksi ilman-
suuntien nimien käyttäminen horisontaaliseen (”east”, ” west”) ja vertikaaliseen
(”north”, ” south”) liikkeeseen ja ”closer” sekä ”away” sanojen käyttäminen syvyys-
suunnassa tapahtuvaan liikkumiseen. Kuva 5-1 esittää liikkumiskomentojen vaikutuk-
sia.
\�
[�
DZD\
]�
FORVHU
]�
HDVW [�
QRUWKVRXWK
\�
ZHVW
Kuva 5-1: Liikkumiskomentojen vaikutukset.
Kääntymistoimintojen osalta komentosanojen valinta ei ollut kovinkaan selkeää: eri
vaihtoehtoja kokeiltaessa päädyttiin lopulta käyttämään liikkumiseen tarkoitettuja
komentoja, joiden eteen oli liitetty sana ”turn”. Tämän voidaan nähdä viittaavan sekä
käyttäjän kääntymiseen maailman suhteen että objektin kääntämiseen sitä tarkastelta-
essa. Malli toimiikin hyvin xz- ja yz-tasojen kanssa eli kierrettäessä kohteen ympäri
vaakatasossa ja vertikaalisesti; ongelmallista on sen sijaan xy- eli kuvaruudun tasossa
tapahtuva operointi: tähän käytettävät z-akselin liikkumiskomennot (”closer”,
”away”) yhdistettynä kääntymistä ilmaisevaan ”turn”-komentoon eivät muodosta
mielekästä yhdistelmää.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 5 – PUHEOHJATTU SELAIN
Sivu 50
Ratkaisuna xy-tason orientointiongelmaan olisi ollut kokonaan erilaisten komentojen
käyttäminen. Tämä olisi kuitenkin aiheuttanut ongelmia puheentunnistuksen kanssa,
joten xy-tason mukainen orientointi jätettiin kokonaan toteuttamatta. Käytännössä tä-
mä onkin vähiten käytetty toiminto useimmissa tilanteissa. On myös mahdollista saa-
da xy-tason mukainen orientointi aikaan yhdistämällä xz- ja yz-tasojen liikkeitä, jos-
kaan tämä ei ole kovinkaan luonnollista ja vaatii aivan liikaa työtä ja kolmiulotteista
ajattelukykyä. Kohdassa 7.5.5 on esitetty ratkaisuja ongelmaan jatkokehitystä silmäl-
läpitäen.
[�
]�
\�
[�
]�
\]�WDVR
[�
\�
]�
\�
]�
�D� �E�
Kuva 5-2: Kääntymiskomentojen tasoesitykset.
[�
]�
[�
]�
]�
\�
]�
\�
7XUQ�HDVW
7XUQ�ZHVW
7XUQ�QRUWK
7XUQ�VRXWK
Kuva 5-3: Kääntymiskomentojen vaikutukset.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 5 – PUHEOHJATTU SELAIN
Sivu 51
Kuva 5-2 esittää muodostuneiden kääntymistoimintojen liikeratoja. Kohdassa (a) on
kysymyksessä xz-tasolla tapahtuva liikkuminen ja y-akselin mukainen orientointi eli
”turn west” ja ”turn east”-komennoilla aikaansaatu toiminnallisuus. Kohdassa (b) on
vastaavasti yz-tasolla liikkuminen ja x-akselin mukainen orientointi eli ”turn north” ja
”turn south”-komentojen vaikutus. Kuvassa 5-3 on esitettynä kääntymiskomentojen
vaikutukset esimerkkitapauksessa.
5.3 Konstruointiin käytetyt välineet
Prototyyppi toteutettiin Sun Solaris 2.5.1-ympäristössä 200 Mhz UltraSparc 2-
työasemalla. Koneeseen oli liitettynä 21 tuuman värimonitori ja laitteiston mukana
toimitettava perusmikrofoni. Koneessa oli lisäksi kolmiulotteisen grafiikan kiihdytin.
Sovelluksen pohjana käytettiin vapaasti saatavilla olevaa VRwave VRML 2.0-selainta
[Andrews et al., 1998]. Ensin selaimesta käytettiin versiota 0.7.8 ja myöhemmin siirryt-
tiin versioon 0.8. VRwave pohjautuu toiminnallisuuden osalta VRML 1.0-kielelle tar-
koitettuun VRweb-selaimeen [Pichler et al., 1995]. Selain valittiin, koska se oli ainoa va-
paasti levitettävä VRML 2.0-selain, josta oli saatavilla myös lähdekoodi. Lisäksi se-
lain tuki OpenGL–rajapintaa, mikä mahdollisti grafiikkakiihdyttimen hyödyntämisen.
Puheentunnistukseen käytettiin grapHvite-järjestelmää [Entropic, 1998], puhesovellus-
ten konstruointiin tarkoitettua ohjelmistopakettia. GrapHvite sisältää ohjelmointiraja-
pinnan Java-kielelle, minkä ansiosta puheentunnistuksen liittäminen Java-kielellä to-
teutettuun VRwave-selaimeen oli suoraviivaista. Lisäksi paketti sisältää sanaston ja
kieliopin määrittelyyn tarkoitetun graafisen apuohjelman, mikä helpotti huomattavasti
sanaston määrittelyvaihetta.
Teknisiltä ominaisuuksiltaan grapHvite ei ollut kaikkein parhaiten soveltuva ratkaisu.
Järjestelmä on puhujasta riippumaton, jatkuvaa puhetta tunnistava, rajoitettua kieliop-
pia käyttävä ja tarkoitettu keskisuuren sanavaraston omaaviin sovelluksiin. Ihannerat-
kaisu olisi ollut puhujaan mukautuva, pienen sanavaraston omaava ja yksittäisiä sa-
noja puheesta erottava järjestelmä. Käytännössä tällaista järjestelmää ei kuitenkaan
ollut saatavilla, joten kokonaisuuden huomioon ottaen grapHvite oli paras mahdolli-
nen kompromissi.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 5 – PUHEOHJATTU SELAIN
Sivu 52
5.4 Selaimen toteutus
Puheentunnistus pyrittiin liittämään selaimeen mahdollisimman itsenäisenä kompo-
nenttina. Kaikkein paras ratkaisu olisi ollut selaimen ohjaaminen EAI-rajapintaa [Mar-
rin, 1997] käyttäen. Valitettavasti VRwave ei tukenut vielä tuossa vaiheessa EAI:ta.
Käytännössä jouduttiin turvautumaan lähdekoodin muokkaamiseen.
Huolimatta ad-hoc-ratkaisuun ajautumisesta suunniteltiin puhesyötteiden käsittelyä
ohjaava komponentti mahdollisimman selainriippumattomaksi. Tavoitteeseen pääs-
tiinkin, sillä kokeiluluonteisesti Liquid Reality -selaimeen [Microsoft, 1998] liitettäessä
puhekomponenttiin tarvittiin ainoastaan muutaman lähdekoodirivin muutos. Uskon-
kin, että ratkaisu mahdollistaa puheohjauksen liittämisen suurimpaan osaan VRML–
selaimia hyvin vähäisellä työllä.
Kuvassa 5-4 näkyy puhekomponentin yleisrakenne sekä yhteys VRML-selaimeen ja
puheentunnistusjärjestelmään. Toimintojen jakaminen loogisiin osiin mahdollistaa
erilaisten ratkaisujen kokeilemisen muita osia muuttamatta. Asetustiedostoilla mah-
dollistetaan erilaiset käyttäjäprofiilit ja ajonaikaisilla parametreilla voidaan vaikuttaa
mm. tunnistuskynnyksiin ja vaihtaa komentojen vaikutuksia.
VRML-selainVRML-selain
Asetukset(tiedosto)
Asetukset(tiedosto)
Ajonaikaisetparametrit
(GUI)
Ajonaikaisetparametrit
(GUI)
PuheentunnistusjärjestelmäPuheentunnistusjärjestelmä
Puheentunnistuksenohjaus ja syötteiden
käsittely
Puheentunnistuksenohjaus ja syötteiden
käsittely
Komentojenmuuntaminentoiminnoiksi
Komentojenmuuntaminentoiminnoiksi
Toimintojen muuntaminenselainkohtaisiksi
Toimintojen muuntaminenselainkohtaisiksi
= informaation välityssuunta
= toiminnan säätely
= ulkopuoliset komponentit
= järjestelmän moduulit
Kuva 5-4: Sovelluksen yleisrakenne.
Toteutuksessa kiinnitettiin erityisesti huomiota tunnistuksen nopeuteen. Ihmisen on
todettu olevan herkkä viiveille, erityisesti virtuaalitodellisuuden yhteydessä [Wloka,
1995]. Koska tämän tekijän aiheuttamista vaikutuksista haluttiin päästä eroon, asetet-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 5 – PUHEOHJATTU SELAIN
Sivu 53
tiin tavoitteeksi viiveiden minimointi. Tämä johti käytännössä kompromisseihin, joi-
den seurauksena tunnistustarkkuus kärsi hieman joissakin tapauksissa. Keskimääräi-
nen viive saatiin kuitenkin lyhennettyä kymmenysosiin siitä, mitä se oli ilman opti-
mointia. Käytännössä tämä tarkoitti yli sekunnin mittaisten viiveiden lyhenemistä se-
kunnin kymmenysosiin.
Viiveiden lyhentämistä lähestyttiin useilta suunnilta. Paras tulos saavutettiin, kun pu-
heentunnistusprosessi katkaistiin ennen sen varsinaista loppumista. Tällä oli kahden-
laisia sivuvaikutuksia: havaittiin, että joskus annettu komento tulkittiin aluksi väärin,
mutta järjestelmä antoi hetken päästä oikean vastauksen. Katkaisemalla tunnistuspro-
sessi ensimmäiseen vastaukseen päädyttiin väärään tulkintaan. Nämä tapaukset olivat
kuitenkin harvinaisia. Toinen sivuvaikutus oli se, että komento saatettiin tulkita jo en-
nen sen loppumista. Tämäkin tapaus oli melko harvinainen.
Tunnistusvirheiden vähentämiseksi sovellukseen lisättiin yksinkertainen tunnistus-
kynnyksiin perustuva karsintamenetelmä. Tunnistuskynnys on arvo, jonka alittavia
tunnistusarvoja ei hyväksytä oikeellisiksi komennoiksi. Tunnistusarvo on puolestaan
komentoon liittyvä pisteytys, joka kertoo, kuinka varma järjestelmä on antamastaan
vastauksesta. Tunnistuskynnysten asettaminen tapahtui käyttäjäkohtaisesti.
5.5 Huomiota toteutuksesta
Ennakkoon oli selvää, että puheen käyttäminen on ongelmallista joissakin tilanteissa.
Puhe ei ole erityisen hyvä menetelmä esimerkiksi tarkkuutta vaativaan liikkeen ohja-
ukseen [Buskirk & LaLomia, 1995]. Ideaalisesti puhe tulisi varata sellaisiin toimintoihin,
joihin se soveltuu parhaiten. Näitä ovat esimerkiksi valikkoja ja näppäinoikoteitä kor-
vaavat komennot [Leatherby & Pausch, 1992]. Tämän tutkimuksen kannalta oli kuitenkin
oleellista tutkia myös niitä puheen käytöstä aiheutuvia ongelmia, joita tulee esille pu-
heelle epäedullisissa olosuhteissa.
Puheohjatun selaimen kehittämisessä jouduttiinkin tekemään runsaasti kompromisseja
sekä käsitteellisellä että teknisellä tasolla. On selvää, että toteutettu prototyyppi ei sovi
kaikkien kolmiulotteisten virtuaaliympäristöjen tutkimiseen, merkittävimpinä näistä
reaalimaailmaa muistuttavat ympäristöt. Kuitenkin toteutuksen uskottiin palvelevan
melko hyvin tämän tutkimuksen päätarkoitusta, kolmiulotteisissa ympäristöissä ta-
pahtuvan vuorovaikutuksen tutkimista ja edelleenkehittämistä.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT
Sivu 54
6 KÄYTTÄJÄTESTIT
Edellisessä luvussa esitetyllä selaimella suoritettiin kuusitoista käyttäjätestiä. Käyttä-
jätestien avulla etsittiin erityisesti ongelmia, joita puheohjauksessa voi ilmetä. Testien
yksi tarkoitus oli myös käyttäjien tuominen osaksi kehitystyötä. Saatujen havaintojen
ja käyttäjien kommenttien pohjalta on tarkoitus muodostaa kehittyneempi malli puhe-
ohjauksen toteuttamiseen.
Tässä luvussa on kuvattu käyttäjätestien tarkoitus, olosuhteet, koehenkilöt, havainto-
jen tallentaminen sekä ensivaikutelmien keruu ja alustavat testit. Testeistä on kuvattu
tehtävät, käyttäjille esitetyt kysymykset, suoritus sekä analysointimenetelmät. Lopuksi
esitetään joitakin tärkeimpiä huomioita testeistä ja koejärjestelyistä.
6.1 Testien tarkoitus
Käyttäjätestien tarkoituksena oli kerätä tietoa komentoluonteisen puheen soveltuvuu-
desta kolmiulotteisen käyttöliittymän hallintaan ainoana syötemodaliteettina. Erityi-
sesti pyrittiin kartoittamaan sekä tilanteita, jotka olisivat puheelle otollisia että puheen
ongelmakohtia. Näitä tietoja voitaisiin soveltaa paitsi virheenkorjauksessa niin myös
multimodaalisten käyttöliittymien yhteydessä.
Puheohjausta haluttiin tutkia mahdollisimman pelkistetyissä olosuhteissa. Tämä tar-
koittaa käytännössä sitä, että tilanteet pidettiin hyvin yksinkertaisina käyttäen pieniä,
harvoja ja staattisia maailmoja (ks. kohta 4.3). Virheenkorjausmekanismeja ei ollut
yksinkertaista tunnistusarvojen suodatusta lukuunottamatta lainkaan. Tämä ratkaisu
mahdollistaa perusmateriaalin hankkimisen, mikä on tärkeää korkeamman tasoisen
toiminnan kehittämiselle.
Ensisijaisesti pyrittiin kartoittamaan erilaisia virhetilanteita ja analysoimaan virheiden
syitä. Tunnistusvirheiden lisäksi tutkittiin semanttisia virheitä, jotka aiheutuivat pää-
asiassa kolmiulotteisen maailman hahmottamisesta ja ohjaukseen käytetystä metafo-
rasta. Tärkeänä tekijänä tässä prosessissa oli käyttäjien haastatteleminen. Haastatte-
luilla pyrittiin saamaan esiin paitsi virheiden syitä myös niiden vaikutuksia käyttäjien
tyytyväisyyteen.
Selaimen toiminnallisuuden tarkastelun ohella pidettiin tärkeänä jatkokehitykseen tar-
vittavien ideoiden keräämistä. Koekäyttäjät esittivätkin useita kallisarvoisia mielipi-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT
Sivu 55
teitä ja ehdotuksia toiminnallisuuden lisäämiseksi ja parantamiseksi. Tällainen käyt-
täjälähtöinen suunnittelu onkin erittäin tärkeä näkökohta puhekäyttöliittymien yhtey-
dessä yleisten suunnitteluperiaatteiden puuttuessa.
6.2 Testiolosuhteet
Käyttäjätestit suoritettiin Digitaalisen Median Instituutissa Tampereella. Testitilana
toimivassa työhuoneessa (kuva 6-1 vasemmalla) oli neljä tietokonetta, joista lähti jon-
kin verran enemmän taustamelua kuin mitä normaalissa yhden käyttäjän työase-
maympäristössä tavallisesti on. Sekä kehitystyö että käyttäjätestit suoritettiin samassa
ympäristössä. Tällä ratkaisulla vältyttiin ylimääräisiltä ongelmilta, joita kehitys ja
testaus eri ympäristössä olisi saattanut aiheuttaa.
Puhesyötteiden välittämiseen käytettiin halpaa Sound Blaster –merkkistä mikrofonia,
joka on tyypillinen kotimikron peruslisälaite (kuva 6-1 oikealla). Mikrofoni ei ole
taustahälyä vaimentava. Mikrofoni sijoitettiin pöydälle monitorin eteen osoittamaan
suoraan käyttäjää kohden. Tämä ratkaisu mahdollisti luonnollisen käyttötilanteen eikä
vaatinut käyttäjältä erityistoimenpiteitä. Päähän asetettavan mikrofonin käyttäminen
olisi tehnyt tilanteesta epäluonnollisemman ja jäykän.
Kuva 6-1: Testiolosuhteet.
Kaikkiaan olosuhteet olivat hyvin lähellä luonnollista työympäristöä. Tämä seikka
erottaakin suoritetut testit useista muista puhesovellusten evaluoinneista, jotka yleensä
tehdään laboratorio-olosuhteissa. Olosuhdetekijöillä oli merkitystä myös testien koh-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT
Sivu 56
teena, sillä yksi kiinnostava kysymys oli tutkia, millaisia tunnistustasoja nykyteknolo-
gialla pystytään saavuttamaan aidoissa työskentelyolosuhteissa.
6.3 Koehenkilöt
Koehenkilöinä käytettiin suomenkielisiä korkeakouluopiskelijoita sekä korkeakoulu-
maailmassa työskenteleviä henkilöitä. Kaikilla koehenkilöillä oli hyvä tietokoneen
käyttötaito ja sujuva englanninkielen hallinta. Koehenkilöt olivat iältään pääosin 20-
30 vuotiaita. Miehiä kuudestatoista osallistujasta oli kolmetoista. Kolmesta naispuoli-
sesta koehenkilöstä ainoastaan yksi osallistui lopullisiin testeihin, muut kaksi olivat
alustavissa testeissä.
Kokemustasoltaan kaikki käyttäjät voidaan luokitella yleisiltä tietokoneen käyttötai-
doiltaan eksperttikäyttäjiksi ja molempien sovellusalueiden kannalta noviisikäyttäjik-
si. Perinteistä luokittelua noviisi-, kokenut- ja eksperttikäyttäjiin ei näiden testien
puitteissa pystyttykään muodostamaan.
Koehenkilöt muodostivat melko homogeenisen ryhmän. Tähän vaikutti osaltaan se,
että testihenkilöt oli etsitty pääosin läheisistä työhuoneista. Haluttiin myös, että testei-
hin osallistuvilla koehenkilöillä on jonkinasteinen perustuntemus tietokoneen käytöstä
ja hyvä kielitaito. Vaikka koehenkilöt muodostavatkin melko suppean ryhmän, en us-
ko, että tämä rajaa perushuomioiden arvoa kovinkaan merkittävästi, sillä koehenki-
löillä ei ollut tutkittavien asioiden suhteen poikkeavia taitoja tai ominaisuuksia.
6.4 Havaintojen tallentaminen
Testien analysoimiseksi oli käyttäjien toimenpiteet ja niiden vaikutukset taltioitava
siten, että tilanteet olisivat myöhemmin konstruoitavissa yksikäsitteisesti ja ajallisesti
tarkasti. Tähän oli periaatteessa kaksi lähestymistapaa: tallentaa informaatio joko jär-
jestelmän sisältä käsin tai käyttää ulkoisia audio- ja videolaitteita. Kumpikaan vaihto-
ehto ei ollut yksinään riittävä, joten testien tallentamiseen käytettiin molempia mene-
telmiä.
Digitaalisella videokameralla tallennettiin kuvaruudun tila ja käyttäjän antamat ko-
mennot. Tämä olisi ollut mahdollista tehdä suoraan työaseman audio- ja videoulostu-
loistakin, mutta videokameraa käyttämällä saatiin kuvaan mukaan hieman ympäristöä
sekä käyttäjän muita toimenpiteitä. Näiden avulla pystyttiin myöhemmin tekemään
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT
Sivu 57
päätelmiä mm. mahdollisista virheiden syistä. Lisäksi menetelmä soveltui hyvin tes-
tien yhteydessä toteutettujen haastattelujen tallentamiseen.
Sovelluksen tulosteet eli tiedot tunnistetuista komennoista tallennettiin tekstitiedos-
toon. Komennot varustettiin aikamerkinnöillä ja puheentunnistusjärjestelmän anta-
milla tunnistusarvoilla sekä tunnistustapahtumien ja tunnistettujen komentojen kes-
toilla.
6.5 Ensivaikutelmien keruu ja alustavat testit
Ennen varsinaisia käyttäjätestejä suoritettiin joukko testejä, joissa kerättiin vaikutel-
mia rakennetusta selaimesta sekä kokeiltiin erilaisia tehtäviä. Kaksi ensimmäistä is-
tuntoa keskittyivät lähinnä käsitteellisten ja teknisten ongelmien etsimiseen. Kolman-
nella ja neljännellä testikerralla tarkasteltiin muodostettujen tehtävien soveltuvuutta.
Viides testikerta koostui pilottitestistä.
Ensivaikutelmia ryhdyttiin keräämään heti, kun selain oli saatu toimintakuntoon.
Käyttäjille annettiin mahdollisuus selailla vapaasti virtuaalimaailmoissa, jotka oli etu-
käteen etsitty tietoverkosta. Tässä vaiheessa kiinnitettiin huomiota ongelmien kartoi-
tuksen ohella siihen, kuinka ohjausmalli soveltuu reaalimaailmaa muistuttavien virtu-
aalimaailmojen hallintaan.
Mielenkiintoisin havainto kahdesta ensimmäisestä testikerrasta liittyi komentosanojen
valintaan. Ensimmäisen testin aikaan käytössä oli komentosanaparit ”turn north /
south” ja ”roll east / west”. Koehenkilö koki näiden muistamisen erityisen vaikeaksi
ja käytön sekavaksi, minkä vuoksi lopputesteissä käytettiin yhtenäistä muotoa ”turn
north / south / east / west”. Myöhemmin kääntymiskomentojen kanssa ei tullut vas-
taavia ongelmia.
Kääntymiskomentoihin liittyvän havainnon perusteella voidaan olettaa, että käyttäjän
muodostama malli on samankaltainen suunnittelussa käytetyn metaforan kanssa eli x-
ja y-akselien mukainen kääntyminen oletetaan samalla tavalla suoritettaviksi toimin-
noiksi. Tällöin erityylisten komentosanojen käyttäminen rikkoo käyttäjän sisäisen
mallin ja vaikeuttaa vuorovaikutusta. Lisäksi tuli selväksi, että komentovalikoima oli
syytä pitää suppeana.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT
Sivu 58
Lisäksi havaittiin, että toimintovalikoima oli riittämätön realistisissa ympäristöissä,
kuten rakennuksissa, tapahtuvaan liikkumiseen. Kääntymismallia ei pidetty luonnolli-
sena, mikä olikin etukäteen oletettavaa. Käyttäjät eivät myöskään pitäneet diskreettiä
vakioliikettä miellyttävänä, joskin toinen testihenkilöistä kehittyi tämän käyttämisessä
tehokkaaksi. Uskonkin, että diskreettiä liikettä voidaan soveltaa menestyksellisesti
tilanteissa, joissa tarvitaan paljon yksinkertaisia, nopeita toimintoja. Esimerkiksi
CAD–sovellukset voivat olla tällainen kohde.
6.6 Tehtävät
Varsinaiset testit eli koekerrat 6-16 sisälsivät yhdeksän tehtävää, joista kolme ensim-
mäistä olivat harjoitustehtäviä. Loput tehtävät käsittelivät perusliikkumista, käänty-
mistä ja asemointia.
6.6.1 Harjoitustehtävät (1, 2 ja 3)
Kolmen ensimmäisen tehtävän tarkoituksena oli tutustuttaa koehenkilö sovellukseen,
komentovalikoimaan ja ohjausmetaforaan. Harjoitustehtävien aikana tarkkailtiin tun-
nistusarvoja ja säädettiin tarvittaessa tunnistuskynnyksiä, jotta nämä olisivat kohdal-
laan varsinaisiin testeihin siirryttäessä. Tämä aiheuttikin suurta vaihtelua osuuden pi-
tuuteen, sillä tunnistuskynnyksien hienosäätö saattoi olla pitkällinen prosessi.
Ensimmäisessä tehtävässä käyttäjälle annettiin ohjeeksi siirtää kohdistin vapaavalin-
taisessa järjestyksessä kuhunkin kuvassa 6-2 vasemmalla näkyvän maailman objek-
tiin. Puheohjauksen parametrit oli asetettu siten, että vakioliike siirsi kohdistinta aina
seuraavaan objektiin x- tai y-akselilla. Ensimmäisen tehtävän maailmaa käytettiin
myös toisessa tehtävässä, missä liikkumistyyli vaihdettiin vakioliikkeestä jatkuvaksi.
Tehtävän suoritustapa oli muutoin sama, mutta nyt käyttäjän täytyi pysäyttää liike.
Kolmannessa tehtävässä käyttäjälle esitettiin kuvassa 6-3 vasemmalla oleva maailma
ja ohjeeksi annettiin kokeilla kääntymiskomentoja kunnes käyttäjä osasi ne mielestään
riittävän hyvin ja oli samalla oppinut tuntemaan esitetyn kuution. Tehtävä suoritettiin
vakioliikkeeseen perustuvassa tilassa siten, että kääntymiskomento aiheutti 90 asteen
käännöksen objektin ympärillä. Käytännössä tämä tarkoittaa sitä, että käyttäjä näkee
kuutiosta yhden sivun kerrallaan. Kuvassa 6-3 on havainnollisuuden vuoksi esitetty
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT
Sivu 59
kääntymiseen tarkoitetut maailmat yläviistosta, tehtävissä maailmat esitettiin käyttä-
jälle aina kohtisuorassa.
Kuva 6-2: Liikkumiseen tarkoitetut testimaailmat.
6.6.2 Liikkumistehtävät (4, 8 ja 9)
Neljännen tehtävän tarkoituksena oli tutkia puhekomentojen soveltuvuutta perusliik-
kumiseen. Tehtävä suoritettiin kuvassa 6-2 oikealla näkyvässä maailmassa. Koehen-
kilön tehtävänä oli käydä niissä kohteissa, jotka kokeenjohtaja hänelle osoitti. Koe
suoritettiin aloitus- ja lopetuskomentoihin perustuvassa tilassa. Kohteita oli 20 ja ne
olivat kaikille koehenkilöille samat. Kohteet esitettiin yksi kerrallaan näyttämällä uu-
den kohteen paikka näyttöpäätteen viereen asetetulla paperilla.
Kahdeksannessa ja yhdeksännessä tehtävässä tutkittiin erilaisia liikkumismuotojen
variaatioita. Kahdeksannessa tehtävässä käyttäjän oli mahdollista antaa uusi komento
ennen edellisen vaikutuksen loppumista eli käytännössä antaa uusi komento ilman
välissä olevaa ”cut” –komentoa. Yhdeksännessä tehtävässä oli lisäksi mahdollista yh-
distää usean komennon vaikutus. Molempien toimintatapojen oletettiin lisäävän käyt-
täjän tyytyväisyyttä, mutta tuottavan enemmän virheitä.
6.6.3 Kääntymistehtävät (5 ja 6)
Viidennessä ja kuudennessa tehtävässä tutkittiin kääntymiskomentojen soveltuvuutta
ohjaukseen ja maailman hahmotuksesta aiheutuvia virheitä. Viides tehtävä suoritettiin
kuvassa 6-3 oikealla olevassa maailmassa. Maailma sisälsi kuution, jonka jokainen
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT
Sivu 60
sivu oli erivärinen. Kuutio oli rakennettu siten, että kuution ollessa kohtisuorassa kat-
sojaa vasten käyttäjä pystyi näkemään kaikkien sivujen värit samanaikaisesti. Käyttä-
jää pyydettiin siirtymään vuoronperään tietyille kuution sivuille yhteensä 20 kertaa.
Kuva 6-3: Kääntymiseen tarkoitetut maailmat.
Kuudes tehtävä oli muuten sama kuin tehtävä viisi, nyt vain käytettiin kuvassa 6-3
vasemmalla näkyvää maailmaa. Käyttäjän oli pidettävä yllä mielikuvaa asemastaan
suhteessa kuutioon suoriutuakseen annetuista tehtävistä. Tämän oletettiin vaikuttavan
huomattavasti tehtävän suoritukseen sekä lisääntyneinä virheinä että päättelemiseen
kuluvana aikana. Kuution oletettiin kuitenkin olevan perusrakenteeltaan tuttu kolman-
nesta tehtävästä.
Kuva 6-4: Esimerkki asemointitehtäviin käytetystä maailmasta.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT
Sivu 61
6.6.4 Asemointitehtävä (7)
Seitsemännessä tehtävässä tutkittiin vuorovaikutusta, joka edellyttää koko komento-
valikoiman käyttämistä. Tehtävä koostui viidestä vaiheesta. Kussakin vaiheessa käyt-
täjälle esitettiin maailma, jossa on kuutio ja pallo. Koehenkilön tehtävänä oli asemoi-
tua siten, että pallo ja kuutio olivat kohtisuorassa häntä vasten täyttäen kuvaruudun
keskellä olevan kohdistimen. Kuvassa 6-4 on vasemmalla alkutilanne ja oikealla lop-
putilanne yhdestä tehtävään käytetystä maailmasta.
6.7 Kyselylomake ja haastattelut
Koehenkilöille esitetyt kirjalliset monivalintakysymykset (liite 1) jakaantuivat viiteen
osioon, joissa kysyttiin taustatietoja, mielipiteitä puheohjauksen soveltuvuudesta eri-
laisiin tehtäviin sekä yleisvaikutelmia puheohjauksesta.
Taustatietoina koehenkilöiltä kysyttiin kokemuksia kolmiulotteisesta grafiikasta ja
puheohjauksesta sekä pyydettiin arvioimaan puheohjauksen soveltuvuutta ja helppo-
käyttöisyyttä, järjestelmän kykyä tunnistaa komentoja ja erilaisten komentojen sovel-
tuvuutta. Tehtäviin liittyvissä kysymyksissä tiedusteltiin puheohjauksen soveltuvuutta
liikkumis-, kääntymis- ja asemointitehtäviin.
Tehtävien jälkeen kysyttiin käyttäjän mielipiteitä puheohjauksesta ja sen soveltuvuu-
desta eri tilanteisiin. Käyttäjää pyydettiin myös esittämään mielipiteensä puheentun-
nistuksen luotettavuudesta ja palautteen merkityksestä sekä arvioimaan virheiden
syitä.
Kyselylomakkeen lisäksi koehenkilöiltä kerättiin suullisesti mielipiteitä, jatkokehi-
tysideoita ja parannusehdotuksia sekä testin aikana että sen jälkeen. Kysymykset esi-
tettiin keskustelun kulun ja suunnan mukaisesti. Pääosin haastattelujen kysymykset
liittyivät mielipiteisiin puheohjauksesta ja sen ongelmista. Keskustelua pyrittiin oh-
jaamaan erityisesti ilmenneisiin ongelmiin ja niistä käyttäjille aiheutuviin tuntemuk-
siin.
6.8 Testien suorittaminen
Varsinaiset testit suoritettiin neljän peräkkäisen päivän aikana kahden tunnin jaksois-
sa. Yksittäiseen testiin kului aikaa tunnista puoleentoista tuntiin. Testitilanne aloitet-
tiin lyhyellä sovelluksen esittelyllä ja opastuksella. Esittelyn jälkeen koehenkilöä
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT
Sivu 62
pyydettiin täyttämään kysymyslomakkeen taustatietoja ja ennakkokäsityksiä käsitte-
levä osio. Tämän jälkeen suoritettiin tunnistuskynnysten asettaminen eli sovelluksen
”kalibrointi”.
Aloitustoimenpiteiden jälkeen käynnistettiin tehtävät. Tehtävien 4, 6 ja 7 jälkeen koe-
henkilöä pyydettiin täyttämään kyselylomakkeen osiot kaksi, kolme ja neljä. Samalla
esitettiin suullisia kysymyksiä tehtäviin liittyen. Myös muiden tehtävien jälkeen saa-
tettiin esittää suullisia kysymyksiä, varsinkin jos tehtävän suorittamisessa oli ongel-
mia tai koehenkilö halusi keskustella asiasta. Kahdeksannen tehtävän jälkeen koehen-
kilöä pyydettiin täyttämään kyselylomakkeen viides osio. Lopuksi suoritettiin suulli-
nen haastattelu.
6.9 Materiaalin analysointi
Testeistä saadut videonauhat analysoitiin Tampereen yliopiston käytettävyyslaborato-
riossa. Kustakin videonauhasta muodostettiin tekstitiedosto, josta ilmenivät koehen-
kilön antamat komennot aikamerkinnöin varustettuna. Videonauhojen analysointiin
käytetyn ohjelman aikayksikkönä oli yksi sekunti, mikä määräsi koko tulevan aineis-
ton käsittelyn ajallisen tarkkuuden. Tarkkuus ei ollut kaikkiin tarkoituksiin riittävä,
mutta tarkempi analysointi olisi tehnyt työstä äärimmäisen hidasta. Ajallinen tarkas-
telu päätettiin lopulta jättää jatkotutkimusten aiheeksi.
Videonauhalta analysoitiin annettujen komentojen lisäksi mahdollisia tunnistusvirhei-
den ja semanttisten virheiden eli epämielekkäiden komentojen syitä. Kaikki virheiden
arvioinnit perustuivat videonauhan pohjalta tapahtuneeseen aistinvaraiseen havain-
nointiin; mittauksia ei suoritettu esim. äänenvoimakkuuden tai komennon keston to-
teamiseksi. Videonauhojen perusteella saadut tiedostot ja testien aikana muodostetut
lokitiedostot saatettiin yhtenäiseen muotoon Microsoft Excel –taulukkolaskentaohjel-
man tiedostoksi. Tästä tiedostosta käytetään nimitystä tulostiedosto.
Tulostiedoston perusyksiköksi otettiin tapahtuma. Tapahtuma on joko käyttäjän an-
tama komento tai puheentunnistusjärjestelmän havaitsema syöte. Käyttäjän antamien
komentojen ohella tapahtumia ovat lisäykset eli järjestelmän tunnistamat komennot,
joita käyttäjä ei ole antanut (hälyääniä, komennon tulkitseminen kahdeksi erilliseksi
komennoksi jne.). Kaikille testeille yhteinen tulostiedosto käsitti lopulta 6998 tapah-
tumaa, joista jokaisella oli 22 arvoa. Kerätyn aineiston pohjalta ei etsitty tilastollisia
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 6 – KÄYTTÄJÄTESTIT
Sivu 63
merkitsevyyksiä, vaikka aineisto olisi tämän osittain mahdollistanutkin. Analysointi
keskitettiin huomioiden ja suuntauksien etsimiseen, jotka myöhemmillä tutkimuksilla
voidaan tarkastaa.
6.10 Huomioita testeistä
Käyttäjätestien analysoinnin kannalta ongelmallisin seikka oli tekstitiedostosta saadun
materiaalin ja videonauhan sisällön yhdistäminen. Tämä työ oli erittäin hidasta ja vir-
heille altista. Analysointia pystyttäisiin helpottamaan yhdistämällä eri lähteistä saadut
tulokset yhtenäiseksi kokonaisuudeksi joko videonauhalle tai parhaassa tapauksessa
tietokoneella käsiteltäväksi esim. mpeg-muodossa. Tärkeää olisi myös saada äänirai-
dasta kuvallinen esitys, sillä komentojen tulkitseminen ainoastaan kuuloaistiin poh-
jautuen on erittäin hidasta eikä tuota kovinkaan tarkkoja tuloksia.
Testiolosuhteissa olisi vielä paljon kehittämisen varaa. Erityisesti tehtävien esittämi-
seen täytyisi olla jokin toinen keino kuin paperien käyttäminen. Toinen monitori
olisikin auttanut melkoisesti. Kaikkein paras ratkaisu olisi kuitenkin ollut tehtävien
ohjeiden sisällyttäminen suoraan tehtäviin. Samalla käyttäjän olisi pitänyt saada pa-
lautetta suorittamistaan tehtävistä, sillä nyt kokeenjohtajan oli vaikeaa ilmaista, mil-
loin tehtävä oli suoritettu riittävällä tarkkuudella. Tulevaisuudessa koetehtävät kan-
nattaakin tehdä esim. VRML 2.0-kieleen liitettävillä Java-rutiineilla. Tällöin ne saa-
daan mahdollisimman riippumattomiksi ulkoisista olosuhteista.
Kyselylomake osoittautui paikoitellen epäonnistuneeksi. Kysymyksissä oli käytetty
liikaa monitulkintaisia termejä, mikä vesitti monen kysymyksen tulokset. Lisäksi
haastattelut tarjosivat paljon mielenkiintoisempaa ja informatiivisempaa materiaalia
kuin kirjalliset kysymykset. Tämä johtui osittain siitä, että käyttäjät olivat hyvin
myötämielisiä testitilannetta kohtaan ja esittivät asioita spontaanisti.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 64
7 PUHEOHJAUKSEN KEHITTÄMINEN TESTIEN POHJALTA
Selaimen prototyypillä suoritetuissa käyttäjätesteissä etsittiin näkökohtia, joiden poh-
jalta virtuaalimaailmoissa tapahtuvaa puheohjausta voitaisiin kehittää. Päähuomio
keskitettiin erilaisiin virhetilanteisiin, sillä virheiden hallinta on ratkaiseva tekijä pu-
hesovellusten hyväksymisen kannalta. Järjestelmän tekemien tunnistusvirheiden lisäk-
si kiinnitettiin huomiota käyttäjien tekemiin semanttisiin virheisiin. Virheistä tarkas-
teltiin paitsi niiden esiintymistä myös mahdollisia syitä sekä vaikutuksia. Näiden
pohjalta esitetään suunnitelma virheiden korjauksen ja palautteen kehittämiseksi.
Virheiden tarkastelemisen lisäksi etsittiin mahdollisuuksia toiminnallisuuden kehittä-
miseen. Toiminnallisuutta voidaan kehittää joko käyttäen pelkästään puhetta tai mul-
timodaalisuutta hyödyntäen. Erilaisia jatkokehitysideoita on esitetty tässä luvussa eri
osien yhteydessä sekä loppuun keskitetysti koottuna.
7.1 Tunnistusvirheet
Puheentunnistuksessa tapahtuvat virheet määräävät käyttöliittymäsuunnittelua vielä
pitkään. On tärkeää, että ollaan tietoisia paitsi virheiden määrästä myös niiden ja-
kaantumisesta. Tunnistusvirheissä on myös huomattavia henkilökohtaisia eroja. Näi-
den pohjalta voidaan suunnitella virheiden ennaltaehkäisy. Osa tunnistusvirheistä ai-
heutuu komentojen antamiseen liittyvistä tekijöistä.
7.1.1 Tunnistusvirheiden määrä ja jakaantuminen
Käyttäjän näkökulmasta järjestelmän virheet voidaan jakaa lisättyihin komentoihin
(lisäykset), huomiotta jätettyihin (poistot) ja väärin tulkittuihin (muunnokset). Järjes-
telmän näkökulmasta poistot voidaan jakaa kahteen tapaukseen niiden aiheuttajan pe-
rusteella. Luonnollinen poisto aiheutuu siitä, ettei puheentunnistusjärjestelmä tunnista
annettua komentoa lainkaan. Karsinnasta aiheutuva poisto johtuu järjestelmän ko-
mennolle antamasta huonosta tunnistusarvosta, jonka vuoksi sitä pidetään virheellise-
nä. Karsintamenettely on selvitetty kohdassa 5.4.
Taulukossa 7-1 on esitetty virheiden osuudet annetuista komennoista sekä kunkin vir-
hetyypin osuus kaikista tunnistusvirheistä. Erilaisten virheiden yhteenlasketun määrän
osuus kertoo järjestelmän tunnistustason (ks. kohta 2.5). Virheiden määrä vaihteli
testeissä alkupään tehtävien 24%:sta varsinaisten tehtävien 14%:iin eli tunnistustaso
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 65
oli 76%:sta 86%:iin. Tätä voidaan pitää melko huonona tuloksena, sillä alle 90%:n
tunnistustasoa on pidetty riittämättömänä useisiin puheohjaukselle suotuisiin tehtäviin
[Cohen & Oviatt, 1994].
/LVl\NVHW 3RLVWRW 0XXQQRNVHW6XKGH�DQQHWWXLKLQ�NRPHQWRLKLQ ����� ���� ���
2VXXV�WXQQLVWXVYLUKHLVWl ��� ���� ����
Taulukko 7-1: Tunnistusvirheet varsinaisten tehtävien osalta.
Dominoivana tekijänä virheissä olivat poistot. Niiden osuus kaikista virheistä oli kol-
me neljännestä. Ideaalisesti ajateltuna poistojen tulisikin olla suurin ryhmä: tällöin
väärät tulkinnat eli muunnokset havaitaan ja korjataan mikäli mahdollista, muutoin
jätetään käsittelemättä eli muutetaan poistoiksi. Tämän karsintamenettelyn eli virhei-
den ennaltaehkäisyn toimivuus olikin eräs kiintoisimpia tutkimuskohteita.
7.1.2 Henkilökohtaiset erot tunnistusvirheissä
Henkilöiden väliset eroavuudet tunnistusvirheissä olivat suuria. Virheiden määrä
vaihteli tehtävien osalta 4%:sta aina 23%:iin. Virheiden määrän suhteen koehenkilöt
voidaan jakaa kolmeen luokkaan sen mukaan, oliko virheitä vähän, kohtalaisesti vai
paljon. Kaavio 7-1 esittää varsinaisten tehtävien osalta koehenkilöiden eroavaisuuk-
sia. Koehenkilöillä 8, 11 sekä 13 esiintyi vähän virheitä (virhetaso alle 10%:a), käyt-
täjillä 6, 7, 10, 12 sekä 15 keskimääräisesti (virhetaso lähellä 15%:a) ja käyttäjillä 9,
14 sekä 16 paljon (virhetaso yli 20%).
-10 % -5 % 0 % 5 % 10 %
6
8
10
12
14
16 15
13
11
9
7
Kaavio 7-1: Virheiden osuus henkilöittäin suhteessa keskiarvoon (14%).
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 66
Ryhmien väliset erot ovat käytännössä erittäin suuria. Ainoastaan koehenkilöiden 8,
11 ja 13 työskentelyn voidaan katsoa olleen sujuvaa. Käyttäjillä 9, 14 ja 16 oli niin
suuria ongelmia, että puheohjauksen ei voi katsoa soveltuneen heille. Henkilöiden vä-
lisiin eroihin etsittiin syitä tarkastelemalla virheitä komennoittain. Oletettiin, että kor-
keat virhemäärät voitaisiin selittää yksittäisten komentojen epäonnistumisilla. Tämä ei
kuitenkaan pitänyt paikkaansa, sillä niillä käyttäjillä, joilla oli paljon virheitä, virheet
esiintyivät useissa komennoissa. Tämä antaa tukea olettamuksille, joiden mukaan on
olemassa nk. ongelmakäyttäjiä, joilla esiintyy ongelmia useimmissa komennoissa.
Kokonaisuutena tunnistusvirheet jakaantuivat tasaisesti eri komentojen ja käyttäjien
välille, eikä mitään yksittäisiä komentoja voitu nostaa erityisen ongelmallisiksi. Vari-
aatiot käyttäjien välillä antavat aihetta olettaa, että kaikille soveltuvaa valikoimaa on
mahdotonta muodostaa vähäiselläkään komentomäärällä. Samoin yleispätevä ongel-
makomentojen havaitseminen ei ole realistista. Tärkeintä olisikin pystyä havaitsemaan
ongelmalliset tilanteet ja löytää niihin tehokkaita ehkäisy- ja korjausmahdollisuuksia.
7.1.3 Virheellisten tulkintojen karsinnan toimivuus
Väärin tulkittujen komentojen karsinta epäonnistui pahoin: ainoastaan joka kymmenes
virheellisesti tulkittu komento saatiin muunnettua karsintamenettelyllä poistoksi, loput
esiintyivät käyttäjälle muunnoksina. Tilanne ei olisi ongelmallinen, ellei jokaista kar-
sittua muunnosta kohden samalla hylättäisi yli viittä oikein tulkittua komentoa. Vir-
heellisesti hylättyjen komentojen osuus oli 3% kaikista annetuista komennoista eli
miltei neljännes esiintyneistä virheistä.
Karsintamenettelyn epäonnistumiseen oli useita syitä, jotka liittyivät sekä teknologi-
aan että käyttöliittymäsuunnitteluun. Puheentunnistusjärjestelmä antoi komennoille
sellaisia tunnistusarvoja, että niiden pohjalta oli vaikeaa toteuttaa tehokasta karsintaa.
Saadut arvot vaihtelivat oikeellistenkin tulkintojen kesken niin paljon, että oli mah-
dotonta erottaa oikeat ja väärät tulkinnat toisistaan muutoin kuin ääritapauksissa. Voi-
daankin todeta, että pelkästään tunnistusarvoihin perustuva virheiden karsinta ei toi-
mi käytetyllä teknologialla riittävän hyvin.
Teknisten ongelmien lisäksi tulkintavirheiden karsinnan taustalla oli joukko vääriä
olettamuksia. Eräs näistä oli lisäyksien eli erilaisten hälystä johtuvien tulkintojen ole-
tuksia vähäisempi osuus. Kehitystyön aikana oletettiin, että lisäykset aiheuttaisivat
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 67
merkittävästi virheitä, ellei niitä karsittaisi. Tätä olettamusta tukee kirjallisuus, jossa
lisäykset nostetaan usein tärkeään asemaan, varsinkin jos toimitaan muissa kuin opti-
maalisissa olosuhteissa.
Toinen väärä olettamus liittyy poistojen ja muunnosten vaikutuksiin. Ennakkoon ole-
tettiin, että muunnokset ovat käyttäjän kannalta paljon ongelmallisempia kuin poistot.
Tämä pitääkin paikkansa paikallaan oltaessa, jolloin poiston korjaaminen ei vaadi
kuin komennon toistamisen. Liikkeessä oltaessa poistot ovat kuitenkin ongelmalli-
sempia, mikä aiheutti suuria ongelmia varsinkin pysähtymiskomennon kohdalla (vir-
heiden vaikutusta käsitellään laajemmin kohdassa 7.3). Lisäksi käyttäjät pitivät pois-
toja ärsyttävämpinä kuin muunnoksia. Osasyynä tähän lienee se, että virheet kasaan-
tuivat poistoihin.
7.1.4 Virhetulkintojen karsinnan kehittäminen
On syytä olettaa, että erilaiset puheentunnistusjärjestelmät tuottavat eri olosuhteissa
virheitä, joiden jakaantumista on mahdotonta ennustaa etukäteen riittävän tarkasti.
Tämän vuoksi tulkintavirheiden ennaltaehkäisyn tulee lähteä liikkeelle teknologian
evaluoinnista (ks. 2.5). Erilaisten virheiden esiintyminen tulee kartoittaa, sillä se toi-
mii pohjana kaikelle myöhemmälle suunnittelulle. Erityisen tärkeää on, että kartoituk-
sessa käytetään luonnollisten olosuhteiden lisäksi tarpeeksi suurta henkilömäärää.
Erilaisten virheiden eroja tulisi pyrkiä tasapainoittamaan. Haastattelujen perusteella
oli havaittavissa, että käyttäjien mielipiteet ovat negatiivisempia virheiden kasaantu-
essa tiettyihin virhetyyppeihin kuin niiden jakaantuessa tasaisesti. Poistovirheiden
kohdalla tähän lienee pääasiallisena syynä se, että poistovirheet edellyttävät paljon
toistamista, mikä ärsyttää ihmisiä erityisesti. Virheiden kasaantumisessa on ongelma-
na myös se, että tällöin virheiden vaikutuksien minimoiminen on vaikeaa. Optimaali-
nen tilanne saavutetaan silloin, kun virheiden osuus painottuu niihin tilanteisiin, joissa
virheiden korjauksien kustannukset ovat pienimpiä. Tämä puolestaan saavutetaan hel-
poimmin, mikäli virheet jakaantuvat kaikkien virhetyyppien kesken, koska jokaisessa
virhetyypissä on sekä helposti että vaikeasti korjattavia tapauksia.
Onnistuneelle tulkintavirheiden karsimiselle on tärkeää kontekstin hyväksikäyttö eli
jonkin asteinen puheen merkityksen ymmärtäminen. Puheen ymmärtämistä voidaan
lähestyä esim. tehtävän suorittamisen näkökulmasta (ks. kohta 3.1.2), edeltävien ko-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 68
mentojen luoman tilanteen pohjalta tai tilastollisesta perspektiivistä. Binäärisen hy-
väksymisen tai hylkäämisen lisäksi voidaan käyttää hyväksi N-Best sanalistaa (ks.
kohta 2.7), joka tarjoaa joukon vaihtoehtoisia tulkintoja tunnistusarvoineen. N-Best
sanalistan hypoteesit voidaan arvioida uudelleen, jolloin tunnistusarvojen lisäksi käy-
tetään kontekstin tarjoamaa informaatiota. Tässä voidaan hyödyntää myös arvioita
virheiden korjauskustannuksista eli välttää sellaisia tulkintoja, jotka saattavat aiheut-
tavat työläästi korjattavia tilanteita.
Koska virheissä esiintyy huomattavia yksilöllisiä ja olosuhteista aiheutuvia eroja, tuli-
si ennaltaehkäiseminen suorittaa jollain oppivalla menetelmällä, kuten neuroverkoilla.
Yleispätevien sääntöjen muodostaminen on vaikeaa ja jäykkää, sillä järjestelmän on
useimmiten mahdotonta sopeutua uusiin tilanteisiin ilman eksplisiittistä sääntöjen
muuttamista. Oppivien menetelmien ongelmana on materiaalin kerääminen. Tämä
voidaan tehdä joko erillisessä opetusvaiheessa tai jatkuvasti käytön aikana. Käytön
aikana suoritettava sopeutuminen on huomattavasti mielekkäämpää, koska se häiritsee
käyttäjää vähemmän. Eräs mahdollisuus huomaamattomaan tiedon keräämiseen on
tarkkailla kohdassa 7.3 esitettyjen virheenkorjaussekvenssien esiintymistä ja päätellä
näistä tulkintojen onnistuneisuutta.
7.1.5 Komentojen antamiseen liittyvien virheiden syyt ja korjaaminen
Komentojen antamiseen liittyvien tunnistusvirheiden mahdollisia syitä arvioitiin vi-
deonauhan perusteella. Suurimpaan osaan virheistä ei löydetty mitään syytä eli miltei
90% virheistä oli sellaisia, jotka järjestelmän olisi tullut hyväksyä. Loppuihin reiluun
10%:iin löydettiin kahdeksan mahdollista lähdettä. Potentiaaliset syyt voidaan jakaa
neljään luokkaan sen mukaan, liittyykö virheellisyys komennon antamishetkeen, si-
sältöön, kaksiosaisten komentojen sanaväliin vaiko lausumiseen. Näiden tekijöiden
suhteita on esitetty kaaviossa 7-2.
Komentojen antamishetkeen pystytään vaikuttamaan antamalla parempaa palautetta
järjestelmän tilasta. Tämä saadaan aikaan informoimalla selkeästi, milloin on mah-
dollista antaa mitäkin komentoja. Lisäksi komentoja voidaan puskuroida eli odottaa
kunnes löytyy komennon suorittamiselle soveltuva tilanne.
Lausumiseen eli käytännössä äänen voimakkuuteen ja sisältöön eli virheellisesti an-
nettuihin tai vieraita äänteitä sisältäviin komentoihin on käytännössä mahdotonta vai-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 69
kuttaa. Käyttäjää voidaan kehottaa esim. puhumaan lujempaa, mutta havaittiin, että
tämä paitsi muuttaa ääntä myös kestää ainoastaan vähän aikaa. Käyttäjät osoittivat
lisäksi suurta muuntautumiskykyä ellei järjestelmä tunnistanut komentoja.
0 % 10 % 20 % 30 % 40 % 50 % 60 % 70 %
Lausuminen
Sanaväli
Sisältö
Antamishetki
64%
13%
9%
14%
Kaavio 7-2: Havaitut virheiden syyt.
Kaikkein suurimpaan ryhmään, ongelmiin kaksiosaisten komentojen sanavälissä pys-
tytään onneksi vaikuttamaan kaikkein parhaiten. Tähän on kaksi päälähestymistapaa:
edellä kuvattu puskuroinnin käyttäminen ja lisäkysymysten tekeminen. Lisäkysymyk-
set voidaan suorittaa varmistuksien tapaan joko implisiittisinä tai eksplisiittisinä (ks.
kohta 3.5.3).
7.2 Semanttiset virheet
Tunnistusvirheiden lisäksi tehtävän suorittamiseen vaikuttavat semanttiset virheet,
jotka ovat joko laittomia tai tilanteeseen sopimattomia komentoja. Semanttiset virheet
liittyvät lähinnä käytettävään ohjausmetaforaan. Tämän vuoksi semanttisten virhei-
den ennaltaehkäisemisessä onkin tärkeää metaforan tukeminen.
7.2.1 Semanttisten virheiden lähteet
Semanttisia virheitä on kahta päätyyppiä: laillisia, mutta tilanteen kannalta epämie-
lekkäitä komentoja, jotka ehkäisevät tehtävän suorittamista sekä laittomia, komento-
valikoimaan kuulumattomia komentoja. Laittomien komentojen osuus oli alle prosen-
tin eli vähäinen. Tämä osoittaa, että käyttäjät sopeutuvat komentovalikoimaan melko
hyvin. Laittomien komentojen osuus lähtee kuitenkin nopeasti kasvamaan, ellei käyt-
täjällä ole selvää kuvaa siitä, mitä komentoja järjestelmä hyväksyy. Laittomien ko-
mentojen ennaltaehkäiseminen hoituukin parhaiten pitämällä komentovalikoima sup-
peana sekä informoimalla käyttäjää tarpeeksi.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 70
Lailliset, mutta tilanteen kannalta epämielekkäät komennot aiheutuvat pääasiassa
kahdesta syystä: komentojen vaikutusten väärinymmärtämisestä ja ympäristön vir-
heellisestä hahmottamisesta. Jonkin verran on myös jätettävä tilaa muille seikoille,
kuten käyttäjän suorittamille kokeiluille. Kokeiluja yms. esiintyi jonkin verran; näiden
tulkinta oli kuitenkin videonauhan perusteella mahdotonta, joten tällaisia tapahtumia
sisältäneet tehtävät suljettiin tarkastelusta kokonaan pois. Jäljelle jääneistä tehtävistä
pystyttiin erottamaan epämielekkäät komennot melko luotettavasti.
Epämielekkäitä semanttisia virheitä oli kaikista annetuista komennoista neljä prosent-
tia eli huomattavasti enemmän kuin laittomia komentoja. On lisäksi huomattava, että
semanttisia virheitä ei ollut käytännössä lainkaan pysähtymiskomentojen yhteydessä.
Koska kolmasosa kaikista annetuista komennoista on pysähtymiskomentoja, on se-
manttisten virheiden osuus muissa komennoissa suurempi kuin neljä prosenttia.
7.2.2 Semanttiset virheet ja ohjausmetafora
Komentojen vaikutusten väärinymmärtäminen liittyy käytettyyn ohjausmetaforaan.
Mikäli käyttäjä ymmärtää ja hyväksyy eli myös käyttää metaforaa, komentojen vai-
kutukset ovat selkeitä. Toisaalta, jos metafora ei ole selkeä tai käyttäjä ei hyväksy sitä
sisäiseksi mallikseen, on todennäköistä, että komentojen vaikutukset arvioidaan usein
väärin. Käytetyn metaforan hyväksymisen mittarina voidaan siis käyttää semanttisten
virheiden määrää. Tarkasteltaessa semanttisia virheitä henkilöittäin ja tehtävittäin ha-
vaittiin, että henkilöittäin merkittäviä eroja ei esiintynyt. Tehtävittäin sen sijaan löy-
dettiin huomattavia eroja. Tästä voidaan päätellä ongelmien liittyneen nimenomaan
erilaisiin tilanteisiin ja tätä kautta ohjausmetaforaan.
Kaavio 7-3 esittää semanttisia virheitä tehtävittäin. Semanttisten virheiden jakautumi-
sen pohjalta voidaan tehdä kolmenlaisia havaintoja. Ensinnäkin yksinkertaisissa ti-
lanteissa käyttäjät sopeutuvat metaforaan hyvin. Tämän osoittaa hyvin pieni semant-
tisten virheiden määrä neljännessä ja viidennessä tehtävässä. Neljännessä tehtävässä
hajonta oli lähes olematonta. Käyttäjät eivät tehneet virheitä joko lainkaan tai tekivät
virheen tai kaksi, mutta eivät tämän enempää. Viidennessä tehtävässä osa käyttäjistä
esitti, etteivät komentojen vaikutukset tuntuneet luonnollisilta. He kuitenkin oppivat
metaforan nopeasti ja sovelsivat sitä hyvin.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 71
0 % 2 % 4 % 6 % 8 %
10 % 12 %
4 5 6 7 8 9
Kaavio 7-3: Semanttisten virheiden esiintyminen tehtävittäin.
Toinen havainto on se, että yksinkertaisissa tapauksissa kolmiulotteisen maailman
hahmottaminen on paljon merkittävämpi tekijä kuin ohjausmetafora. Tämä tulee esiin
kuudennen eli kääntymistehtävän semanttisten virheiden suurena määränä. Tehtävä
oli luonteeltaan hyvin samanlainen kuin välittömästi tätä ennen suoritettu viides teh-
tävä, mutta nyt käyttäjä joutui hahmottamaan asemansa suhteessa maailmaan. Viiden-
nessä tehtävässä tämä tietous oli tuotu mukaan maailmaan läpinäkyvyyden avulla.
Havaintoa tukivat myös haastattelut ja kirjallinen kysely, jossa suurin osa vastaajista
mainitsi merkittävimmäksi semanttisten virheiden syyksi tilanteen hahmottamisen on-
gelmat.
Kolmannen havainnon perusteella käyttäjät mieltävät ohjaavansa objektia tilanteissa,
joissa ruudulla ei ole kuin yksi objektiryhmittymä. Merkittävää tässä havainnossa on
se, että muodostuva assosiaatio on niin vahva, että kaikki käyttäjät eivät pääse siitä
eroon, ellei tehtävä ole hyvin selkeä. Tämä tulee hyvin ilmi seitsemännessä eli ase-
mointitehtävässä. Tässä osalla käyttäjiä oli suuria vaikeuksia muokata sisäinen mal-
linsa vastaamaan ohjausmetaforaa. Muissa tehtävissä käyttäjät sen sijaan pystyivät
sopeuttamaan mallinsa hyvin. Seitsemännen tehtävän virheet osoittavat, että mallin
sopeuttaminen vaatii paljon huomiota ja rikkoontuu helposti, mikäli tilanne on perus-
liikkumista tai kääntymistä vaativampi.
Sekä semanttisia virheitä tarkastelemalla että käyttäjien kommenttien perusteella on
selvää, ettei valittu ohjausmetafora ollut sopiva kaikkiin tehtäviin. Se omaksuttiin hy-
vin ainoastaan silloin, kun käyttäjä mielsi navigoivansa virtuaalisessa maailmassa (tai
ohjaavansa ruudun keskellä sijaitsevaa kohdistinta). Tilanne oli tällainen perusliikku-
mistehtävissä. Käyttäjillä oli suuria ongelmia saman metaforan omaksumisessa, mi-
käli he kokivat manipuloivansa jotakin maailmassa olevaa objektia. Tilanne nähtiin
tällaisena ennen kaikkea asemointitehtävässä.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 72
7.2.3 Semanttisten virheiden vähentäminen metaforaa tukemalla
Asemointitehtävän ongelmat osoittavat, että metaforaa on syytä tukea epäselvissä ti-
lanteissa. Tähän päästään mm. kontekstisidonnaisilla vihjeillä tai esittämällä kohdistin
vahvasti metaforaan sitovalla esityksellä, kuten ihmishahmolla ”kamera kädessä” –
metaforaa käytettäessä tai objektia manipuloivilla käsillä ”maailma kädessä”
metaforaa käytettäessä. Myös kohdistimen animoiminen saattaa avustaa metaforan
omaksumisessa. Käyttäjälle tulisi myös tarjota mahdollisuus metaforan vaihtamiseen.
Kontekstisidonnaisia vihjeitä voidaan luoda kiinnittämällä komentosanat maailmassa
sellaisiin paikkoihin, jotka ilmaisevat niiden vaikutuksia. Tämä muodostaa hyvin
luonnollisen yhteyden, sillä olemme tottuneet käyttämään tekstiä komentomaisesti
esim. hypertekstin yhteydessä. Vihjeiden sijoittelussa voidaan käyttää hyväksi tilalli-
sia vihjeitä, kuten läpinäkyvyyttä ja varjoja. Kiinnostava esimerkki, joka sopisi hyvin
tähän yhteyteen on Herndonin ja kollegoiden [1992] kehittämä varjo-ohjainten periaa-
te. Varjo-ohjaimet ovat kolmiulotteisia virtuaaliohjaimia, jotka esitetään kohteen var-
joina. Ne tarjoavat lisäinformaatiota kohteesta ja toimivat samalla ohjausmenetelmä-
nä. Tämän kaltaisilla ratkaisuilla voidaan kolmiulotteista ympäristöä hyödyntää te-
hokkaasti.
Myös kohdistimen esityksessä ja animoinnissa voidaan käyttää hyväksi ympäristön
kolmiulotteisuutta. Eräs mielenkiintoinen lähestymistapa on liikemetaforat [Ware,
1996]. Liikemetaforat ovat animoituja symboleja, jotka ilmaisevat sekä liikkeen suun-
taa että historiaa. Liikemetaforiin on mahdollista yhdistää kontekstuaalisia vihjeitä,
jolloin saataisiin selkeä, yhtenäinen ja ympäristöön sovellettu tapa esittää käyttäjälle
informaatiota menneisyydestä, nykyhetkestä sekä mahdollisesta tulevaisuudesta.
Metaforan vaihtaminen on helppoa kahden päälähestymistavan välillä; käytännössä se
vaatii ainoastaan komentojen vaikutusten muuntamisen päinvastaisiksi. Tietyissä ti-
lanteissa metaforan valinta on selkeää: kun ympäristö luo kuvan käyttäjän liikkumi-
sesta maailmassa, ”kamera kädessä” –metafora on selkein vaihtoehto, kun taas objek-
tien manipuloinnissa ”maailma kädessä” on luontevampi. Ongelman muodostavat ne
maailmat, joissa tilanne ei ole selkeä. Esimerkiksi tieteellisen visualisoinnin yhteydes-
sä saattaa olla vaikeaa luoda tuttuja mielikuvia metaforia vahvistamaan.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 73
Avoin kysymys on myös se, tulisiko metaforan vaihtua automaattisesti tilanteiden
mukaan. Esimerkiksi tämän tutkimuksen tehtävissä olisi metaforaa voitu vaihtaa au-
tomaattisesti aina silloin, kun oletettiin käyttäjille muodostuvan kuvan objektien ma-
nipuloinnista. Ongelma on siinä, että tämäkään ei sovi kaikille, sillä osa käyttäjistä
muodostaa aina mallinsa vastakkaisesti. Automaattinen mukauttaminen on muutoin-
kin ongelmallista, sillä se saattaa aiheuttaa käyttäjän suunnantajun katoamisen.
Selkein ratkaisu metaforan vaihtamiseen on tarjota käyttäjälle mahdollisuus mukaut-
taa komentojen vaikutukset haluamakseen. Tähän voisi liittää myös komentosanojen
valitsemisen, joko etukäteen määrätystä joukosta tai mahdollisesti jopa täysin vapaa-
valintaisesti. Eräs koekäyttäjä muotoilikin tämän toivomukseksi: ”Olisi mukava saada
opettaa sanat itse, nyt tuntuu että käyttää jonkun muun sanoja”. Tämä onkin erittäin
hedelmällinen jatkotutkimusaihe, jota voitaisiin lähestyä esim. simuloidulla kokeella.
7.3 Virheiden vaikutukset
Virheiden korjauksen kannalta on tärkeää tietää erilaisten virheiden aiheuttamat kor-
jauskustannukset. Vaikutuksia voidaan mitata korjauskomentojen määränä tai niihin
kuluvana aikana. Tässä tutkimuksessa otettiin lähestymistavaksi komentojen määrä,
sillä puhesovelluksissa komentojen määrä on usein merkityksellisempää kuin aika.
Lisäksi ajalliseen arviointiin tarvittaisiin parempi tarkkuus kuin nyt käytetty yksi se-
kunti.
Virheiden korjaukseen menevien komentojen osuus oli 25% kaikista annetuista ko-
mennoista eli kysymyksessä on erittäin tärkeä komentoryhmä. Virheellisten komen-
tojen osuus oli 19%, mikä merkitse, että jokaista virheellistä komentoa kohden tarvit-
tiin keskimäärin 1.4 korjaavaa komentoa. Virheiden korjaukseen tarvitaankin eri mää-
rä komentoja sen mukaan, millaisesta ja missä tilanteessa tapahtuneesta virheestä on
kysymys.
Virheen vaatimat korjaustoimenpiteet liittyvät virheen tyyppiin (lisäys, poisto, muun-
nos, semanttinen), olotilaan (liikkeessä, paikallaan), liikkeiden toteuttamistyyliin (va-
kioliike, jatkuva liike), annettuun komentoon, tulkittuun komentoon sekä kontekstiin.
Korjauskustannuksiin vaikuttaa paitsi annettavien komentojen määrä myös niiden
tyyppi. Esimerkiksi korjaava komento tarkoittaa käytännössä vastakkaiskomennon
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 74
antamista (esim. ”north” komennolle ”south”), mikä on yleensä huomattavasti vä-
hemmän virhealtis tapahtuma kuin virheellisen komennon toistaminen.
Käsittelen tässä korjaustoimenpiteitä sen mukaan, tapahtuuko virhe paikallaan oltaes-
sa vai jonkin muun komennon suorituksen aikana. Paikallaan oltaessa virheiden vai-
kutuksissa on vaihteluita ainoastaan sen mukaan, onko käytössä vakioliikkeeseen vai
jatkuvaan liikkeeseen perustuva tila. Jatkuvaan liikkeeseen perustuvassa tilassa vai-
kutukset ovat erilaiset sen mukaan, täytyykö käyttäjän antaa jokaisen komennon vä-
lillä pysäytyskomento vai ei. Taulukko 7-2 esittää virheiden korjaamiseksi tarvittavia
toimenpiteitä paikallaan oltaessa.
Virheen tyyppi VakioliikeJatkuva liike pakollisella
pysähtymiskomennolla
Jatkuva liike ilman pakollista py-
sähtymiskomentoa
1. Lisäys K P + K + P (P) + K + P
2. Muunto K + T P + K + P + T (P) + K + (P) + T
3. Poisto T T T
4. Semanttinen K + K P + K + P + K (P) + K + (P) + K
Taulukko 7-2: Virheen korjaaminen paikallaan oltaessa.
Kirjainlyhenteiden selitykset ovat K = korjaava liike, P = pysähtymiskomento, T = komennon toistami-
nen ja A = virhettä edeltävän liikkeen mukainen komento. Suluissa oleva komento tarkoittaa, ettei se
ole välttämätön, mutta varsinkin noviisit antavat sen useimmiten.
Virheen tapahtuessa liikkeen aikana vaikutukset ovat erilaisia kuin pysähdyksissä ol-
taessa sattuneet virheet. Tällöin merkitsevä tekijä on se, onko kysymyksessä pysäh-
tymiskomento vai jokin muu komento. Tilannetta on havainnollistettu taulukossa 7-3.
Pysähtymiskomento
Virheen tyyppi Jatkuva liike pakolli-
sella pysähtymisellä
Jatkuva liike ilman pa-
kollista pysähtymistä
Muu kuin pysähtymiskomento
1. Lisäys A A (P) + K + (P) + A
2. Muunto - (T) + K + T (P) + K + (P) + T (muuksi)
/ T (pysähtymiskomennoksi)
3. Poisto T + K + T (T) + K + T (P) + K + (P) + T
4. Semanttinen A A (P) + K + (P) + K
Taulukko 7-3: Virheen korjaaminen liikkeessä oltaessa.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 75
Virheiden korjaukseen tarvittavien komentojen perusteella voidaan arvioida järjestel-
män kokonaissuorituskykyä, kun tiedetään erityyppisten virheiden osuudet ja käytet-
tävät tehtävät. Parametrisoimalla eri komentojen vaikutukset voidaan taulukoissa 7-2
ja 7-3 esitettyjä virheenkorjaussekvenssejä käyttää hyväksi suunniteltaessa järjestel-
män komentoja ja virheenkorjausmekanismeja. Erityisen hyödyllistä tämä voi olla
virheenkorjauksessa, jolloin malleja voidaan käyttää hyväksi kontekstitietoutena pai-
nottamalla todennäköisimmin annettavien komentojen osuutta.
7.4 Virheiden korjaus ja palaute
Virheen korjauksella tarkoitetaan toimenpiteitä, jotka käyttäjä suorittaa joko tunnis-
tusvirheen tai semanttisen virheen vaikutusten korjaamiseksi. Virheiden hallintaan
liittyy lisäksi virheiden havaitseminen, ennaltaehkäisy sekä syiden analysointi. Vir-
heiden ennaltaehkäisyä ja syiden analysointia on käsitelty aiemmin tässä luvussa
tunnistusvirheiden ja semanttisten virheiden yhteydessä. Tässä käsitellään virheiden
havaitsemista ja korjaustoimenpiteitä, perumista sekä palautetta.
7.4.1 Virheiden havaitseminen ja korjaaminen
Mahdollisten virhetilanteiden havaitsemiseen on kolme lähdettä, toimiminen puheen-
tunnistusjärjestelmän tietojen, käyttäjän toimenpiteiden tai tilannetietouden perus-
teella. Ensimmäinen mahdollisuus sisältää sanojen tunnistustodennäköisyyksien ja
sanalistojen hyväksikäyttämisen. Käyttäjän toimenpiteistä voidaan havaita manuaali-
nen virheenkorjaaminen esim. taulukoiden 7-2 ja 7-3 perusteella. Tilannetietoudesta
voidaan päätellä tehtävän kannalta epämielekkäiden toimintojen esiintyminen.
Puheohjatun selaimen tapaisissa reaaliaikaisissa sovelluksissa keskustelu etenee ilman
kehotteita, jolloin kommunikaation suunta on pääasiallisesti käyttäjältä järjestelmälle.
Tällöin on käytännössä helpointa ja nopeinta hoitaa tavanomaisimmat virheidenkor-
jaustilanteet esim. toistamalla komento uudelleen tai antamalla uusi, virheen korjaava
komento. Tästä aiheutuu, että käyttäjän tekemä aloite virheen korjaamiseksi on jär-
jestelmän kannalta useimmiten piilotettu. Tämä jättää paljon toivomisen varaa, sillä
järjestelmä ei pysty oppimaan virheistä. Onkin tärkeää, että virheet pyritään havaitse-
maan ja niiden syyt analysoimaan, vaikka varsinaisia virheiden korjausoperaatioita ei
käynnistettäisikään.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 76
Virheiden korjauksen vuorovaikutteisuuden suhteen käyttäjien mielipiteet jakautuivat
kahtia. Osa käyttäjistä olisi kaivannut enemmän vuorovaikutusta järjestelmän ja
käyttäjän välille. Toiset eivät taas kaivanneet lainkaan interaktiivisuutta, vaan uskoi-
vat selviävänsä parhaiten hoitamalla virheiden korjauksen kokonaan itse. Tämän
vuoksi on selvää, että tarjottaessa interaktiivisia virheenkorjausmahdollisuuksia näistä
tulisi myös päästä helposti eroon ja niiden tulee olla kytkettävissä kokonaan pois
päältä. Tämä periaate sopii kaikkiin puhekäyttöliittymiin ja erityisesti reaaliaikaisiin,
joissa interaktiivinen virheenkorjaus saattaa hidastaa merkittävästi käyttöä.
Eräs hyvä vuorovaikutteisen virheenkorjauksen korvaava menetelmä on kohdassa
3.5.3 esitetty implisiittisten vahvistuksien käyttäminen. Implisiittiset vahvistukset tuli-
si rakentaa mahdollisimman vähän häiriötä aiheuttaviksi. Tämä koskee sekä niiden
aiheuttamaa viivettä että tarvitsemaa huomiota. Järkevin vaihtoehto saattaisi olla vah-
vistuksen ja perumistoiminnon yhdistäminen. Tällöin käyttäjä pystyy perumaan toi-
minnon tietyn ajan kuluessa, jolloin aloitetaan virheen korjaamiseksi tarvittavat toi-
menpiteet.
7.4.2 Perumistoiminto
Perumistoiminto, oli se sitten sijoitettu vahvistuksien yhteyteen tai omaksi komennok-
seen, ei ole triviaalisti toteutettavissa. Yksinkertaisissa toiminnoissa peruminen tar-
koittaa liikkeen pysäyttämistä ja palaamista virheellistä komentoa edeltäneeseen ti-
laan. Ongelmalliseksi tämä muodostuu, jos maailman tila on muuttunut ratkaisevasti
virheellisen komennon suorituksen aikana. Tällöin ei ole enää selvää, mitä tarkoittaa
palaaminen virhettä edeltäneeseen tilaan. Monitulkintaisuuksia seuraa myös niissä
tapauksissa, jolloin suoritettavana on enemmän kuin yksi komento kerrallaan.
Eräs seikka, josta käyttäjät olivat lähestulkoon yhtä mieltä, oli se, että virhetilanteissa
liikkeen tulisi pysähtyä. Tämä näkyi myös videonauhalta: lähes aina käyttäjät pysäyt-
tivät liikkeen virheiden yhteydessä, vaikka tilanne olisi ollut helposti korjattavissa il-
man pysähtymistäkin antamalla ainoastaan korjaava komento. Testien perusteella täl-
lainen toiminta ei kuitenkaan ole yleistä, sillä ainoastaan yksi henkilö käytti sitä use-
ammin kuin muutamassa tilanteessa. Kiintoisa jatkokokeiden aihe on, muuttaako pe-
rumistoiminto tätä käyttäytymistä.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 77
7.4.3 Palaute
Virheiden korjaamisen ohella olisi tärkeää tarjota käyttäjälle enemmän tietoa mahdol-
lisista virheiden syistä. Käyttäjätesteissä kysyttiin kokeenjohtajalta usein mahdollisia
virheiden syitä. Käyttäjiä ärsytti etenkin se, että toistuvien virheiden syy jäi arvoituk-
seksi. Eräs koehenkilö kysyikin: ”mistä johtuu, että cut on minulle vaikea? Periaat-
teessa helpoin sana”. Valitettavasti virheiden syiden päätteleminen on eräs heikoim-
mista puheentunnistusjärjestelmien ominaisuuksista.
Käyttäjille annettu palaute sisälsi tiedon tunnistetusta komennosta sekä tähän liittyvän
tunnistusarvon. Kaikki eivät kuitenkaan välittäneet palautteesta, jota järjestelmä tarjo-
si. Käyttäjien yleisesti melko yhdensuuntaiset mielipiteet vaihtelivatkin tämän asian
suhteen rajuimmin. Keskimääräisesti tarkasteltuna palautteella ei nähty olevan erityi-
sen suurta merkitystä ja sitä seurattiin melko vähän, pääasiallisesti ainoastaan virheti-
lanteissa. Tämä on mielenkiintoinen tulos, sillä se poikkeaa yleisestä käsityksestä.
Osasyynä tähän on tehtävien luonne, joka vaati käyttäjän koko visuaalisen huomion.
Palautteen antaminen onkin ongelmallista tilanteissa, joissa aistit ovat vahvasti kuor-
mitettuina. Vaikka puhekäyttöliittymien yhteydessä korostetaankin palautteen tärke-
yttä, ei sitä tule tarjota liikaa eikä liian häiritsevässä muodossa. Varsinkin tekstimuo-
dossa esitettyyn palautteeseen liittyy ongelmia, kuten sen sijoittaminen kuvaruudulle.
Vaihtoehtoina ovat erilaiset symbolit ja äänen käyttö. Graafista palautetta voidaan
käyttää pitkälti samaan tapaan kuin kohdassa 7.2.3 esitettyjä kontekstisidonnaisia
vihjeitä.
Äänen käyttäminen palautteen antamiseen on tehokasta, koska se vapauttaa käyttäjän
visuaalisia resursseja aihealueen, kolmiulotteisen maailman käyttöön. Sen käyttämi-
sessä on kuitenkin kaksi pääongelmaa, syötteidenantotapahtuman häiriintyminen ja
käyttäjien suhtautuminen. Ensiksi mainitun ongelmat ovat samoja kuin päällepuhumi-
sen ongelmat yleensäkin (ks. kohdat 3.4. ja 3.5.1). Jälkimmäisessä vaarana on se, että
käyttäjät kokevat puhepalautteen erityisen ärsyttävänä. Haastatteluissa koehenkilöiden
mielipiteet puhepalautteen mahdollisuudesta vaihtelivat suuresti osan tyrmätessä ide-
an täysin. Pidän kuitenkin äänipalautteiden käyttämistä tärkeänä ja mielenkiintoisena
jatkotutkimuksen aiheena. Ääntä voidaan kokeilla sekä puheen että auditoristen ikoni-
en [Gaver, 1989] muodossa.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 78
7.5 Toiminnallisuuden kehittäminen
Käyttäjätestejä varten rakennettu selain oli hyvin yksinkertainen sisältäen ainoastaan
perustoiminnallisuuden. Tässä on esitetty tärkeimpiä testien aikana esiin tulleita ke-
hitysnäkökohtia, jotka liittyvät komentojen antamiseen, tarkkaan työskentelyyn, pe-
rusliikkumisen ja kääntymisen tehostamiseen sekä xy-tason orientointiin.
7.5.1 Komentojen antaminen
Tutkittaessa pysähtymiskomentojen määriä eri tilanteissa havaittiin, että yksinkertai-
sissa tehtävissä käyttäjät antoivat komennot mieluiten suoraan toistensa perään. Mo-
nimutkaisissa tilanteissa, kuten asemointitehtävässä, liike taas pysäytettiin lähes aina
ennen seuraavan komennon antamista. Tätä havaintoa voidaan hyödyntää konteksti-
tietoutena arvioitaessa komentojen todennäköisyyksiä. Lisäksi voidaan olettaa, että
pysähtymiskomentojen määrällä pystytään arvioimaan tehtävän kompleksisuutta.
Toinen havainto komentojen antamisessa liittyy liikkumisessa käytettäviin variaatioi-
hin. Näitä kokeiltiin yhdeksännessä tehtävässä. Haastattelujen perusteella käyttäjät
eivät pidä lainkaan toimettomana olosta, vaan haluavat mieluummin kontrolloida lii-
kettä jatkuvasti, vaikka tämä vaikuttaisi tehtävän suoritukseen negatiivisesti sekä li-
sääntyneenä komentojen määränä että kuluvana aikana. Käyttäjille tulisikin tarjota
toimintoja, jotka tarjoavat osallistumisen tunteen. Tilanne on tietysti erilainen, jos
käyttäjällä on samaan aikaan muita tehtäviä suoritettavana. Tällöin on pelkästään
hyödyksi, ettei käyttäjän tarvitse kiinnittää puheohjaukseen liikaa huomiota.
7.5.2 Nopeuden kontrollointi ja tarkka työskentely
Käyttäjätesteissä tuli hyvin esille tarkan työskentelyn vaikeus. Usein tämä liittyi py-
sähtymiseen. Pysähtymisen yhteydessä tapahtuneista virheistä aiheutui kiusallisia ti-
lanteita, sillä tällöin muodostui helposti ”sahausilmiö”, edestakainen liikehdintä koh-
teen ympärillä. Tämä liittyy oleellisesti nopeuden säätelyyn, sillä käyttäjät eivät pys-
tyneet kontrolloimaan tilannetta suurta tarkkuutta vaativissa tehtävissä, kuten oltaessa
hyvin lähellä kohdeobjektia.
Nopeuden kontrollointi voidaan suorittaa sekä automaattisesti että manuaalisesti. Yk-
sinkertaisin tapa automaattiseen nopeuden säätelemiseen olisi käyttää objektien kokoa
ja läheisyyttä liikkeiden nopeuden määrittämiseen. Esimerkiksi lähestyttäessä objektia
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 79
voidaan nopeutta vähentää. Tämä voitaisiin tehdä samaan tapaan kuin kohteen mukai-
sessa liikkumisessa [Mackinlay et al., 1990]. Vastaavasti vauhdin lisääminen ”tyhjillä
alueilla” nopeuttaisi objektien välillä kulkemista. Toinen mahdollisuus on käyttää
erilaisia paino- ja vetovoimaan liittyviä ratkaisuja. Näitä on hyödynnetty menestyk-
sellisesti kolmiulotteisten käyttöliittymien yhteydessä (ks. kohta 4.5). Vetovoimaan
pohjautuvien ratkaisujen hyvä puoli on se, että ne vähentävät ongelmallisten pysäh-
tymiskomentojen tarvetta.
Automaattisen nopeuden säätelemisen lisäksi esiintyy aina tarvetta manuaaliseen no-
peuden kontrollointiin. Käyttäjät esittivätkin useita eri mahdollisuuksia tämän toteut-
tamiseksi. Eniten käyttäjät ehdottivat kiihtyvyyttä säätelevien komentosanojen käyt-
tämistä sekä komennon toistamista sen nopeuttamiseksi. Myös parametreja ehdotet-
tiin, kuten ”slow west” ja ”east speed five”. Parametreja ei kuitenkaan pidetty niin hy-
vänä menetelmänä kuin kiihtyvyyden kontrollointia.
On mielenkiintoista, että käyttäjät pitivät kiihtyvyyden kontrollointia parempana
vaihtoehtona, sillä nopeuden säätelemistä pidetään ihmiselle helpompana kuin kiihty-
vyyden kontrollointia [Ware & Osborne, 1990]. Komentopohjaisessa tilanteessa saattaa
kuitenkin kiihtyvyyden säätely olla luonnollisempaa, sillä nopeuden sääteleminen pa-
rametreja käyttämällä vaatii parametrien vaikutusten hyvää tuntemista. Tämä on sel-
vitettävissä helposti vertailutesteillä, joissa mitataan sekä käyttäjien tyytyväisyyttä että
tehtävän suorittamisen tehokkuutta.
7.5.3 Perusliikkumisen vaihtoehdot
Erilaisista kehittyneemmistä liikkumismenetelmistä koehenkilöt toivoivat eniten koh-
dekeskeisiä ratkaisuja. Objektien luokse siirtymisessä voitaisiin käyttää hyväksi ob-
jektien ominaisuuksia kuten muotoa, kokoa ja väriä sekä näille annettuja nimiä. Vii-
meksi mainittu muistuttaisi hypertekstin kuumia sanoja. Tätä onkin käytetty hyväksi
useissa hypertekstiin liittyvissä puhekäyttöliittymissä. Objektien ominaisuuksien hy-
väksikäyttö olisi melko helposti toteuttavissa ilman kehittynyttä tekoälyäkin, sillä
VRML on rakenteinen kieli ja suurin osa objektien ominaisuuksista voidaan saada tätä
kautta. Pidemmälle vietynä tämä johtaa luonnollisen kielen käyttöön, jota on käsitelty
kohdassa 4.6.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 80
Yksinkertaisempi tapa kohdeorientoituneeseen liikkumiseen on käyttää komentoja,
joilla siirrytään objektilta toiselle. Kohdeobjektien määrittelyyn käytetään tällöin algo-
ritmia, joka etsii sopivat kohdeobjektit komentojen perusteella. Esimerkiksi kulku-
suunnassa olevan objektin luokse voitaisiin siirtyä ”next” komennolla jne. Kohdeob-
jektin valinta ei ole kuitenkaan yksikäsitteistä kolmiulotteisessa ympäristössä, varsin-
kaan dynaamisissa maailmoissa. Tämä menetelmä on kuitenkin kohtalaisen helposti
toteutettavissa ja yksikäsitteisempi kuin objektien ominaisuuksin perustuva liikkumi-
nen.
7.5.4 Kääntymiskomentojen tehostaminen
Kääntymiskomennot olivat nyt, kuten kaikki muutkin komennot, aina suhteessa käyt-
täjän paikkaan. Ne voitaisiin toteuttaa myös siten, että liikkeet suoritettaisiin suhteessa
objektin orientaatioon. Objektin näkökulmasta tämä muodostaisi kääntymiskomen-
noista absoluuttisia. Näin esimerkiksi objektin taakse kiertäminen olisi mahdollista
yhdellä komennolla (esim. ”turn back”) käyttäjän paikasta riippumatta.
Metaforaongelmaa tämä menetelmä ei kuitenkaan ratkaise, sillä komennot voidaan
tulkita edelleen joko käyttäjän tai objektin näkökulmasta. Ongelmaksi tässä nousee
tulkinnallisuuskysymys siitä, mikä on objektin normaaliorientaatio. Tämä on selvää
luonnollisilla objekteilla, kuten taloilla, mutta huomattavasti vaikeampaa määrittää
abstrakteille kappaleille. Tilannetta parantamaan voitaisiin käyttää kontekstuaalisia
vihjeitä samaan tapaan kuin semanttisten virheiden ennaltaehkäisemisessä.
Erityisen hyödyllistä objekteihin suhteutettujen kääntymiskomentojen käyttäminen on
tilanteissa, joissa tarvitaan nopeita toimintoja. Esimerkiksi CAD-käyttö vaatii paljon
tällaisia tilanteita. CAD-käytössä voidaan lisäksi olettaa, että käyttäjä tuntee kappaleet
hyvin, joten liikkeisiin voitaisiin käyttää diskreettejä siirtymiä, mikä myös nopeuttaisi
toimintaa.
7.5.5 XY-tason orientaation muuttaminen
Haastatteluissa tuli selkeästi ilmi tarve kuvaruudun tasossa tapahtuvalle orientaation
muuttamiselle. Suurin osa koehenkilöistä otti asian itse esille kysymällä, oliko tällai-
nen toiminto mahdollista. Toimintoa kysyttäessä tätä kuvailtiin suoristamiseen liitty-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 81
villä määreillä, esimerkiksi ”Saisiko tuon jotenkin suoraan? Häiritsi kun aina jäi vi-
noon. Jäin miettimään pystyykö sen suoristamaan näillä komennoilla”.
XY-tason orientaation muuttamiseen voitaisiin käyttää esimerkiksi ”rotate” sanaa ja
”clockwise / counter-clockwise” yhdistelmää samalla tavoin kuin kääntymiskomen-
noissakin. Myös ”turn left / right” vaihtoehto voisi olla soveltuva. Parempi menetelmä
saattaisi kuitenkin olla erillinen suoristamiskomento, sillä käyttäjät kaipasivat orien-
taation muuttamista ainoastaan silloin, kun kappale oli ”vinossa”. Suoristamiseen
liittyy sama normaaliorientaation määrittelemisen ongelma kuin kääntymiskomento-
jen tehostamisessakin.
7.5.6 Toiminnallisuuden lisäämisen prioriteetit
Käyttäjiltä kysyttiin puheen soveltuvuutta ohjaukseen tehtävätyypeittäin ja komento-
ryhmittäin. Tehtävittäin eroja oli ainoastaan perusliikkumistehtävissä, joihin puheoh-
jausta pidettiin vähemmän soveltuvana kuin muihin tehtäviin. Komentoryhmittäin taas
kääntymiskomentoja pidettiin vähiten soveltuvina, liikkumiskomentoja toiseksi so-
veltuvimpina ja etäisyyden säätelyyn tarkoitettuja komentoja kaikkein soveltuvimpi-
na.
Käyttäjille annettiin myös mahdollisuus valita, mihin toimintoihin he käyttäisivät pu-
heohjausta. Suurin osa käyttäjistä valitsisi puheohjauksen etäisyyden säätelyyn ja
kääntymiseen, perusliikkumiseen he sen sijaan käyttäisivät mieluummin hiirtä ja näp-
päimistöä. Tämä yhdessä tehtäväkohtaisen palautteen kanssa osoittaa, että vaikka liik-
kumiseen tarkoitetut komennot miellettiinkin soveltuviksi, puheohjausta ei pidetä si-
nällään liikkumiseen soveltuvana.
Kääntymiskomentojen osalta tulokset osoittavat, ettei niiden potentiaalia ole vielä
hyödynnetty täysimittaisesti. Eräs käyttäjien mielipiteisiin vaikuttava tekijä on kään-
tymiskomennoissa muita useammin esiintyneet virheet, mutta yksin tämä tekijä ei se-
littäne asiaa. Kääntymiskomennot valittiin kuitenkin yhtä usein ohjausmenettelyksi
kuin etäisyyden säätelyyn tarkoitetut komennot, joissa ongelmia esiintyi hyvin vähän
ja jotka käyttäjät mielsivät erittäin soveltuviksi.
Toiminnallisuuden jatkokehityksen kannalta voidaan edetä kahdella tapaa sen mu-
kaan, kehitetäänkö järjestelmää multimodaalisena vai pelkkään puhesyötteeseen pe-
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 82
rustuen. Mikäli järjestelmää kehitetään multimodaalisena, voidaan perusliikkuminen
korvata muilla modaliteeteilla ja keskittää puheohjaus kääntymiseen ja etäisyyden
säätelyyn. Jos taas kehitystä jatketaan puhesyötteisiin perustuen, erityistä huomiota
tulee kiinnittää liikkumiseen, sillä käyttäjät eivät pitäneet perusliikkumista onnistu-
neena. Eräs vaihtoehto on tällöin luonnollisen kielen käyttäminen.
7.6 Multimodaalisuuden hyödyntäminen
Tämän tutkimuksen eräs tavoite oli tutkia puheen soveltuvuutta osaksi multimodaali-
sia kolmiulotteisia käyttöliittymiä. Perusoletuksena tässä on, että käyttäjän kädet ovat
joko kokonaan tai suurimman osan ajasta varattuina. Lisäksi oletetaan, että puhe on
pääasiallinen syötteiden antamismenetelmä. Puhetta voitaisiin tutkia myös täydentä-
vänä modaliteettina. Tällöin näkökulma muodostuisi kuitenkin hyvin erilaiseksi, sillä
perusoperaatiot olisi järkevintä toteuttaa jollain suorakäyttöisemmällä menetelmällä.
Tulokset osoittivat, että puheohjaus on vahvimmillaan etäisyyden säätelyssä, missä
sen käyttäminen on hyvin virhevapaata ja luonnollista. Myös kääntyminen on puhe-
ohjaukselle potentiaalinen kohde, joskin tällöin vastassa on suurempia haasteita. Pe-
rusliikkumiseen puhe soveltuu, mutta käyttäjät valitsisivat tähän mieluummin jonkin
muun modaliteetin.
Perusliikkumiseen olisi selkeintä valita katseeseen ja kosketukseen perustuvia mene-
telmiä, joskin nämä ovat ongelmallisia pienten näyttöjen kohdalla. Päähän asetettavis-
sa näytöissä voitaisiin hyödyntää pään orientaatiota ja silmien liikkeitä. Eräs mielen-
kiintoinen mahdollisuus on myös tietokoneen fyysinen liikuttaminen, jota on hyödyn-
netty pienissä kädessä pidettävissä laitteissa.
Pysähtymiskomentojen osalta mahdollisuus jonkun muun modaliteetin käyttämiseen
voisi helpottaa käyttöä merkittävästi. Eräs mahdollisuus on yksinkertaisiin liikkeisiin
perustuva tuntoaistin hyödyntäminen. Tämä voitaisiin toteuttaa esim. hansikkaaseen
sijoitetulla anturilla, joka olisi aina saatavilla eikä häiritsisi käsien muuta käyttöä mer-
kittävästi. Tämän menetelmän etuna on ajallinen tarkkuus, joka on puheen kohdalla
ongelmallista. Menetelmä ei kuitenkaan vaadi kinestistä tarkkuutta vaan soveltuu suo-
ritettavaksi muiden tehtävien ohessa. Lisäksi tuntoaistin välityksellä voidaan antaa
tehokasta palautetta [Levitt, 1994], mikä vähentää audiovisuaalista kuormitusta.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 7 – HUOMIOT TESTEISTÄ JA JATKOKEHITYS
Sivu 83
7.7 Yhteenveto jatkokehityksestä
Virheiden hallinnan kehittäminen on tärkein puheohjatun selaimen jatkokehitysnäkö-
kohta. Edellytyksenä onnistuneelle virheiden hallinnalle on tilanteiden tunnistaminen
ja sopivien virheenkorjausmekanismien käyttäminen. Virheiden hallinnassa voidaan
soveltaa periaatteita ja menetelmiä, joita on esitetty puhesovellusten ja kolmiulotteis-
ten käyttöliittymien yhteydessä. Käyttäjätestit kuitenkin osoittivat, että puheen ja
kolmiulotteisten käyttöliittymien yhdistäminen muuttaa joitakin olettamuksia. Näin
kävi esim. nopeuden säätelyn ja palautteen merkityksen kohdalla.
Semanttisten virheiden vähentämiseksi olisi tärkeää löytää tilanteisiin parhaiten so-
veltuvat metaforat. Tämä ei kuitenkaan ole helppoa, sillä yksikäsitteistä metaforaa
lienee mahdotonta muodostaa. Huomiota tulisikin kiinnittää metaforien tukemiseen ja
erilaisiin vihjekäytäntöihin. Yksinkertaisten tilanteiden osalta kuitenkin havaittiin, että
metaforaan sopeudutaan hyvin. Suurempi ongelma on tällöin kolmiulotteisen maail-
man hahmottaminen. Huomio voidaankin suunnata tällaisissa tapauksissa maailman
hahmottamisen tukemiseen.
Tässä tutkimuksessa on tarkasteltu puheen käyttämistä hyvin pelkistetyissä olosuh-
teissa. Jatkon kannalta olisi mielenkiintoista suorittaa tutkimuksia, joissa kokeillaan
kehittyneempiä ohjausmuotoja ja monipuolisempia olosuhteita. Toimintovalikoimaa
voidaan laajentaa myös objektien valitsemiseen, käsittelyyn jne. Näillä saatetaan te-
hostaa toimintaa dramaattisesti, mutta ne tuovat samalla uusia virhemahdollisuuksia,
joiden korjaaminen saattaa olla huomattavastikin kompleksisempaa.
Erityisen mielenkiintoista on kehittää puheohjausta keskustelupohjaiseksi ja multimo-
daaliseksi. Järjestelmä ei olisi tällöin enää passiivinen komentojen vastaanottaja, vaan
voisi toimia myös aloitteen tekijänä. Vuorovaikutteisuutta voitaisiin käyttää virheiden
korjauksen lisäksi niiden ennalta ehkäisemiseen. Multimodaalisuus voisi puolestaan
auttaa vähentämään virheitä ja tätä kautta lisätä käyttäjien tyytyväisyyttä.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 8 – YHTEENVETO
Sivu 84
8 YHTEENVETO
Tämän tutkimuksen kohteena oli kolmiulotteisissa käyttöliittymissä tapahtuva vuoro-
vaikutus. Aihetta lähestyttiin puheohjauksen näkökulmasta. Puhe valittiin vaihtoeh-
doksi perinteisille ratkaisuille, koska se on tarpeeksi ilmaisuvoimainen menetelmä
kolmiulotteisen ympäristön hallintaan myös niissä tilanteissa, joissa käyttäjän kädet
eivät ole jatkuvasti käytettävissä.
Puheohjauksen tutkimiseksi rakennettiin puheentunnistusta hyödyntävä virtuaalimaa-
ilmojen selain. Selaimen avulla suoritettiin käyttäjätestejä, joissa tutkittiin erityisesti
virheiden vaikutuksia. Käyttäjätestien pohjalta esitettiin useita parannusehdotuksia
kehittyneemmän puheohjauksen muodostamiseksi. Sivutuotteena saatiin malli puhe-
ohjauksen liittämiseksi VRML 2.0-selaimiin. Mallin toimivuutta testattiin liittämällä
puheohjaus sellaiseen selaimeen, jota ei muutoin hyödynnetty kehitystyössä.
Järjestelmän tunnistusvirheiden osalta havaittiin, että kaikille käyttäjille soveltuvaa
komentovalikoimaa on mahdotonta muodostaa nykyisillä menetelmillä. Henkilökoh-
taiset erot olivat suuria, eikä ns. ongelmakäyttäjien suuria virhemääriä pystytty selit-
tämään pelkästään yksittäisten komentojen ongelmilla. Todettiin myös, että käytännön
olosuhteissa keskimääräinen virhetaso oli kolme kertaa suurempi kuin se, mitä ennak-
kotietojen perusteella odotettiin.
Havaittiin, että virheiden hallinnan täytyy perustua tilanteiden ymmärtämiseen, sillä
pelkän puheentunnistusjärjestelmän informaation varaan rakennettu virheenkorjaus ei
käytännössä toimi. Erityisesti on varottava virheiden kasaantumista tiettyihin virhe-
tyyppeihin, sillä tämä ärsyttää käyttäjiä ja vaikeuttaa virheiden haittavaikutusten mi-
nimointia. Virheiden määrällinen minimointi ei olekaan soveltuva ratkaisu reaaliai-
kaisten virtuaalimaailmojen yhteydessä.
Tunnistusvirheiden lisäksi kiinnitettiin huomiota semanttisiin virheisiin. Virheet liit-
tyivät pääasiassa käytettyyn ohjausmetaforaan, sillä käyttäjät sopeutuivat komentova-
likoimaan erittäin hyvin. Yksinkertaisissa tilanteissa havaittiin, että käytetyllä metafo-
ralla ei ole suurta vaikutusta. Tällöin suurempi ongelma olikin kolmiulotteisen maail-
man hahmottaminen. Puheen abstrakti luonne voikin helpottaa metaforan omaksu-
mista joissain tilanteissa. Tämän vuoksi sellaisia tuloksia, jotka on aikaisemmin saa-
vutettu muita modaliteetteja käyttäen, ei tule hyväksyä ilman niiden varmistamista
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 8 – YHTEENVETO
Sivu 85
puheohjaukseen soveltuviksi. Esimerkiksi Waren ja Osbornen [1990] esittämät vuoro-
vaikutusmetaforiin liittyvät havainnot olisi syytä tarkastaa empiirisin kokein sen
osalta, kuinka hyvin ne pitävät paikkansa puheen yhteydessä.
Monimutkaisten tilanteiden osalta havaittiin, että metafora vaatii tukemista. Erityisen
ongelmalliseksi havaittiin tilanteet, joissa maailmassa oli ainoastaan yksi käsitteelli-
sesti yhtenäinen objektiryhmä. Tältä osin assosioituminen objektien käsittelyyn on
niin vahvaa, ettei liikkumismetafora toimi kunnolla. Metaforan tukemiseen esitettiin
kohdassa 7.2.3 useita ratkaisuja, jotka pohjaavat kolmiulotteisen ympäristön hyödyn-
tämiseen.
Virheidenhallinnan kehittämiseksi esitettiin useita menetelmiä kirjallisuuteen poh-
jautuen. Huomiota kiinnitettiin erityisesti vahvistuksiin, sillä nämä ovat joustavampia
ja kevyempiä kuin varsinainen eksplisiittinen virheenkorjaus. Virheenhallinnan jous-
tavuus on tärkeää, sillä muutoin vaarana on järjestelmän reaaliaikaisuuden järkkymi-
nen. Virheidenhallinnan pohjaksi esitettiin virheiden korjaamisessa esiintyviä toimen-
pidesekvenssejä. Näiden käytännöllisyyden toteaminen ja tarkennus ovat jatkotutki-
musten tärkeitä aiheita.
Selaimen antaman palautteen osalta havaittiin, että käyttäjät seurasivat tätä hyvin vä-
hän. Tämä poikkeaa yleisestä käsityksestä, sillä palaute mielletään erittäin tärkeäksi.
Osasyynä palautteen vähäiseen seuraamiseen saattaa olla käytön aikana oleva visuaa-
linen kuormitus, jota voidaan vähentää antamalla palautetta muussa muodossa, kuten
puhetulosteina. Puhetulosteisiin liittyy kuitenkin useita ongelmia, minkä vuoksi myös
muita palautemuotoja tulee tarkastella. Esimerkiksi auditoriset ikonit ja tuntoaistin
käyttäminen ovat mahdollisia vaihtoehtoja.
Eräs tutkimuksen tavoite oli käyttäjien tuominen mukaan suunnitteluun. Käyttäjät il-
moittivat kaipaavansa erityisesti mahdollisuutta nopeuden kontrollointiin sekä peru-
mistoimintoa. Molempiin esitettiin useita ratkaisuja. Nopeuden kontrolloinnin osalta
havaittiin, että käyttäjien ehdottamat menetelmät poikkesivat siitä, mitä on totuttu pi-
tämään ihmiselle helpoimpana. Toinen mielenkiintoinen havainto oli se, että käyttäjiä
ärsytti toimettomana olo. He halusivat osallistua toimintaan, vaikka tämä ei olisikaan
tehokkuuden kannalta optimaalista. Onkin varottava suunnittelemasta sellaisia puhe-
käyttöliittymiä, jotka pyrkivät maksimoimaan tehokkuuden muiden seikkojen kustan-
nuksella.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ 8 – YHTEENVETO
Sivu 86
Käyttäjiltä tiedusteltiin myös puheen soveltuvuutta eri tilanteisiin. Parhaiten koehen-
kilöt mielsivät puheohjauksen soveltuvan etäisyyden säätelyyn sekä kääntymisen
kontrollointiin. Perusliikkumiseen käyttäjät haluaisivat käyttää mieluummin jotakin
muuta modaliteettia. Jatkokehityksen kannalta multimodaalisuus onkin tärkeä näkö-
kohta, sillä sen avulla voidaan helpottaa erityisesti ongelmallisia toimintoja ja keskit-
tää puheohjauksen kehitys sille parhaiten soveltuviin toimintoihin. Multimodaali-
suutta voidaan hyödyntää mm. katseohjauksella ja tuntoaistilla. Multimodaalisuuden
lisäksi tärkeä jatkokehityssuunta on luonnollisen kielen hyödyntäminen, joka mahdol-
listaa korkeamman tasoisen toiminnallisuuden.
Käyttäjätestien perustella puheohjaus soveltuu yksinkertaisiin tilanteisiin, mutta mo-
nimutkaisten tilanteiden osalta kehittämisen varaa on vielä paljon. Ohjaukseen käy-
tetty metafora on laajennettavissa monella tapaa, esimerkiksi objektien manipulointiin
soveltuvaksi. Toiminnallisuuden kehittämistä tärkeämpi näkökohta on kuitenkin pe-
rustoimintojen virhevapaus, sillä tämä ratkaisee lopulta järjestelmän käytettävyyden.
Tutkimuksessa ei suoritettu lainkaan eri vuorovaikutusmenetelmien, kuten erilaisten
ohjausmetaforien vertailua. Pääasiallinen syy tähän on näiden vaatima koejärjestely-
jen raskaus. Vertailututkimusten lisäksi tärkeä tulevaisuuden tutkimuskohde on tässä
esitettyjen päätelmien todentaminen yksinkertaistetuilla muodollisilla koetilanteilla.
Eräs merkittävä ongelma, joka vaikeutti analysointia, olikin koetilanteiden monimut-
kaisuus. Jatkotutkimukset tulee eriyttää siten, että osassa tutkitaan yksittäisiä asioita
formaalisti pienimuotoisissa kokeissa ja toisissa kerätään yleisvaikutelmia laajemmis-
sa yhteyksissä.
Eräs mahdollisuus jatkokehitykseen on järjestelmän muokkaaminen vapaaseen levi-
tykseen soveltuvaksi. Tämä on mahdollista, sillä on olemassa vapaasti levitettävä pu-
hesovellusten kehitysjärjestelmä [Microsoft, 1998b], joka soveltuisi korvamaan tässä
käytetyn kaupallisen sovelluksen. Nykyisen selaimen prototyyppi olisi muokattavissa
siten, että se soveltuisi EAI-rajapinnan avulla liitettäväksi mihin tahansa EAI:ta tuke-
vaan VRML 2.0-selaimeen. Uskon, että tällä tavoin käyttäjiltä saataisiin runsaasti ide-
oita, sillä testien perusteella konsepti on niin kiinnostava, että se herättää poikkeuk-
sellisen paljon huomiota ja saa osakseen kommentteja. Tämä voisi ohjata kehitystyötä
valtavasti eteenpäin, sillä käyttäjien osallistuminen suunnitteluun on äärimmäisen tär-
keää kehityksen tässä vaiheessa.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ LÄHDELUETTELO
Sivu 87
LÄHDELUETTELO
[Allen, 1994] Allen J. Linguistic Aspects of Speech Synthesis. In Voice Communication Between Hu-
mans and Machines. Roe, D., Wilpon, J. (editors). National Academy Press, Washington D.C.,
1994: 135-155.
[Andrews et al., 1998] Andrews, K., Pesendorfer, A., Pichler, M., Wagenbrunn, K.H., Wolte, J. Look-
ing Inside Vrwave: The Architecture and Interface of the Vrwave VRML97 Browser. In Proc.
of VRML’98, Monterey, California, Feb. 1998.
http://ece.uwaterloo.ca:80/vrml98/cdrom/papers/andrews/andrews.pdf. 17.4.1998.
[Atal & Jayant, 1996] Atal, B., Jayant, N. Speech Coding. In Survey of the State of the Art in Human
Language Technology. 1996. http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html.
9.4.1998.
[Balakrishnan et al., 1997] Balakrishnan, R., Baudel, T., Kurtenbach, G., Fitzmaurice, G. The Rock-
in’Mouse: Integral 3D manipulation on a plane. In Proc. of CHI ’97. New York: ACM, 1997:
311-318.
[Bates, 1994] Bates, M. Models of Natural Language Understanding. In Voice Communication Be-
tween Humans and Machines. Roe, D., Wilpon, J. (editors). National Academy Press, Wash-
ington D.C., 1994: 238-253.
[Bier, 1990] Bier, E. Snap-Dragging in Three Dimensions. In Proc. 1990 Symposium on Interactive
3D Graphics, Computer Graphics, 24 (2): 193-204.
[Bourdakis, 1996] Bourdakis, V. From CAAD to VR; Building a VRML model of London’s West End.
In The Third UK Virtual Reality Special Interest Group Conference, July 1996: 5-14.
http://fos.bath.ac.uk/vas/papers/3rd-UKVRSIG/. 17.04.1998.
[Bowman et al., 1997] Bowman, D., Koller, D., Hodges, L. Travel in Immersive Virtual Environ-
ments: An Evaluation of Viewpoint Motion Control Techniques. In Proceedings of the Virtual
Reality Annual International Symposium (VRAIS): 45-52, 1997.
http://www.cc.gatech.edu/gvu/people/Phd/Doug.Bowman/travel_final.ps. 20.4.1998.
[Bradford, 1995] Bradford, J. The Human Factors of Speech-Based Interfaces: A Research Agenda.
ACM SIGCHI Bulletin, 27 (2): 61-67.
[Brown, 1994] Brown, M. Design Specifications for Air Traffic Control Displays: 2D, 3D and VR.
Computer Science Technical Report 676, QMW College, University of London, May 1994.
[Bukowski & Sequin, 1995] Bukowski, R., Sequin, C. Object Associations – A Simple and Practical
Approach to Virtual 3D manipulation. In ACM 1995 Symposium on Interactive 3D Graphics:
131-138. http://http.cs.berkeley.edu/~bukowski/final9.ps. 17.4.1998.
[Buskirk & LaLomia, 1995] Buskirk, R., LaLomia, M. A comparison of speech and mouse/keyboard
GUI navigation. In Proceedings of ACM CHI’95 Conference on Human Factors in Computing
Systems 1995: 96.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ LÄHDELUETTELO
Sivu 88
[Carlson, 1994] Carlson, R. Models of Speech Synthesis. In Voice Communication Between Humans
and Machines. Roe, D., Wilpon, J. (editors). National Academy Press, Washington D.C.,
1994: 116-134.
[Chapanis, 1975] Chapanis, A. Interactive Human Communication. Scientific American, 232: 36-42,
1975.
[Chen et al., 1988] Chen, M., Mountford, S., Sellen, A. A Study in Interactive 3-D Rotation Using 2-D
Control Devices. In Proceedings of SIGGRAPH’88, ACM SIGGRAPH, August 1988: 121-
129.
[Cohen & Oviatt, 1994] Cohen, P., Oviatt, S. The Role of Voice in Human-Machine Communication.
In Voice Communication Between Humans and Machines. Roe, D., Wilpon, J. (editors). Na-
tional Academy Press, Washington D.C., 1994: 34-75.
[d’Alessandro & Liénard, 1996] d'Alessandro, C. & Liénard, J.-S. Synthetic Speech Generation. In
Survey of the State of the Art in Human Language Technology: 4-10. 1996.
http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html. 9.4.1998.
[van Dam, 1997] van Dam, A. Post-WIMP User Interfaces. Communications of the ACM, 40 (2): 63-
67.
[Damper et al., 1996] Damper, R., Tranchant, M., Lewis, S. Speech Versus Keying in Command and
Control: Effect of Concurrent Tasking. International Journal Of Human-Computer Studies, 45:
337-348, 1996.
[Darken, 1994] Darken, R. Hands-off Interaction with Menus in Virtual Spaces. In Proceedings of
SPIE '94, Stereoscopic Displays and Virtual Reality Systems. Vol. 2177: 365-371.
http://www.npsnet.nps.navy.mil/darken/Publications/virtualmenus.pdf. 17.4.1998.
[Darken & Sibert, 1993] Darken, R., Sibert, J. A Toolset for Navigation in Virtual Environments. In
User Interface Software and Technology, 1993: 157-165. Atlanta, GA: ACM Press.
[Darken & Sibert, 1996] Darken, R., Sibert, J. Navigating Large Visual Spaces. The International
Journal of Human-Computer Interaction, 8 (1): 49-72.
[De Mori & Brugnara, 1996] De Mori, R., Brugnara, F. HMM Methods in Speech Recognition. In Sur-
vey of the State of the Art in Human Language Technology. 1996.
http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html. 9.4.1998.
[Entropic, 1998] grapHvite Speech Recognition Prototyping System.
http://www.entropic.com/htk/graphvite.html. 20.4.1998.
[Fraser & Gilbert, 1991] Fraser, N., Gilbert, G. Simulating Speech Systems. Computer Speech and
Language, 5 (1): 81-99, 1991.
[Furui, 1994] Furui, S. Toward the Ultimate Synthesis/Recognition System. In Voice Communication
Between Humans and Machines. Roe, D., Wilpon, J. (editors). National Academy Press,
Washington D.C., 1994: 450-466.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ LÄHDELUETTELO
Sivu 89
[Gaver, 1989] Gaver, W. The SonicFinder: An Interface That Uses Auditory Icons. Human-Computer
Interaction, 4 (1): 67-94, 1989.
[Goderéaux et al., 1996] Goderéaux, C., Diebel, K., El-Guedj, P.-O., Revolta, F., Nugues, P. An Inter-
active, Spoken Dialog Interface to Virtual Worlds. In Linguistic Concepts and Methods in
CSCW. Connolly, J., Permberton, L. (editors). Springer-Verlag, London, 1996: 177-200.
[Herndon et al., 1992] Herndon, K., Zeleznik, R., Robbins, D., Conner, D., Snibbe, S., van Dam, A.
Interactive Shadows. In Proc. ACM SIGGRAPH Symposium on User Interface Software and
Technology, 1992: 1-6.
[Herndon et al., 1994] Herndon, K., van Dam, A., Gleicher, M. The Challenges of 3D interaction: A
CHI’94 Workshop. SIGCHI Bulletin, 26 (4), Oct. 1994: 36-43.
[Hinckley et al., 1994] Hinckley, K., Pausch, R., Goble, J., Kassell, N. A Survey of Design Issues in
Spatial Input. In Fourth Annual Symposium on User Interface Software and Technology, No-
vember, 1994: 213-222.
[Hirschman, 1994] Hirschman, L. The Roles of Language Processing in a Spoken Language Interface.
In Voice Communication Between Humans and Machines. Roe, D., Wilpon, J. (editors). Na-
tional Academy Press, Washington D.C., 1994: 217-237.
[Houde, 1992] Houde, S. Iterative Design of an Interface for Easy 3-D Direct Manipulation. In Pro-
ceedings of CHI’92, ACM SIGCHI, May 1992: 135-142.
[Hunt, 1996] Hunt, M. Signal Representation. In Survey of the State of the Art in Human Language
Technology. 1996. http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html. 9.4.1998.
[Jacob et al., 1994] Jacob, R. Sibert, L., McFarlane, D., Mullen, M. Integrality and Separability of
Input Devices. ACM Transactions on Computer-Human Interaction, 1 (1): 3-26, 1994.
[Kamm, 1994] Kamm, C. User Interfaces for Voice Applications. In Voice Communication Between
Humans and Machines. Roe, D., Wilpon, J. (editors). National Academy Press, Washington
D.C., 1994: 422-442.
[Karl et al., 1993] Karl, L., Pettey, M., Shneiderman, B. Speech-Activated versus Mouse-Activated
Commands for Word Processing Applications: An Empirical Evaluation. Intl. J. Man-Machine
Studies, 39 (4): 667-687, 1993.
[Karlgren et al., 1995] Karlgren J., Bretan, I., Frost, N., Johnsson, L. Interaction Models, Reference,
and Interactivity in Speech Interfaces to Virtual Reality. Paper presented at the Eurographics
Workshop, Kista Sweden, 1995. http://www.sics.se/~jussi/springer.ps. 20.4.1998.
[Kazi et al., 1995] Kazi, Z. Salganicoff M., Beitler, M. Chen S., Chester D., Foulds R. Direct Ma-
nipulation of 3-D Objects Through Multimodal Control: Towards a Robotic Assistant for
People with Physical Disabilities. ASEL Technical Report #ROB9509, Applied Science &
Engineering Laboratories, AI duPont Institute/University of Delaware. 1995.
http://www.asel.udel.edu/robotics/musiic/docs/musiic-ROB9509.ps.Z. 20.4.1998.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ LÄHDELUETTELO
Sivu 90
[Koike, 1993] Koike, H. The Role of Another Spatial Dimension in Software Visualization. ACM
Transactions on Information Systems, 11 (3): 266-286. 1993.
[Leatherby & Pausch, 1992] Leatherby, J., Pausch, R. Voice Input as a Replacement for Keyboard
Accelerators in a Mouse-Based Graphical Editor: An Empirical Study. Journal of the Ameri-
can Voice Input/Output Society, 11:2, July 1992.
http://www.cs.virginia.edu/~uigroup/publications/92/journals/AVIOS/keyboardAccellerators/
paper.html. 20.4.1998.
[Levitt, 1994] Levitt, H. Speech Processing for Physical and Sensory Disabilities. In Voice Communi-
cation Between Humans and Machines. Roe, D., Wilpon, J. (editors). National Academy
Press, Washington D.C., 1994: 311-343.
[Liberman, 1994] Liberman, M. Computer Speech Synthesis: Its Status and Prospects. In Voice Com-
munication Between Humans and Machines. Roe, D., Wilpon, J. (editors). National Academy
Press, Washington D.C., 1994: 107-115.
[Mackinlay et al., 1990] Mackinlay, J., Card, S., Robertson, G. Rapid Controlled Movement Through a
Virtual 3D Workspace. Computer Graphics, 24 (4): 171-176, 1990.
[Makhoul & Schwartz, 1994] Makhoul, J., Schwartz, R. State of the Art in Continuous Speech Recog-
nition. In Voice Communication Between Humans and Machines. Roe, D., Wilpon, J. (edi-
tors). National Academy Press, Washington D.C., 1994: 165-198.
[Mane et al., 1996] Mane, A., Boyce, S., Karis, D., Yankelovich, N. Designing the User Interface for
Speech Recognition Applications. SIGCHI Bulletin, 1996, Volume 28 (4): 29-34.
[Marrin, 1997] Marrin, C. External Authoring Interface Reference.
http://cosmosoftware.com/developer/moving-worlds/spec/ExternalInterface.html. 14.4.1998.
[Martin, 1989] Martin, G. The Utility of Speech Input in User Computer Interfaces. International Jour-
nal of Man-Machine Studies, 30: 355-375, 1989.
[Microsoft, 1998a] Liquid Reality White Paper.
http://www.microsoft.com/dimensionx/lr/info/whitepaper.html. 14.4.1998.
[Microsoft, 1998b] Microsoft Speech SDK 3.0. http://research.microsoft.com/research/srg/. 14.4.1998.
[Mine, 1995] Mine, M. Virtual Environment Interaction Techniques. UNC Chapel Hill Computer Sci-
ence Technical Report TR95-018, 1995. ftp://ftp.cs.unc.edu/pub/technical-reports/95-
018.ps.Z. 20.4.1998.
[Moore, 1994] Moore, R. Integration of Speech with Natural Language Understanding. In Voice
Communication Between Humans and Machines. Roe, D., Wilpon, J. (editors). National
Academy Press, Washington D.C., 1994: 254-271.
[Nakatsu & Suzuki, 1994] Nakatsu, R., Suzuki, Y. What Does Voice-Processing Technology Support
Today? In Voice Communication Between Humans and Machines. Roe, D., Wilpon, J. (edi-
tors). National Academy Press, Washington D.C., 1994: 390-421.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ LÄHDELUETTELO
Sivu 91
[O’Shaughnessy, 1987] O’Shaughnessy, D. Speech Communication. Addison-Wesley Publishing
Company, New York, 1987.
[Osborn & Agogino, 1992] Osborn, J., Agogino, A. An Interface for Interactive Spatial Reasoning and
Visualization. In Proc. ACM CHI'92 Human Factors in Computing Systems Conference,
ACM SIGCHI 1992: 75-82.
[Oviatt et al., 1997] Oviatt, S., DeAngeli, A., Kuhn, K. Integration and Sychnonization of Input Modes
during Multimodal Human-Computer Interaction. In Proceedings of Conference on Human
Factors in Computing Systems: CHI '97: 415-422, New York, ACM Press.
[Pichler et al., 1995] Pichler, M., Orasche, G., Grossman, E., McCahill, M. Vrweb: A Multi-System
VRML Viewer. In Proc. of First Annual Symposium on the Virtual Reality Modeling Lan-
guage (VRML 95): 77-85, San Diego, California, Dec. 1995.
http://www2.iicm.edu/vrml95/vrweb.html. 20.4.1998.
[Pittman et al., 1997] Pittman, J., Smith, I., Cohen, P., Oviatt, S. & Yang, T.-C. Quickset: A multimo-
dal interface for millitary simulations. In Proceedings of the 6th Conference on Computer-
Generated Forces and Behavioral Representation, University of Central Florida, 1996, 217-
224. http://www.cse.ogi.edu/CHCC/Publications/text.html.
[Poock, 1980] Poock, G. Experiments with Voice Input for Command and Control: Using Voice Input
to Operate a Distributed Computer Network. Naval Postgraduate School Report, NPS55-80-
016, Montrey, CA, USA, 1980.
[Price, 1996] Price, P. Spoken Language Understanding. In Survey of the State of the Art in Human
Language Technology. 1996. http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html.
9.4.1998.
[Raman, 1997] Raman, T. Auditory User Interfaces: Toward the Speaking Computer. Kluwer Aca-
demic Publishers, Boston Hardbound, August 1997.
[Robinett & Holloway, 1992] Robinett, W., Holloway, R. Implementation of Flying, Scaling, and
Grabbing in Virtual Worlds. In 1992 Symposium on Interactive 3D Graphics, ACM SIG-
GRAPH, 1992: 189-192.
[Roukos, 1996] Roukos, S. Language Representation. In Survey of the State of the Art in Human Lan-
guage Technology. 1996. http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html.
9.4.1998.
[Schmandt, 1994] Schmandt, C. Voice Communication with Computers. Van Nostrand Reinhold, New
York, 1994.
[Smith et al., 1996] Smith, A., Dunaway, J., Demasco, P., Peischl, D. Multimodal Input for Computer
Access and Augmentative Communication. In Annual ACM Conference on Assistive Tech-
nologies 1996: 80-85.
PUHEOHJAUS 3D-KÄYTTÖLIITTYMISSÄ LÄHDELUETTELO
Sivu 92
[Stoakley et al., 1995] Stoakley, R., Conway, M., Pausch, R. Virtual Reality on a WIM: Interactive
Worlds in Miniature. In Human Factors in Computing Systems, CHI ’95 Conference Pro-
ceedings, ACM Press, 1995: 265-272.
[Trancoso, 1996] Trancoso, I. Transmission and Storage: Overview. In Survey of the State of the Art
in Human Language Technology. 1996.
http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html. 9.4.1998.
[Ware, 1996] Ware, C. Moving Motion Metaphors. In Proceedings of CHI ’96: ACM conference on
Human Factors in Computing Systems: 225-226. New York, NY.
[Ware & Osborne, 1990] Ware, C., Osborne, S. Exploration and Virtual Camera Control in Virtual
Three Dimensional Environments. In Proceedings of 1990 Symposium on Interactive 3D
Graphics, ACM SIGGRAPH, 1990: 175-183.
[Ware et al., 1993] Ware, C., Arthur, K., & Booth, K. Fish Tank Virtual Reality. In Human Factors in
Computer Systems INTERCHI ’93 Conference Proceedings. ACM Press, 1993: 37-42.
[Venolia, 1993] Venolia, D. Facile 3D Direct Manipulation. In Human Factors in Computer Systems
INTERCHI ’93 Conference Proceedings. ACM Press, 1993: 31-36.
[Wilpon, 1994] Wilpon, J. Applications of Voice-Processing Technology in Telecommunications. In
Voice Communication Between Humans and Machines. Roe, D., Wilpon, J. (editors). Na-
tional Academy Press, Washington D.C., 1994: 280-310.
[Wloka, 1995] Wloka, M. Interacting with Virtual Reality. In Virtual Prototyping - Virtual Environ-
ments and the Product Development Process, (ed. Rix, J., Haas, S., Teixeira, J.), Chapman &
Hall, 1995.
[Zue et al., 1996] Zue, V., Cole, R., Ward, W. Speech Recognition. In Survey of the State of the Art in
Human Language Technology. 1996.
http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html. 9.4.1998.