F6: UTVÄRDERING AV SPRÅKGRANSKNINGSVERKTYG Ola Knutsson [email protected]Innehåll Korpusbaserad utvärdering Automatisering av utvärdering !uppmärkta fel" Helautomatisk utvärdering !artificiella fel" ISO 9126 Usability testing Användarstudier Utvärdering som en del av systemutvecklingsprocessen Demo av Grim Varför skall man utvärdera språkgranskningssystem? Två olika sätt att utvärdera Två vägar att gå för att anpassa verktygen Produktorientering: Felkorpus, felannotering och feltypologi Aktivitetsorientering: metoder för att studera skrivaktiviteter # användarstudier
14
Embed
Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut ... Lära känna kursen,
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Utvärdering som en del av systemutvecklingsprocessen
Demo av Grim
Varför skall man utvärdera språkgranskningssystem?
Två olika sätt att utvärdera
Två vägar att gå för att anpassa verktygen
Produktorientering: Felkorpus, felannotering och feltypologi
Aktivitetsorientering: metoder för att studera skrivaktiviteter # användarstudier
Att annotera fel
Svårigheter
Hur påverkar detta resultatet?
Annoteringsövningar
Jag har precis flyttat in i ett nytt villa.
i kväl en gammal man läser bocken som heter "Mordet på Cirkus" Han läggar sig i sängen. Det är möligt ute.
Jag bor i Fetja. Jag åker från till Frescati halv timmer vi måste sitter i tunlbana och bussen. Jag måste vackna klockan sex, därför att det är lång väg och börjar min klass klockan 8, och Jag hoppa. Kan jag sultat kalas och börjar fakolititet.
Intern och extern utvärdering
Black box$utvärdering
Utvärdera varje enskild modul för att få fram var störst insatser för förbättringar skall läggas.
Olika delproblem att utvärdera
Detektionen
Diagnosen
Ersättningsförslagen
Utvärderingsmåtta= antal korrekt detekterade fel = antal korrekta alarm
I populärvetenskaplig text upptäcktes 9 av 10 fel, 5 av 10 felrapporter var korrekta
Gymn.$ och högskoletexter upptäcktes 4 av 10 fel, 7 av 10 felrapporter var korrekta
Word H GC----------------Kvinnan! OK OK!hade! OK OK !köpt! ! OK OKen! ! OK OKny! ! OK OKhus!! ERR ERRbil ERR ERR. OK OKHan OK OKträffade OK OK en OK OKmassa OK ERRbedömare OK ERRigår OK OK. OK OK
Två mål för att förbättra verktygen
Iterativ design av verktygens kärna. Men hur länge kan man egentligen hålla på?
Iterativ design av verktygens interaktion och gränssnitt.
Forskning vs. produktutveckling
Felkorpusar
korpusar med korrekturläst språk
felkorpusar
felannotering
feltypologi
Hur skall man annotera felen?
Tolkning eller vad som faktiskt står? Var går gränsen för lingvistik?
Feltyper? Är stavfel en feltyp eller skall man tala om böjningsfel, ortografiska brott !insättning, borttagning, omkastning, transformation"
Fungerar dessa även på grammatisk nivå?
I gränslandet: Särskrivna sammansättningar
Stavfel?
Grammatiska fel?
Semantiska fel?
Kategori Exempel
Deletion Det är bra att man tabuläger svordomar och könsord.
Insertion De som är emot tycker att det inte behövs inte i språket.
Substitution Till exempel på en fotbollsmatch reagerar inte många för svordomarna.
TranspositionEn sak tycker jag att vi alla kan hålla
med om är att svordomar och könsord är onödigt i språket.
Feature mismatch Slangen anses som fula och opassande.
<annot> <position pos="6" /> <type>ORTOGRAFISKT FEL</type> <type>SUBSTITUTION</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggrevisitet kommer ut </suggestion> <annotatedWords>aggrivisitet </annotatedWords> </annot>
<annot> <position pos="6" /> <type>ORTOGRAFISKT FEL</type> <type>DELETION</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggrevissitet kommer ut</suggestion> <annotatedWords>aggrivisitet </annotatedWords> </annot>
<annot> <position pos="6" /> <type>ORTOGRAFISKT FEL</type> <type>TRANSPOSITION</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggressivitet kommer ut</suggestion> <annotatedWords>aggrivisitet </annotatedWords> </annot>
<type>MORFOSYNTAKTISKT FEL</type> <type>SUBSTITUTION</type> <type>lexikonfel</type> <text>på de lägre stadiumen . </text> <comment></comment> <suggestion>på de lägre stadierna . </suggestion> <annotatedWords>stadiumen </annotatedWords
Norsk Andrespråkskorpus (ASK)
offentlige språkprøvene i norsk for voksne innvandrere en felkorpus en korrigerad version
Feilkodene kan deles i fem typer:
Leksemfeil: W (galt ord) ORT (ortografisk feil) PART (samskrivningsfeil, avledningsfeil) SPL (særskrivningsfeil) CAP (galt valg av stor/liten bokstav) FL (ord fra andre språk enn norsk)
Morfologifeil: F (galt valg av morfosyntaktisk bøyningsform) INFL (feil form der intensjonen er riktig morfosyntaktisk kategori)
Syntaksfeil: M (et ord eller en frase mangler) R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk) O (ord eller fraser står i gal rekkefølge)
Interpunktuasjonsfeil: PUNC (galt valg av tegn) PUNCM (tegnsetting mangler) PUNCR (tegnsetting må fjernes)
Uidentifiserbar feil X (umulig å gi en klar tolkning av tekstsutdragets intensjon)
Kritik mot felanalys
Dagneaux et al 1. Heterogeneous learner data 2. Error categories are fuzzy3. Cannot cater avoidance strategies4. Focus on what a learner cannot do5. Product oriented (static view)
Vad säger egentligen precision och täckning?
Ökad kritik mot de utvärderingsmetoder som används hittills språkteknologin.
Idealiserad användning av programmen i laboratoriemiljö !se t.ex. Sparc Jones 2001".
Men alla program behöver inte utvärderas med användare !t.ex. parsrar"
Användarcentrerad utveckling av granskningsverktyg
Hur skall vi studera skrivande, lärande och användning av olika verktyg?
Mer specifikt: hur skall vi undersöka hur verktygen används i olika aktiviteter?
Resultaten skall användas för att förbättra programmen, både insida och utsida.
Utvärdering som ett led i systemutvcklingsprocessenISO 9126:
Ändamålsenlighet nå målen fri från fel fullständighetEffektivitet-produktivitet hur mycket tid och andra resurser som krävsTillfredsställelse bekvämlighet acceptans
Vad är användbarhet?
Definition
ISO 9241-11
Användbarhet: I hur hög grad en specifik användare i ett givet
sammanhang kan bruka en produkt för att uppnå specifika mål
på ett ändamålsenligt, effektivt och för användaren
tillfredsställande sätt.
Vad påverkar och vad påverkas?
Faktorer i användnings- kontexten
Användaren
Uppgiften
Produkten
Miljön
Faktorer som kan specificeras
Användbarhetsmått
Ändamålsenlighet
Effektivitet
Tillfredsställelse
Faktorer som kan mätas
ISO 9241-11
Hur mäter man användbarhet?
Användbarhetsmått
Ändamålsenlighet
Effektivitet
Tillfredsställelse
Faktorer som kan mätas
• Tid att utföra uppgifter
• Precision, felfrihet• Antal klarade uppgifter• Optimal väg
2. Specificering av anv. sammanhanget.Användaren: kunskaper, erfarenheter, vana, kultur.Miljön: platsen, befintliga system & hjälpmedel.Arbetsuppgifter: hur ofta arbetsflöde, önskat resul-tat, befogenheter/ansvar, behov för att lösa uppg.
Är ett program användbart när det har fler än 1000 användare per dag? (the Systran case), 1 million translations each day (Jurafsky & Martin, 2000)
Är ett program användbart när en forskare visar det genom att mäta någon egenskap hos programmet (part-of-speech tagger?)
Eller är ett program användbart när vi vet att användarna uppskattar det? (Eliza, drill-and-kill i CALL)
Glider vi in en ny disciplin nu?
Datorstödd språkinlärning !CALL"
Språkteknologin styvmoderligt behandlad
Vad behöver vi veta för att lyckas? Andraspråksinlärning, MDI, Datorstödd inlärning generellt !skillnad?" och språkteknologi och datalogi.
Går det att bevisa lärande sker?
Kan vi mäta e'ekterna av användningen av ett CALL$program?
Kan vi visa att falska alarm inte är farliga?
Många studier inom fältet andraspråksinlärning bygger på pre$test och post$test. Är det så enkelt?
Tänka-högt metodik
Vad är syftet med tänka$högt?
Man vill veta vad personen “tänker” vid en speciell handling vid en speciell tidpunkt.
Vad blir skillnaden om du tänker högt med en kompis?
Loggning Fältstudier
Världen ligger utanför laboratoriet
Mer okontrollerad datainsamling speciellt om studien pågår en längre tid.
Etnografi
Teoristyrd metod !t.ex. sociokulturell", man vill ofta visa något, t.ex. kontexten styr tolkningen av uppgifter !t.ex. portotabellen"
Fältstudier med Granska
16 studenter, 3 månader till 10 år i Sverige
20$40 år gamla, endast en man.
Avancerad kurs i svenska som främmande språk.
Vi förklarade att Granska endast är ett datorprogram med begränsad språklig “förmåga”.
Implementationen av fältstudien
! Kontakter med lärare, studierektor
! Lära känna kursen, dess mål, innehåll och dess studenter
! Introduktion av oss och projektet
! Deltagande observationer !Granska i datorsal"
! Insamling av data
! Medgivandeformulär
Why focus on errors?
“The learners’ errors are a register of their current perspective of the target language” !James, 1998".
“Noticing a problem ‘pushes’ the learner to modify his/her output” !Swain & Lapkin, 1995": # syntactic processing mode # important for the development of IL
Instruktioner till användarna
”Använd Granska när du vill
och när du tycker att programmet
kan hjälpa dig”
Fokus på studenternas fria skrivande
detection
diagnosis
correction
5. Utmärkt $ t.ex. jag förstår precis vad Granska menar
4. Bra # t.ex. Granska är till ganska stor hjälp
3. Godkänt # t.ex. jag har svårt att ta ställning, men jag chansar …
2. Dåligt # t.ex. jag har svårt att ta ställning, måste slå i lärobok
1. Obegripligt # t.ex. jag förstår inte vad Granska menar
Antal uppgifter, vilken typ Ordförande inledde diskussionen och deltagarna hade olika uppfattning om vad en uppgift och ett ämnet är. ((((ett ämnet ((((Om ett syftar på ämnet är det kongruensfel !kong22E@kong" (M5,D3,E2) Här borde det vara ett ämne
((((det ämnet
De föreslog att ett prov med flera delar / uppgifter betyder flera skriftliga uppsatser eller övningar !t. ex. grammatik eller ordkunskap" som måste göras under provet. Ett ämne beskrevs som en uppsatsfråga !t. ex. pappaledighet". Efter en tolkning av vad en uppgift och ett ämne egentligen betyder samt en kort diskussion beslutade mötes majoritetet att en uppgift på provet är tillräcklig. ((((majoritetet ((((Okänt ord !stav1@stavning" Stava (M5,D3,E5) Här borde det vara: beslutade majoriteten... ((((majoriteten((((majoriteter
Språkteknologi för inlärare
Hur kan vi stödja inlärning med annan teknik än en robust grammatikkontroll?
Vilken funktionalitet är viktig i en miljö för inlärare av svenska?
Bedömningar av falska alarm
Error typedetection
meandiagnosis
meancorrection
mean
Agr. NP 5 2 2
Spelling 4 3.3 2.6
Word order
5 5 5
Missing X 2.3 1.7 1.7
Resultat
Brist på “feedback” och vilseledande
“feedback”
Olika källor med lingvistisk information # ett verktyg räcker inte.
Fokus på form
Mer resultat
Att lita på programmet
Metaspråk och grammatisk kunskap
Genomskinlighet !kan man få fram stavningsreglerna ur stavningskontrollen"
Interaktion and integration
Användaranpassning av Granska
Andraspråksinlärare och användare med speciella behov
Andra behov av språklig hjälp
Om en mening innehåller många fel är den synnerligen svår att analysera
Nya krav på gränssnitt och innehåll $$>
Grim!
Några insikter
En grupp av studenter vill lära sig från programmet.
En annan grupp av studenter vill endast lyckas med skrivuppgifterna !kursen".
Läraren är mycket viktig för förklara programmet och dess innehåll. Läraren står så att säga mellan programmet och studenten.
Hur skall vi designa ett program för
andraspråksinlärning?
Vårt förslag är Grim.
Grim är en lärmiljö med många olika verktyg.
Grim ger “feedback” på olika aspekter av skribentens språk.
Grim ger exempel på målspråkets användning
Diskussion
Är Grim en lärmiljö?
Skall man bygga in pedagogiska paket i miljön?
Semantisk återkoppling $$ när blir det “focus on forms”?
Varför används datorer så lite i språkutbildning?
Hur kan vi studera Grim på ett naturligt sätt utan marknadsföra det?