Top Banner
www.gu.s e Katarina Mühlenbock, datalingvist [email protected] [email protected] I see what you mean – Assessing readability for specific target groups Avhandling vid Språkbanken, Institutionen för svenska språket, Göteborgs universitet Temadag DART
23

Katarina Mühlenbock, datalingvist [email protected]

Feb 03, 2016

Download

Documents

oriel

Katarina Mühlenbock, datalingvist [email protected] [email protected]. I see what you mean – Assessing readability for specific target groups Avhandling vid Språkbanken, Institutionen för svenska språket, Göteborgs universitet Temadag DART. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Katarina Mühlenbock, datalingvist

[email protected]

[email protected]

I see what you mean – Assessing readability for specific target groups

Avhandling vid Språkbanken, Institutionen för svenska språket, Göteborgs

universitet

Temadag DART

Page 2: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Syftet med avhandlingen Enkel svensk text Målgruppen Textförenkling Läsbarhet Hur kan språkteknologiska metoder användas för att

mäta läsbarhet? Vilka egenskaper hos texten har jag studerat? Resultat

Disposition av presentationen

Page 3: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Syftet med avhandlingen

• Granska vetenskaplig litteratur och hitta belägg för att vissa egenskaper hos en text påverkar komplexitet och läsbarhet (= evidensbaserat)

• Egenskaperna ska vara belagda genom läsförståelsetest, ögonrörelsemätning eller hjärnavbildningsteknik

• Statistiskt jämföra egenskaperna hos texter som tillhör samma genre (skönlitteratur, nyhetstext eller information), men av olika komplexitet

• Skapa en språkmodell att använda i en automatisk textklassificerare

Avhandlingsämnet

Page 4: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

”Enkel svensk text”

• Centrum för lättläst– ”Lättläst” (25% av Sveriges befolkning…)

• Regeringskansliet (Språkrådet)– ”Klarspråk” (arbetar för att skapa ett förenklat

kanslispråk)• Radions P4

– ”Klartext” (nyheter på lätt svenska)• Olika specialförlag

Enkel svensk text

Page 5: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Lättläst

Viktigt: Tillgänglighetsfråga, väldigt lite gjort för svenska.Samhällets krav på medborgarnas förmåga att ta till sig text ökar.

Svårt: Det finns ingen enighet i forskning eller praktik om:• vad som är lättläst• hur mottagaranpassning ska se ut och praktiskt genomföras

Aktuellt: Tillgänglighetsåret 2010 har passerat, omdebatterat just nuBland annat i relation till Språklagen. Språkteknologin ger nya möjligheter.

Enkel svensk text

Page 6: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

”Lättläst text” enligt CfL – för vem?

”Cirka 25% av Sveriges vuxna befolkning behöver lättläst information”. www.lattlast.se

Heterogen grupp vuxna personer med olika behov:

• Dyslektiker

• Afatiker

• Personer med lindrig intellektuell utvecklingsstörning

• Andraspråksinlärare

IALS-projektet (International Adult Literacy Survey), OECD 1994.

”En av fyra dagstidningsläsare har svårigheter att tillgodogöra sig vanliga nyhetsartiklar där de inte är välbekanta med innehållet. Lågfrekventa ord bör undvikas, liksom abstrakta begrepp som kräver flera tolkningssteg för att förstå vad som åsyftas. Konkreta rubriker, bilder och bildtexter, samt omsorgsfull redigering gör det möjligt att förstå även ganska komplicerad texter.” (Mats Myrberg, Lärarhögskolan i Stockholm)

Enkel svensk text

Page 7: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Målgruppen personer med intellektuell utvecklingsstörning

• Mellan 0,4 och 0,5 % av befolkningen enligt administrativa uppgifter (insatser enligt LSS eller särskolebehov)

• Mellan 2 och 3 % av befolkningen enligt psykologiska definitioner (< 70 IQ)

• indelning i 4 grupper har gjorts av WHO, i praktiken bara 3– Lätt eller lindrig utvecklingsstörning (24%)– Måttlig (34%)– Svår (41%)

Antalet personer i målgruppen 50 000 – 60 000 i Sverige

Läsbegränsningar: Arbetsminne och diskursrepresentationer

Målgrupp

Page 8: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

På våra sidor hittar du information om all utbildningsverksamhet i Linköping för barn, ungdomar och vuxna. Här finns också information om vad vi erbjuder för verksamhet under lov och fritid, vilket stöd vi kan erbjuda för olika behov samt hur vi arbetar med att utveckla verksamheten. Vill du veta hur vi är organiserade eller vem som jobbar med vad i vår organisation tryck på länken "Utbildningsförvaltningen" till höger. 

Här hittar du information om all utbildning i Linköping.Du får också veta vad man kan göra på lov och fritid.Vi berättar om vilket stöd vi kan ge, ifall du behöver det.Du kan också läsa om vad vi gör för att bli bättre. Klicka på länken "Utbildningsförvaltningen" till höger, ifall du vill veta mer. Där kan du också kontakta oss.

3 meningar om i medeltal 22 ordLånga ord (21 % > 6 bokst)Diffusa begrepp

6 meningar om i medeltal 10 ordFärre långa ord (11 % > 6 bokst)Diffusa begrepp förenklade

Originalversion Lättläst version

Exempel

Textförenkling

Page 9: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Hur undersöker man läsbarhet?

1. Litar på sin språkliga intuition

2. Granskar olika läsbarhetsfaktorer i en given text

3. Samlar in en korpus med enkel text för att dra slutsatser om materialet

4. Granskar parallella texter för att undersöka om det finns statistiska mönster som kan ge användbar information

5. Intervjuar/filmar testpersoner under läsning

6. Observerar testpersoners ögonrörelser under läsning

7. Observerar testpersoner med hjärnavbildningsteknik under läsning

Kombination av 3 och 4 = statistisk språkmodellering

Läsbarhet

Page 10: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Läsbarhet

• Relation mellan läsaren och texten• Påverkas av individens kognitiva förutsättningar (perception, minne,

intelligens, språk)• Påverkas av individens emotionella förutsättningar (motivation)• Evidensbaserade svenska undersökníngar av om en text har hög/låg

läsbarhet:

Textundersökning– Björnsson, 1968

Individundersökning- Ögonrörelsestudier - Läsförståelsetester- Hjärnavbildningsmetoder (fMRI o ERP) ?

Läsbarhet

Page 11: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Läsbarhetsfaktorer

• Läsbarhetsfaktorer: ordens längd, procenttalet flerstaviga ord, textens abstraktionsgrad, bisatstäthet m.m.

• Läsbarhetsforskning har främst bedrivits i USA, start runt 1920-30-talet (Lively & Pressey, Vogel & Washburne, Lewerentz, Dale & Tyler, Gray & Leary, Morris & Holversen)

• Förfinade statistiska beräkningar 1940-50-talet (Flesch, Dale & Chall, Gunning)

• 1968 kom LIX (Läsbarhetsindex) för svenska (Björnsson)

Läsbarhet

Page 12: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Läsbarhetsfaktorer i amerikanska studier 1920-30-talet(enl Chall, J.S. 1958, Klare, G.R. 1963)

Lively & Pressey

Vogel & Washburne

Lewerentz Dale & Tyler

Thorndike Gray & Leary

Morris & Holversen

Ordlängd i stavelser

I Thorndikes ordlista

Svåra ord

Förnimmelseord

Pers pronomen

Prepositioner

Olika tekniska ord

Ordvariation

Prepositionsfraser

Meningslängd

Enkla meningar (empiriskt urval)

Kontext

”Begrepp”

Läsbarhet

Page 13: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Björnssons undersökning av läsbarhetsfaktorer för svenska

Läsbarhet

Page 14: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Läsbarhetsindex = numerisk skala där olika läsbarhetsnivåer kan jämföras

Läsbarhetsformel = en uppsättning läsbarhetsvariabler (symboler)

• Framför allt amerikanska studier av engelska språket, räknas oftast i meningslängd och genomsnittligt antal stavelser i texten

• Är avsett att indela text i olika nivåer beroende på svårighetsgrad• Kopplat till nivåerna i det amerikanska skolsystemet

(ex. 6.8 på skalan för Flesch-Kincaid index = 6e klass)• Svenska läsbarhetsformeln LIX baserad på procentandel ord > 6

bokstäver och genomsnittlig meningslängd:

Läsbarhet

Page 15: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Jämförelse LIX / Amerikanska läsbarhetsindex

Läsbarhet

Page 16: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Chall (1958):

”Only four types of elements are significantly related to the criteria so far used: vocabulary load,sentence structure, idea density, human interest”

Chall, J. (1958): Readabilty. An appraisal of research and applications.

1.Vokabulärtyngd

2.Meningsstruktur

3.Idétäthet

4.Mänskligt intresse

Läsbarhet

Page 17: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Hur kan språkteknologiska metoder användas för att mäta läsbarhet?

Samlar in en korpus med enkel text från olika genrer för att sedan statistiskt jämföra med motsvarande ordinära texter

Materialet måste förberedas genom att tillföra information om:

- ordklass (POS-taggning)

- meningsstruktur (parsning)

- betydelsedjup (associationslexikon)

- ordens frekvens/spridning (SweVoc)

Språkteknologi

Page 18: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Korpusen SUC 2.0

• Stockholm-Umeå corpus• Texter från 1990-talet• 1 miljon ord• Innehåller material från olika

genrer och olika stilnivåer

Korpusen LäSBarT

• Lättläst Svenska och BarnboksText• Texter från 2000 ->• 1,4 miljoner ord• Innehåller material från fyra olika

genrer och av två texttyper

Genre Lättläst Ordinär

Barnbokstext 122 000 421 000

Skönlitteratur för vuxna

116 000 164 000

Nyhetstext 391 000 88 000

Informationstext 20 000 140 000

649 000 813 000

Språkteknologi

Page 19: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Vilka språkliga särdrag kan indikera komplexitetsgrad?Resultat från parvisa jämförelser lättläst/ordinär text

Nivå Särdrag Signifikans

Ytstruktur Ordlängd i antal bokstäver X

Ordlängd i antal stavelser X

Meningslängd i antal ord X

”Långa ord” > 6 bokstäver X

Antal unika ord (för/subst, för/verb, för/konj) X

Antal unika lemman (för, fört, förde, fördes/verb) X

Type/token ratio X

Ordvariationsindex X

Vokabulärtyngd Lemmavariationsindex X

SweVoc (svensk basvokabulär) X

Språkteknologi

Page 20: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Forts. Vilka språkliga särdrag kan indikera komplexitetsgrad?

Nivå Särdrag Signifikans

Meningsstruktur Dependensavstånd X

Antal underordnade satser X

Prenominala modifierare X

Postnominala modifierare X

Parsträdets djup X

Idétäthet Propositionstäthet X

Relationen subst/pronomen (X)

Nominalkvot (X)

Semantiskt djup (X)

Intressegrad Andelen personnamn X

Språkteknologi

Resultat = språkmodellen SVIT (sentence structure, vocabulary load,idea density and human interest)

Page 21: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Kan de föreslagna särdragen avslöja texttyp? Resultat av automatisk textklassificering med LIX och SVIT

Resultat

Testset Modell F-score

Lättläst barnbokstextLIX 66,8

SVIT 68,4

Ordinar barnbokstextLIX 34,6

SVIT 61,9

Lättläst skönlitteratur för vuxnaLIX 28,6

SVIT 68,1

Ordinär skönlitteratur för vuxnaLIX 28,1

SVIT 83,9

Lättläst nyhetstextLIX 48,2

SVIT 89,2

Ordinär nyhetstextLIX 24,6

SVIT 85,1

Lättläst informationstextLIX 12,7

SVIT 87,0

Ordinär informationstextLIX 58,8

SVIT 84,9

Page 22: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Exempel på verb i lättläst text som saknas i SUC

Genre Totalt antal

Domän-spec

Andel Domäntyp/

exempel

Språkl variant/ exempel

Ordtyp/

exempel

Barnlitteratur 61 17 28% Hästsport: tränsa

Sport: glidtackla

Hobby: meka

Generell: hånskratta

Jargong: paja

Neologism: messa

Vuxenlitteratur 22 0 Generell: storgråta

Jargong: flabba, jävlas, tjacka

Nyhetstext 35 6 17% Sport: spurta, väggpassa

Medborgare: dataspionera, hungerstrejka, könsstympa

Generell: festa Neologism: fildela

Samhällstext 46 32 70% Medborgare: poströsta, slutförvara, migrera

Konsument: kallröka, småäta, genmodifiera

Sport: bowla

Generell: ösregna Neologism: e-posta

Barnlitt+nyhet 5 0 Generell: plåstra_om

Jargong: deppa

Barnlitt+samh

Barnlitt+vuxenlitt

Samhällst+nyhet

Barnlitt+nyhet+

Vuxenlitt

1

1

1

1

0

0

0

0

Generell: rasta

Generell: rufsa

Generell: hitta_på

Neologism: chatta

Page 23: Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

www.gu.se

Referenser:

• Björnsson, C.H. (1968). Läsbarhet. Liber, Stockholm.• Chall, J. (1958). Readability. An appraisal of research and application.

Bureau of Educational Research, Ohio.