UPPSALA UNIVERSITET EXAMENSARBETE Institutionen för lingvistik Språkteknologiprogrammet VT 2002 av Fredrik Granlund [email protected]Felkorrigering av översättningsminnen Handledare: Anna Sågvall-Hein, Institutionen för lingvistik Ingrid Almqvist, Scania CV AB
38
Embed
UPPSALA UNIVERSITET EXAMENSARBETE - …stp.lingfil.uu.se/exarb/arch/2002-002.pdf · · 2005-06-06UPPSALA UNIVERSITET EXAMENSARBETE ... I sin bok A Practical Guide to Localization
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
UPPSALA UNIVERSITET EXAMENSARBETE
Institutionen för lingvistik Språkteknologiprogrammet
1.1 Bakgrund och syfte .....................................................................................................5 1.2 Uppgiften......................................................................................................................6 1.3 Rapportöversikt ...........................................................................................................6
2 GENERELLT OM ÖVERSÄTTNINGMINNEN..........................................................7 2.1 Filter ...............................................................................................................................7 2.2 Statistik ..........................................................................................................................8 2.3 Fuzzy matching............................................................................................................8 2.4 Interaktiv översättning ...............................................................................................8 2.5 Tillgängliga program...................................................................................................9
2.5.1 Trados Workbench ............................................................................................ 9 2.6 Fördelar med översättningsminnen...................................................................... 10 2.7 Begränsningar och problem med översättningsminnen .................................. 11
2.7.1 Strängmatchning mot hela segment .............................................................13 2.7.2 Textsammanhang går förlorat .......................................................................14
3 ÖVERSÄTTNINGSPROCESSEN PÅ SCANIA.......................................................... 15 3.1 Scanias översättningsminnen................................................................................. 16 3.2 Reglerat språk: Scaniasvenska och Scania Checker........................................... 17
4 ARBETSGÅNG OCH IMPLEMENTERING .............................................................. 19 4.1 Specifikation av uppgiften...................................................................................... 19 4.2 Extraktion av felmeningar...................................................................................... 19
4.2.1 Perlprogrammet tm2htm...............................................................................20 4.3 Resultat: fördelning av felordsmeningar och antal felord................................ 23 4.4 Korrigering av svenska segment ........................................................................... 24
4.4.1 Gula ord – okända ord....................................................................................24 4.4.2 Röda ord – felaktiga ord .................................................................................25 4.4.2.1 Feltyper och rättningsförslag .........................................................................26 4.4.2.2 Rättning av minnen..........................................................................................26 Olämpliga förslag .............................................................................................28 Efterjustering.....................................................................................................29 Resultat ...............................................................................................................29 4.4.3 Gröna ord – grammatikfel..............................................................................29 4.4.4 Flaggning av ändrade enheter ........................................................................31
4.5 Fel i engelska segment............................................................................................. 32 5 SLUTSATSER OCH DISKUSSION................................................................................. 33 REFERENSER ............................................................................................................................... 35 BILAGA 1......................................................................................................................................... 36 BILAGA 2......................................................................................................................................... 37 BILAGA 3......................................................................................................................................... 38
4
KAPITEL 1 INTRODUKTION
INLEDNING
1.1 Bakgrund och syfte
Huvudsyftet med detta arbete är att anpassa befintliga, redan utförda
översättningar av manualtexter till ett avgränsat reglerat språk –
Scaniasvenska1. Dessa översättningar finns sparade i form av
översättningsminnen bestående av källspråks- och målspråkssegment.
Källspråkssegmenten är på svenska och genom att anpassa dessa till
Scaniasvenskan uppnås flera fördelar:
• En större del av Scanias servicelitteratur blir på Scaniasvenska, med de
fördelar detta innebär, bl. a. enhetligare terminologi och färre
ambivalenser.
• De översättningsenheter vars källspråkssegment anpassats har
markerats, vilket gör det lättare att även anpassa målspråkssegmenten
till godkänt termbruk för målspråk.
• De anpassade minnena kan även komma till användning vid
maskinöversättning, där matchningar i minne innebär att översättning
kan hämtas direkt ur minnet i stället för att belasta
maskinöversättningssystemet, med fördelar som snabbhet och
enhetlighet som följd.
1 Sågvall Hein, 1997. Language Control and Machine Translation.
5
1.2 Uppgiften
Uppgiften består i att stämma av den svenska delen av Scanias
översättningsminnen mot Scaniasvenskan implementerad i Scania Checker2.
De svenska delarna av minnena anpassas till Scania Checkers krav och de
åtgärder som behöver vidtas i den engelska delen av minnet som konsekvens
av att svenskan anpassats till Scaniasvenskan analyseras .
1.3 Rapportöversikt
Rapporten är uppdelad i fyra egentliga huvuddelar varav den första behandlar
översättningsminnen generellt, fördelar och nackdelar med särskild inriktning
på det överättningverktyg som använts i Scanias översättningsprocess –
Trados. I andra delen av rapporten beskrivs det reglerade språk som Scania
tillämpar med hjälp av Scania Checker, och vidare i tredje delen de processer
som använts för att extrahera svensk text ur Scanias översättningsminnen.
Även den metod som använts för att hantera textöverföring till och från
Scania Checker beskrivs. Resultat av de olika felen som granskaren funnit
redovisas och likaså den metod för minneskorrigering som använts. Vidare
beskrivs vilka typer av rättningar som genomförts och vilka som inte
genomförts för de olika feltyperna, samt återstående antal fel. Den fjärde
delen av rapporten innehåller en sammanfattning och slutsatser av arbetet.
För att göra beskrivningen av reguljära uttryck tydligare har jag försökt hålla
mig till Friedls typografiska konventioner för de tecken han använt i sin bok
Mastering Regular Expressions. Exempelvis betecknar ’• ’ ett mellanslagstecken.
Länkade referenser inom rapporten visas oformaterade trots att de flesta är
klickbara för att underlätta vid läsning med dator.
2 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and
Translation Workflow, sid. 9.
6
2 GENERELLT OM ÖVERSÄTTNINGMINNEN
En generell definition av ett översättningsminne ges av EAGLES3:
”a translation memory is a multilingual text archive containing (segmented, aligned, parsed and classified) multilingual texts, allowing storage and retrieval of aligned multilingual text segments against various search conditions. “
Vilket förenklat innebär att det räcker att ha matchande källspråks- och
målspråkstexter och möjlighet att söka i, spara och redigera texten för att
detta ska kunna definieras som översättningsminne. Men i praktiken skapas
översättningsminnen vanligtvis för att användas tillsammans med något
specifikt översättarverktyg och lagras då i ett databasformat som är särskilt
anpassat för verktyget. Minnet kan sedan återanvändas vid översättning av
liknande texter t.ex uppdateringar. Översättningsminnen skapas normalt
antingen interaktivt vid översättning. så som beskrivs i kapitel 12.4, eller av
färdiga käll- och målspråkstexter m.h.a. alignment-verktyg4. Sådana verktyg
segmenterar upp texterna och skapar översättningsenheter av matchande käll-
och målspråkssegment. Dessa kan även granskas och modifieras manuellt.
2.1 Filter
För att hantera olika filformat är översättningsverktygen försedda med filter
som skiljer ut den översättningsbara texten från formatspecifik kod i
exempelvis XML/HTML/SGML-, RTF- och RC-filer. För andra format,
t.ex. ASP och PHP, kan det vara nödvändigt att utveckla egna filter för att
komma åt texten och lämna kod och taggar orörda.
3 Definition från: EAGLES Evaluation of Natural Language Processing Systems, Final Report. Section E.3.1:
Design and function of translation memory, sid. 140.
4 Exempelvis Trados WinAlign, se även Esselink, A Practical Guide to Localization, sid 365.
• Flera överättare kan samtigt använda samma översättningsminne i ett
lokalt nätverk vilket ökar enhetlighet och produktivitet
• Analys- och statistikfunktioner gör det möjligt att planera, fördela och
prissätta översättningsarbetet korrekt
8 Listan har förkortats något. Se: Esselink, A PracticalGuide to Localization, sid 366.
10
• Enkelt användargränssnitt gör att relativt oerfarna översättare kan
hantera verktyget
• Produktiviteten kan öka med 30 – 50 %
Översättningskostnaderna kan minska med 15 – 30 %
Dessa fördelar avser programvaru- och webblokalisering, men gäller även för
andra typer av repetitiva texter som uppdateras ofta.
2.7 Begränsningar och problem med översättningsminnen
För texter som endast innehåller en liten mängd repetitioner och som inte är
avsedda att uppdateras i framtiden kan det innebära onödigt extra arbete att
använda översättningsverktyg. För vissa texter kan det dessutom vara en
nackdel att återanvända upprepningar. Texter med variation kan uppfattas
som mer livfulla vilket ofta är lämpligt för t.ex. marknadsföringstexter. Men
även vid översättning av repetitiva texter innebär bruk av verktyg en hel del
extra arbete, med för- och efterarbete, samt även en möjlig felkälla. Dessutom
krävs att användaren följer vissa rutiner och tagit hänsyn till de hård- och
mjukvarukonfigurationer som krävs av verktyget. Esselink listar följande
nackdelar med översättningsminnen9:
Översättning/granskning
• Verktygen stöder inte strukturella ändringar av texten. Om exempelvis
texten segmenterats styckevis, kan inte den inbördes meningsföljden
ändras10
• Verktygen visar inte dokumentens layout och format, vilket leder till
att granskning måste utföras efter konvertering till originalformat
9 Listan har förkortats något. Se källtext: Esselink, A Practical Guide to Localization, sid 367.
10 I Trados kan man lösa detta genom att segmentera tillfälligt på meningar, översätta och flytta de färdiga översättningsenheterna så att korrekt meningsföljd för målspråket erhålls.
11
• Ändringar som utförs i dokumentet vid granskning måste också
införas i minnet, vilket innebär extra arbetsutiner vid granskning
Minne:
• Delning av översättningsminnen utöver intranät stöds inte, vilket
innebär extra arbete för minneshantering, så att olika översättare i
samma projekt skall kunna ha tillgång till uppdaterade minnen
Filter:
• Filkonvertering före och efter själva översättningen med verktyg
innebär extra arbetsrutiner
• Filter är inte alltid anpassade för nya versioner av de filformat de är
avsedda att klara av, vilket kan resultera i skadad eller översatt kod,
eller oöversatt text
• Det kan vara komplicerat och innebära mycket programmeringsarbete
att skapa egna filter för filformat som verktyget inte anpassats till.
Dessa nackdelar är viktiga att beakta vid planering av såväl stora som små
översättningsprojekt. Resurser och tidsmarginaler måste anpassas efter de
olika arbetsmomenten.
När väl översättning med hjälp av översättarverktyg påbörjats uppdagas
ytterligare begränsningar och problem, bl. a. angående verktygens sätt att
matcha hela segment. De repetitioner som analysen visat och som
förekommer i texten är repeterande hela segment. Men vid översättning stöter
man snart på mängder av repetitioner som verktygen inte hanterar. Förutom
rent lexikala repetitioner t.ex. termer, kan det vara frågan om fraser,
kollokationer och idiomatiska uttryck som översättaren måste översätta varje
förekomst av.
12
2.7.1 Strängmatchning mot hela segment
De verktyg som använder tekniken med översättningsminnen utför
uppslagning och matchning i minnet snabbt med hjälp av fuzzy-logic-
indexering av de sparade översättningsenheterna. Denna typ av matchning ger
översättaren bästa möjliga träff ur minnet, men endast avseende
teckenöverensstämmelse på segmentnivå11. Ingen morfologisk eller syntaktisk
analys utförs. Detta innebär att verktygens användbarhet snabbt minskar med
ökat antal ordformer och minskar ytterligare om ordföljden varieras.
Macklovich och Russel visar hur information lagrad i översättningsminne i
praktiken kan döljas för översättaren eftersom TW inte utför någon
morfologisk analys. Ett exempel på detta är om man med källmeningen i
exemplet i Figur 1 (sid. 10):
”Otillåten signal från gaspedalsgivarens potentiometer”
byter ut ”gaspedalgivare” mot nonsensordet ”gaspedalrivare”. Då erhålls
samma matchningsprocent som ”gaspedalgivare” trots att detta är en ordform
av motsvarande ord i minnet, se Tabell 112:
Tabell 1 I minnet: ändrat ord i källtext: match: GASPEDALGIVARENS GASPEDALGIVARE 92 % GASPEDALRIVARE 92 %
Metoden att matcha meningar innebär att t.ex. varken ”Otillåten signal” eller
”gaspedalsgivarens potentiometer” i exemplet ovan (Figur 1) ger några träffar
i minnet13 när de söks i minnet som fristående strängar. Inte ens
kommaavgränsade delsträngar av ett segment matchas i minnet, enligt
11 Vanligtvis meningar eller stycken, se 12.4. Segmentavgränsning har användaren möjlighet att ställa in
vid minneskonfigurering. För Trados TW, se se TRADOS Specialist Guide, 2-18 sid 39.
12 Se även Macklovich & Russel sid. 139.
13 Endast 16 av 52 tecken matchar, dvs. 31 %. Trados rekommenderar att matchningar under 60 % ignoreras.
13
Macklovich och Russel14. Ett sätt att, åtminstone delvis, hantera denna
begränsning är att vid översättning låta TW söka i ett terminologilexikon, som
kan skapas från redan gjorda översättningar med hjälp av TW-verktyget Extra
Term. Översättaren måste då fortfarande vid översättning kontrollera att
termen har korrekt form.
Ett verktyg, Déjà Vu, har en funktion som kallas ”Assemble from portions”
som innebär att matchningar på ordnivå faktiskt tillåts, om de är tillräckligt
bra. Härigenom kan översättningsförslag erhållas för delsträngar av
segmenten, t.ex. ord, fraser och termer, oberoende av om de finns med i en
terminologidatabas eller inte.
2.7.2 Textsammanhang går förlorat
Översättningsminnen byggs visserligen normalt upp i en följd när ett
dokument översätts, så att textens diskurs återspeglas i minnet. Men det finns
ingen funktionalitet i TW som uppehåller denna ordning. Översättaren kan
välja att inte bearbeta texten i en följd, eller använda samma minne för olika
textavsnitt. Om flera översättare arbetar mot samma minne byggs minnet upp
av sammanflätade översättningsenheter från de olika översättarnas dokument.
Detta innebär att översättningsenheter kan förekomma helt oberoende av
omgivande enheter i ett minne. För översättaren kan det innebära problem att
avgöra matchande enheters relevans, särskilt för segment som innehåller
lexikala flertydigheter eller syftningar över meningsgränserna. Ett sätt att
hantera denna begränsning är att tillhandahålla referensmateriel i form av
fulltextversioner av tidigare översättningar. Trados har ett nyligen lanserat
verktyg kallat Xtranslate som har funktioner för automatisk sökning av
matchande meningar i fulltextdokument.
14 Macklovich & Russel sid. 140. Detta gäller under förutsättning att kommatecken inte satts som
segmentavgränsare vid konfigurering av minne.
14
3 ÖVERSÄTTNINGSPROCESSEN PÅ SCANIA
Översättningsprocessen på Scania har beskrivits utförligt av Almqvist och
Sågvall Hein15 och sammanfattas här :
• De texter som skall översättas skrivs av tekniska skribenter på
svenska.
• Terminologin kontrolleras noggrant bl. a. med hjälp av Scania
Checker
• Texten skickas till översättningsföretag för översättning, först till
engelska och sedan vidare till övriga språk.
• Tryckning och distribution av de färdiga texterna
• Översättningsföretagen hanterar de korrigeringar som behöver
utföras i filer och minne.
De layoutprogram som används för att skapa denna typ av manualer och
dokumentation kräver att filkonvertering utförs innan de kan översättas med
hjälp av översättningsminnen. Filer som skapats i FrameMaker FM-format
sparas i MIF-format och konverteras sedan till STF/RTF för översättning
med TW i Microsoft Word16.
När nya texter skapas använder skribenterna Scania Checker som hjälp för att
kontrollera att texten inte avviker från den definierade Scaniasvenskan. När
uppdateringar ska utföras av tidigare gjorda översättningar utnyttjas
översättningsminnena. I detta led har hittills inte Scania Checker kunnat
utnyttjas fullt ut. Eftersom det skulle innebära för mycket manuellt arbete att
15 Almqvist och Sågvall-Hein, Language Checker of Controlled Language and its Integration in a Documentation and
Translation Workflow, sid. 2-4.
16 För detaljer se TRADOS Specialist Guide Chapter 6, sid 130.
15
använda Scania Checker vid uppdateringar har den endast använts i uppdrag
där texten huvudsakligen nyskapas, se Figur 2.
Men genom att de svenska segmenten i översättningsminnena nu anpassas
efter Scania Checkers förslag blir det möjligt att även få språket i
uppdateringarna anpassat till Scaniasvenskan.
V
e
F
m
NYTTNYTT
NYTT
Figur 2: Scania checker har tidiga
3.1 Scanias översätt
Scanias översättningsmin
uppdateringar som utfört
1994-2000. Minnena anv
servicelitteraturen för att
översättningar. Ett expor
uppmärkta med omslutan
arje översättningsenhet
ventuella attribut, t.ex. n
öljande exempel visar en
arkerat med TW:s bete
17 {\cs6\f1\cf6\lang10
inbäddade typsnittstaggen <F TW inte räknar med den i sin204.
TM
TM
TM
Scania Checker
re inte använts för texter som till största del finns sparade i minne.
ningsminnen
nen är i tradosformat, resultat av översättningar och
s av översättningsföretag för Scania under åren
änds kontinuerligt vid uppdateringar av
möjliggöra återanvändning av redan utförda
terat tradosminne består av översättningsenheter
de taggar <TrU> och </TrU>.
består av källspråks- och målspråkssegment, samt
är det skapats, version, etc.
översättningsenhet där källspråkssegmentet är
ckning för svenska, <Seg L=SV_SE>17 :
16
24 <F 12>}är RTF-filsformatering som här formaterar den 12> för Frame Maker med mallen tw4winInternal, vilket innebär att
strängmatchning av segmentet , se även TRADOS Specialist Guide, sid
Exempel på andra, mindre vanliga formateringstyper som tm2htm tar bort
eller ersätter är \lquote och \rquote, dvs. de engelska tecknen ( “ ) och
( ” ) för höger, respektive vänster citationstecken. Vissa koder för skiljetecken
kan inte tas bort utan att ersättas av något annat passande tecken, t.ex.
\emdash för långt tankstreck ( – ) och <SP> för mellanslag ( • ). 23 Denna definition kan kringås genom att temporärt ersätta radbrytningar med något tecken som
används som unik identifierare och formateras med mallen tw4winInternal, t ex ¤.
24 Formateringsinformation för Frame Maker, ’<[^>]*>’: matchar ett ’<’ följt av godtyckligt antal tecken som inte är ’>’, följt av ’>’, dvs. endast enkla taggar, ej inbäddningar.
25 Formateringsinformation för RTF, ’\{[^• ]*•\}’: bakstrecken ’\’ markerar specialtecknen för klammerparenteser ’{’ och ’}’. ’[^• ]*• ’ matchar godtyckligt antal tecken som inte är mellanslag ’• ’, följt av mellanslag ’• ’ (tecknet efter asterisken).
21
När texten rensats från formateringsinformation ska den skickas till Scania
Checker, men en så här stor mängd text kan inte behandlas vid ett tillfälle
utan måste delas upp i ett lämpligt antal småfiler. För att automatisera
textöverföringen till och från Scania Checker använder programmet Perls
inbyggda förenklade webbläsare (LWP26, libwww-perl). Men denna lösning
kräver i sin tur ytterligare en del förbehandling av den text som ska skickas.
I motsats till konventionella webbläsare måste MIME-typ anges som
”content_type”, se Kodexempel 4. Scania Checker tar nämligen normalt emot
formulärtext från en webbläsarklient, se Figur 4, vilket innebär att texten
automatiskt MIME-kodas med URL-kod av webbläsaren. Detta innebär att
vissa tecken kodas om, exempelvis mellanslag kodas om till %20. Denna
omkodning görs i tm2htm och formulärfält definieras innan texten skickas
som en förfrågan till Scania Checker. Texten i de filer som skickas (@fil i
Kodexempel 1 nedan) är alltså URL-kodad, rensad från radbrytningar och
skickas som en enda sammanhängande teckensträng tillsammans med
formulärfältsdefinitioner till Scania Checker. När texten analyserats av Scania
Checker returneras resultatet i form av HTML-kod som tm2htm sparar lokalt
i HTML-filer (filnamn.html i kodexemplet nedan).
Ur varje HTML-fil extraheras sedan felmeningar för respektive felordstyp
som sorteras i var sin fil.
26 LPW är en modul som medföljer Perl. Se dokumentationen för modulen genom att köra ”perldoc
LPW” i kommandotolk för system med Perl installerat. Finns även på Internet: http://aspn.activestate.com/ASPN/Products/ActivePerl/site/lib/LWP.html
detta utföras i TW genom att begränsa sökningen till flaggade enheter i TW’s
minnesunderhållsfunktion. Då visas vid sökning endast de ändrade enheterna
och modifieringar i målspråkssegment kan utföras direkt i minnet41, se bild
nedan:
Figur 8: Resultat av sökning begränsad till flaggade enheter med TWs underhållsfunktion
4.5 Fel i engelska segment
De funna grammatikfelen kräver normalt ingen korrigering i det engelska
segmentet. Däremot kan vissa av de röda word-err-förslagen kräva åtgärder i
motsvarande engelska segment. Exempel på detta är när ord förtydligats så
mycket att även motsvarande ord på engelska behöver specificeras ytterligare.
Eller motsatsen – när begrepp förenklats så mycket på svenska att även
motsvarande begrepp på engelska bör förenklas, se exempel nedan.
Tabell 14 Efterjustering av kongruensförhållanden Feltyp: Exempel Svenskt segment
Ändring nödvändig iengelskt segment
otydlighet sammansättning
Kylsystemprovare Tryckprovare för kylsystem Ja
synonymer dieselbränsle dieselbrännolja
diesel Ja
Andelen engelska segment som behöver åtgärdas har jag m.h.a. sampling
uppskattat till c:a 14 %.
41 Genom att högerklicka på målspråksflaggan och välja Edit i menyn.
32
5 SLUTSATSER OCH DISKUSSION
Det här examensarbetet har lett till att specifika problem åtminstone delvis
kunnat lösas genom att över 8 000 rättningar har utförts i Scanias
översättningsminnen. Scaniasvenskan kan nu tillämpas, inte enbart vid
nyskrivning av text, utan även vid uppdateringar av tidigare översatta
dokument. Jag har, parallellt med att arbetet utförts, dokumenterat och
implementerat de olika delprocesserna för granskning och rättning av
minnena som illustreras i Figur 6.
Genom att tillämpa dessa processer kan översättningsminnen även
fortsättningsvis korrigeras regelbundet allteftersom de byggs upp, vilket
säkerställer att textinnehållet är i enlighet med Scaniasvenskan. Delar av
processen kan automatiseras genom att sätta samman de viktigaste delarna
och göra dem tillgängliga via ett enstaka kommando (t.ex. knapptryckning)
som resulterar i:
• lista över lexikonförslag (word-warn-ord)
• lista över rättningsförslag (word-err). Listan över rättningsförslag bör
även kunna förses med ändelser, se Tabell 6, så att den kan levereras
så komplett som möjligt till användare, som sedan manuellt får
övervaka sök- och ersättsprocessen i minne.
• lista över meningar med grammatikfel
Förutom dessa uppgiftsspecifika resultat har mitt examensarbete även
inneburit att Scania Checker testats med större textmängder än tidigare.
Resultatet bör kunna användas vid en förbättring av programmet. Dessa
förbättringar bör lämpligen innefatta:
33
• komplettering av Scanias matchningsregler för igenkänning av, i första
hand typbeteckningar, nummer, variabelnamn, etc.
• funktionalitet för att hantera större textmängder med bibehållen
grammatikkontroll
Denna metod bör även innebära fördelar jämfört med det ofta
förekommande alternativet att kassera gamla minnen med fel, för att istället
nyskapa text och bygga nya minnen. Robusta och effektiva feedback-
processer som interagerar med granskningsverktyg som Scania Checker, bör
tillsammans kunna utgöra en god grund för kontinuerligt underhåll av
översättningsminnen allteftersom de skapas.
34
REFERENSER
Almqvist, Ingrid & Sågvall Hein, Anna, 1996 2000: A Language Checker of Controlled Language and its Integration in a Documentation and Translation Workflow. I Proceedings from the Aslib conference, London, 16 & 17 November, 2000. London, Aslib. Almqvist, Ingrid, 2000: Fredrik Granlund: Exjobb, Scania CV AB (ej publ.). EAGLES Evaluation of Natural Language Processing Systems, Final Repor, 1995. EAGLES document EAG-EWG-PR.2 (1995). http://issco-www.unige.ch/ewg95/ Esselink, Bert., 2000: A Practical Guide to Localization, J. Benjamins Publishing Co., Holland. Fiedl, Jeffrey E. F., 1997: Mastering Regular Expressions, O’Reilly & Associates Inc., USA. Macklovitch, E. & Russell G., 2000: What’s been Forgotten in Transla-tion Memory. I White, J.S. (ed.), 2000: AMTA 2000, LNAI 1934. Berlin, Springer-Verlag, Tyskland. Fil i PS-format: http://www-rali.iro.umontreal.ca/pub/AMTA-2000.ps Sågvall Hein, A., 1997: Language Control and Machine Translation. In: Proceedings of the 7th International Conference on Theoretical and Methodological Issues in Machine Translation. July 23-25, 1997. St. John’s College, Santa Fe, USA. Trados: TRADOS Specialist Guide, 2001. Fil i ZIP-arkiv: http://support.trados.com/download/TS_T5_en.zip
80 Fel form på substantivet 75 Särskriven sammansättning, obestämd form: bindestreck saknas 32 Fel genus på substantivet eller dess bestämning 27 Fel numerus på adjektivet i predikatsfyllnaden 24 Infinitivmärke att saknas efter vissa verb 17 Fel numerus på substantivet eller dess bestämning 14 Särskriven sammansättning, bestämd form: bindestreck saknas 12 Fel genus på adjektivet i predikatsfyllnaden 10 Särskriven sammansättning eller grundkasus i stället för genitiv 9 Särskriven sammansättning eller bestämd form efter genitivattribut 7 Fel form av pronominet efter preposition 6 Fel verbform efter modalverb 4 Dubbel passiv 3 Supinum i stället för imperativ 2 Fel form av adjektivet 2 Fel verbform efter temporala hjälpverb 2 Överflödigt infinitivmärke att efter vissa verb 1 Dubbelt supinum 1 Infinitivmärke att saknas efter preposition 1 Predikatsverb saknas 1 Överflödigt substantiv, stryk
Grammatikfel sorterade efter andelen utförda förslag:
Antal fel:
Typ av grammatikfel: Andel utförda:
2 Fel verbform efter temporala hjälpverb 100% 2 Överflödigt infinitivmärke att efter vissa verb 100% 1 Överflödigt substantiv, stryk 100% 12 Fel genus på adjektivet i predikatsfyllnaden 75% 7 Fel form av pronominet efter preposition 60% 24 Infinitivmärke att saknas efter vissa verb 59%
36
BILAGA 2
De vanligaste word-warn-felen och identifierade felstavningarna, ordnade
De vanligaste word-err-felen ordnade efter antal förekomster:
Antal Förekomst i minne: Felbeskrivning/ersättningsord: 960 t.ex t.ex. 164 förprogrammerad konfigurera; förinställa 127 värmare extravärmare; motorvärmare; bränslevärmare etc.70 noggrant noggrann 63 m.m m.m. 55 Typ typ 53 entrédörren främre dörr; bakre dörr etc. 52 brukar använda 50 Punktreparation annan formulering 49 T.ex t.ex. 49 tas tas 40 Oringar O-ring 38 0C Mellanslag mellan siffra och måttenhet 38 rullriktningen rullriktning 35 entrédörr främre dörr; bakre dörr etc. 35 ändar ände 34 Chassi chassi 34 Smörjsystem/Kylsystem Ersätt snedstreck med annan formulering 32 är axelände 31 Km/h Ersätt snedstreck med annan formulering 30 acc acc. 29 timmar timme 29 värmemattning fading 27 Tomgång/Avstängd Ersätt snedstreck med annan formulering 26 mg/l Ersätt snedstreck med annan formulering 26 punktreparation annan formulering 24 bromspedalkaraktäristik annan formulering 23 block cylinderblock; motorblock; blinksekvens etc. 20 Serviceintervall formen serviceintervallen 19 Bogsering/bärgning Ersätt snedstreck med annan formulering 19 Reglerventil/in Ersätt snedstreck med annan formulering 19 bakaxel/boggibelastning Ersätt snedstreck med annan formulering 19 enl enl.