UNIVERSITÀ DEGLI STUDI DI BOLOGNA FACOLTÀ DI INGEGNERIA Corso di Laurea in Ingegneria Elettronica Sistemi Informativi I ANALISI E CONFRONTO DI SISTEMI EBMT PER LA TRADUZIONE ASSISTITA Tesi di Laurea di: Relatore: BRUNO UMBERTO SPAGNA Chiar.mo Prof. PAOLO CIACCIA Correlatori: Dott.ssa FEDERICA MANDREOLI Dott. Ing. RICCARDO MARTOGLIA Anno Accademico 2001-2002 Sessione Autunnale
130
Embed
UNIVERSITÀ DEGLI STUDI DI BOLOGNA FACOLTÀ DI INGEGNERIA … · 2018-02-12 · UNIVERSITÀ DEGLI STUDI DI BOLOGNA FACOLTÀ DI INGEGNERIA Corso di Laurea in Ingegneria Elettronica
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
UNIVERSITÀ DEGLI STUDI DI BOLOGNA
FACOLTÀ DI INGEGNERIA
Corso di Laurea in Ingegneria Elettronica
Sistemi Informativi I
ANALISI E CONFRONTO DI SISTEMI EBMT PER LA TRADUZIONE ASSISTITA
Tesi di Laurea di: Relatore:
BRUNO UMBERTO SPAGNA Chiar.mo Prof. PAOLO CIACCIA
Correlatori:
Dott.ssa FEDERICA MANDREOLI
Dott. Ing. RICCARDO MARTOGLIA
Anno Accademico 2001-2002
Sessione Autunnale
Parole chiave:
EBMT - Example Based Machine Translation
CAT - Computer Aided Translation
Traduzione assistita
Trados
IBM TranslationManager
Ai miei genitori
I
Sommario
Introduzione ......................................................................................1 Modello a tre livelli ..........................................................................2 Attività di traduzione: organizzazione specializzata .........................3
Capitolo 1 Computer Aided Translation........................................7 1.1 Componenti di base e strumenti aggiuntivi ..............................7 1.2 Caratteristiche ideali di un sistema di traduzione assistita ........7
1.2.1 Componenti Off-line .......................................................7 1.2.1.1 Analisi del testo da tradurre.............................................7 1.2.1.2 Importazione dati nella TM .............................................7 1.2.1.3 Esportazione dati dalla TM..............................................7 1.2.1.4 Altre funzioni Off-line.....................................................7
1.2.2 Componenti On-line ........................................................7 1.2.2.1 Ricerca ............................................................................7 1.2.2.2 Aggiornamento e Networking .........................................7
Capitolo 2 Programmi in commercio .............................................7 2.1 TRADOS .................................................................................7
2.1.1 Componenti e loro caratteristiche ....................................7 2.1.1.1 WorkSpace ......................................................................7 2.1.1.2 WorkBench .....................................................................7 2.1.1.3 WinAlign ........................................................................7 2.1.1.4 ExtraTerm .......................................................................7 2.1.1.5 MultiTerm.......................................................................7
2.1.2 Ulteriori caratteristiche ....................................................7 2.2 IBM TRANSLATION MANAGER ........................................7
Capitolo 3 Valutazione di un programma CAT.............................7 3.1 Efficacia - Concetto di Precision e Recall ................................7 3.2 I principali modelli di ricerca ...................................................7
Capitolo 4 Prove sperimentali.........................................................7 4.1 Valutazione delle penalizzazioni..............................................7
4.1.1 Trados .............................................................................7 4.1.1.1 Eliminazione di una parola di 8 lettere ............................7
II
4.1.1.2 Aggiunta di una parola di n lettere...................................7 4.1.1.3 Modifica di una parola ....................................................7 4.1.1.4 Unione di due frasi ..........................................................7 4.1.1.5 Stemming in Trados ........................................................7 4.1.1.6 Ordine delle parole ..........................................................7 4.1.1.7 Conclusioni su stemming e ordine delle parole................7
4.1.2 IBM Translation Manager ...............................................7 4.1.2.1 Eliminazione di una parola di 8 lettere ............................7 4.1.2.2 Aggiunta di una parola di n lettere...................................7 4.1.2.3 Modifica di una parola ....................................................7 4.1.2.4 Unione di due frasi ..........................................................7 4.1.2.5 Markup Table..................................................................7
4.2 Efficacia in relazione ad un testo campione (nuovo) ................7 4.2.1 Risultati ottenuti..............................................................7
4.3 Efficienza in relazione ad un testo campione (nuovo) ..............7 4.3.1 Risultati ottenuti..............................................................7 4.3.2 Scalabilità .......................................................................7
Capitolo 5 Analisi dei risultati ........................................................7 5.1 Commento ai risultati...............................................................7
Capitolo 7 Conclusioni e futuro della Traduzione Assistita..........7
Fonti e riferimenti bibliografici........................................................7
Indice figure
Figura 1 – Struttura a tre livelli.............................................................................3 Figura 1.1 - Computer Aided Translation - Programma di traduzione
assistita da calcolatore......................................................................7
III
Figura 1.2 - Esempio di file in formato FrameMaker trasformato in formato RTF (traduzione manualistica Panasonic dal giapponese)................. 7
Figura 1.3 - Computer Aided Translation - Allineamento segmenti e creazione di una nuova memoria ...................................................... 7
Figura 1.4 - Esempio di segmentazione del testo .................................................. 7 Figura 2.1- Trados 5............................................................................................. 7 Figura 2.2 - Trados WorkSpace............................................................................ 7 Figura 2.3 - Trados WorkBench ........................................................................... 7 Figura 2.4 - Trados WorkBench - Importazione dati per creazione memoria......... 7 Figura 2.5 - Integrazione Trados - WordProcessor................................................ 7 Figura 2.6 - Impostazione del progetto ................................................................. 7 Figura 2.7 - Associazione file sorgente, file tradotto............................................. 7 Figura 2.8 - Pre-allineamento batch...................................................................... 7 Figura 2.9 - Allineamento segmento-segmento..................................................... 7 Figura 2.10 - Parametrizzazioni di WinAlign ....................................................... 7 Figura 2.11 - Analisi in ExtraTerm....................................................................... 7 Figura 2.12 - Lista termini esportabili .................................................................. 7 Figura 2.13 - Interfaccia MultiTerm ..................................................................... 7 Figura 2.14 – Trados WorkBench - Pretraduzione di tipo batch............................ 7 Figura 2.15 - IBM TranslationManager ................................................................ 7 Figura 2.16 - Interfaccia principale IBM TranslationManager .............................. 7 Figura 2.17 - Initial Translation Memory Tool ..................................................... 7 Figura 2.18 – Allineamento con l'Initial Translation Memory Tool....................... 7 Figura 2.19 – Initial Translation Memory Tool - Allineamento segmenti.............. 7 Figura 2.20 - Conferma allineamento ................................................................... 7 Figura 2.21 - Analisi batch in IBM TranslationManager....................................... 7 Figura 2.22 - Analisi batch in IBM TranslationManager....................................... 7 Figura 3.1 – Processo di Retrieval ........................................................................ 7 Figura 3.2 – Possibili risultati di una ricerca in una collezione.............................. 7 Figura 3.3 – Curva precision e recall .................................................................... 7 Figura 3.4 – Precision e recall - Esempio.............................................................. 7 Figura 3.5 – Modello booleano............................................................................. 7 Figura 3.6 – Modello basato su cluster ................................................................. 7 Figura 4.1 - Testo originale inserito in memoria ................................................... 7 Figura 4.2 - Eliminazione di una parola di 8 lettere .............................................. 7 Figura 4.3 - Report analisi batch Trados - Eliminazione di una parola di 8
lettere............................................................................................... 7 Figura 4.4 - Pretradotto - Eliminazione di una parola di 8 lettere .......................... 7 Figura 4.5 - Pretradotto - Eliminazione di una parola di 3 lettere .......................... 7 Figura 4.6 - Pretradotto - Eliminazione di due parole............................................ 7 Figura 4.7 - Pretradotto - Eliminazione di tre parole ............................................. 7 Figura 4.8 - Aggiunta di una parola di 8 lettere..................................................... 7 Figura 4.9 - Pretradotto - Aggiunta di una parola di 8 lettere ................................ 7 Figura 4.10 - Aggiunta di due parole .................................................................... 7 Figura 4.11 - Pretradotto - Aggiunta di due parole................................................ 7 Figura 4.12 - Modifica di una parola .................................................................... 7 Figura 4.13 - Pretradotto - Modifica di una parola ................................................ 7 Figura 4.14 - Prova "A and B".............................................................................. 7 Figura 4.15 - Pretradotto - Prova "A and B" ......................................................... 7 Figura 4.16 - Trados - Impostazione di nuove regole di segmentazione ................ 7
IV
Figura 4.17 - Pretradotto dopo l'introduzione di una nuova regola di segmentazione..................................................................................7
Figura 4.18 - Pretradotto dopo l'eliminazione del punto di separazione.................7 Figura 4.19 - Trados - "A1, B, A2".......................................................................7 Figura 4.20 - Pretradotto - Trados - "A1, B, A2" ..................................................7 Figura 4.21 - Trados - Analisi on-line...................................................................7 Figura 4.22 - Trados - Stemming..........................................................................7 Figura 4.23 - Pretradotto - Trados - Stemming......................................................7 Figura 4.24 - Trados - Stemming - on-line............................................................7 Figura 4.25 - Trados - Stemming..........................................................................7 Figura 4.26 - Pretradotto - Trados - Stemming......................................................7 Figura 4.27 - Trados - Stemming - on-line............................................................7 Figura 4.28 - Trados - Ordinamento delle parole ..................................................7 Figura 4.29 - Pretradotto - Trados - Ordinamento delle parole ..............................7 Figura 4.30 - Trados - Ordinamento delle parole - on-line ....................................7 Figura 4.31 – IBM TranslationManager ...............................................................7 Figura 4.32 – IBM TranslationManager – Batch processing .................................7 Figura 4.33 – IBM TranslationManager – Impostazione parametri del
progetto............................................................................................7 Figura 4.34 – IBM TranslationManager – Analisi risultati....................................7 Figura 4.35 – IBM TranslationManager – Interfaccia operativa ............................7 Figura 4.36 – IBM TranslationManager –Risultato dopo eliminazione di due
parole...............................................................................................7 Figura 4.37 – IBM TranslationManager – Eliminazione di due parole ..................7 Figura 4.38 – IBM TranslationManager – Eliminazione di parti consistenti..........7 Figura 4.39 – IBM TranslationManager – Eccesso di distanza..............................7 Figura 4.40 – IBM TranslationManager – Aggiunta di una parola ........................7 Figura 4.41 – IBM TranslationManager – Modifica di una parola ........................7 Figura 4.42 – IBM TranslationManager – “A and B” ...........................................7 Figura 4.43 – IBM TranslationManager – “A1 B A2” ......................................7 Figura 4.44 – IBM TranslationManager - “A1 parte di B A2”...........................7 Figura 4.45 – IBM TranslationManager - “A1 parte di B significativa A2”.......7 Figura 4.46 – IBM TranslationManager - “A1 B modificato A2”......................7 Figura 4.47 – IBM TranslationManager - “A1 B ulteriormente modificato
A2” ..................................................................................................7 Figura 4.48 – IBM TranslationManager – Word per Windows .............................7 Figura 4.49 – IBM TranslationManager – Word per Windows .............................7 Figura 4.50 – IBM TranslationManager – Word per Windows .............................7 Figura 4.51 – Scalabilità dei sistemi .....................................................................7
Introduzione 1
Introduzione
La traduzione è stata per lungo tempo considerata come quell’attività,
eseguita nel modo migliore, di trasporto di un testo da una lingua in
un’altra. Tradurre nel modo migliore, oggi, significa non solo
conoscere le parole, le regole grammaticali e le espressioni tipiche di
un paese e del suo idioma, ma anche produrre un documento che sia
identico per aspetto all’originale, ne rispetti cioè le caratteristiche
formali, e soprattutto sia caratterizzato da un’uniformità terminologica
e di stile.
Per sopperire a tale necessità, in relazione anche alle sempre più
elevate esigenze del mercato mondiale (quantità maggiori in minore
tempo e alla medesima elevata qualità), si è giunti negli ultimi decenni
a ricercare tecniche di automazione del processo stesso di traduzione.
Riuscire ad automatizzare il processo per dare maggiore qualità e
quantità in minor tempo è lo scopo che si sono prefissi i più recenti
studi sull’uso del calcolatore in appoggio alla traduzione. Tali studi
hanno portato alla realizzazione di sistemi di traduzione assistita
2 Introduzione
denominati CAT, Computer Aided Translation, dei quali i sistemi
EBMT, Example Based Machine Translation, sono uno dei più
promettenti sviluppi di tale ricerca.
Un sistema EBMT traduce per analogia, utilizzando traduzioni
precedentemente realizzate per fornire nuovi documenti pretradotti. Il
suo funzionamento quindi è riconducibile ad un processo di creazione
di una memoria di traduzione, Translation Memory, a cui sottoporre,
successivamente, un nuovo testo da tradurre. Il risultato che si ottiene
è un documento pretradotto. Completata poi la traduzione è possibile
arricchire la memoria con le nuove parti tradotte in un ciclo continuo
di accrescimento della memoria stessa.
I più recenti sviluppi in ambito di Information Retrieval hanno
permesso di giungere a tale risultato, di avere cioè sistemi che si
basano su database corredati da algoritmi per la determinazione di
similarità tra frasi..
Modello a tre livelli
La necessità di tradurre testi in quantità e con qualità sempre maggiori
è divenuta oggi tale da richiedere l’utilizzo di sistemi basati su
calcolatore come supporto al processo di traduzione vero e proprio. Se
in un primo tempo era infatti sufficiente disporre di una schiera di
traduttori professionisti, a cui affiancare revisori linguistici, cioè
traduttori con elevata esperienza in grado di verificare e quindi
validare la traduzione fatta da altri, oggi ciò non è più vero; esigenze
come la corretta scelta terminologica, il rispetto delle scelte
stilistiche/linguistiche del documento originale, l'esatta corrispondenza
al formato dei documenti originali hanno portato alla necessità di
introdurre un nuovo livello organizzativo che si inserisce tra cliente e
traduttore ed agisce sia sul testo originale da tradurre (testo source
fornito dal cliente) che sul testo tradotto (testo target ottenuto dal
traduttore). Questo nuovo modello a tre livelli nasce nella seconda
metà degli anni '70 e vede l'introduzione di una struttura organizzata,
intermedia nel processo di traduzione, il cui compito è quello di
sovrintendere al lavoro di traduzione, fornendo, a supporto della
Introduzione 3
traduzione stessa, tutti gli strumenti tecnologici disponibili e le
conoscenze specifiche in ambito informatico-linguistico.
Questa struttura è oggi rappresentata dalla cosiddetta società di servizi
linguistici che, raggruppando conoscenze informatiche, linguistiche e
tecnologiche, può affiancare nel proprio compito il traduttore. Essa è
costituita da tutte quelle attività collaterali al lavoro di traduzione,
quali la corretta ricerca della terminologia da fornire al professionista
prima dell'inizio dell'attività di traduzione (glossari e testi di
riferimento), l'analisi delle problematiche tecnico-informatiche dei
documenti (il problema dei formati dei file in continua evoluzione e
sempre più diversificati), il mantenimento dell'uniformità
terminologica all'interno di un medesimo testo, oltre all'utilizzo di
programmi di supporto alla traduzione.
Figura 1 – Struttura a tre livelli
La traduzione diviene quindi un'attività non più individuale ma un
processo collettivo di un'organizzazione specializzata.
Attività di traduzione: organizzazione specializzata
L'attività di traduzione di oggi può essere descritta tenendo conto dei
vari aspetti che la caratterizzano.
Se si caratterizza semplicemente la traduzione come il processo di
traduzione di un testo, si individuano parametri come la quantità di
testo da tradurre, il tipo di testo (contesto), le lingue coinvolte, la
1.cliente
2.organizzazione
3.traduttore
4 Introduzione
qualità della traduzione (correttezza grammaticale, sintattica e
terminologica).
Se invece ci si focalizza sull'organizzazione del lavoro di traduzione
(secondo livello) si ottengono nuovi parametri come il tipo di lavoro
(analisi formato, contesto, ricerca terminologica, uniformità
terminologica), la dimensione del lavoro (analisi dei volumi) e la
programmazione delle risorse (traduttori coinvolti nel progetto).
Il modello a tre livelli è l'unico in grado ad oggi di garantire tempi di
traduzione e costi da sostenere, sufficientemente bassi e in linea con le
richieste di qualità del mercato. I volumi attuali di traduzione
(normalmente calcolati in righe o cartelle normalizzate) e i relativi
costi sarebbero infatti inaccettabili con un approccio che potremmo
chiamare lineare (un certo numero righe di traduzione è affidato a un
certo numero di professionisti entro un complessivo numero di giorni).
L'unica soluzione attualmente individuabile è quella in cui
un'organizzazione si premura di analizzare un testo da tradurre
fornendo al traduttore tutte quelle informazioni e mezzi con cui
portare a termine il proprio lavoro nel migliore modo e nel minor
tempo possibile.
La traduzione assistita dal calcolatore è quindi approdata nelle società
di servizi linguistici come supporto al lavoro di organizzazione e
miglioramento della qualità della traduzione.
Tali strumenti permettono infatti sia l'analisi del materiale fornito da
tradurre al fine di determinare in breve i tempi e i costi (fase di
preventivazione del lavoro), che la creazione di memorie di traduzione
a partire da materiale inerente l'argomento della traduzione e
precedentemente tradotto, e infine la pretraduzione del nuovo
materiale sfruttando tali memorie. Altri aspetti della traduzione
assistita come la creazione di glossari specifici e l’aggiornamento
delle memorie sono ulteriori compiti della struttura organizzativa.
Scopo di questa tesi è quello di documentare la realtà degli strumenti
di traduzione assistita EBMT attualmente in commercio e diffusi nelle
società di servizi linguistici, le loro caratteristiche e prestazioni,
Introduzione 5
individuando eventualmente quale tipo di approccio tecnologico-
informatico sia alla base di essi.
In particolare verranno analizzati i programmi Trados 5.0.1 e IBM
TranslationManager 2.0.6. Il primo è tra i principali software in uso
nel mercato della traduzione commerciale, mentre il secondo è stato
tra i primi a essere sviluppato partendo da alcuni studi della divisione
tedesca del noto produttore in collaborazione con il partner IBM
Synthema [19].
La maggior parte del materiale analizzato e sintetizzato nella presente
tesi proviene da ricerche eseguite direttamente con i programmi in
questione presso la società Intradoc S.r.l. e da ricerche condotte in
collaborazione con la Dott.ssa Federica Mandreoli e il Dott. Ing.
Riccardo Martoglia dell’Università di Modena e Reggio Emilia.
Per quanto riguarda la struttura della tesi, essa è organizzata nel
seguente modo:
Nel Capitolo 1 vengono descritte quelle che devono essere le
caratteristiche peculiari di un buon sistema CAT. Nel Capitolo 2 sono
analizzati i componenti dei due prodotti presi in esame. Nel Capitolo
3 vengono descritte le principali nozioni di Information Retrieval,
mentre nel Capitolo 4 vengono condotte le esperienze sperimentali al
fine di valutare il funzionamento dei due prodotti. Quindi nel
Capitolo 5 si giunge a illustrare i risultati di tali prove in relazione
all’efficacia e all’efficienza degli stessi. Nel Capitolo 6 si evidenziano
i limiti di tali sistemi, arrivando nel Capitolo 7 a fornire una
panoramica sugli sviluppi futuri della traduzione assistita.
Computer Aided Translation 7
Capitolo 1 Computer Aided Translation
Scopo della traduzione assistita da calcolatore (Computer Aided
Translation - CAT) nel mondo aziendale odierno è quello della
pretraduzione automatica al fine di ridurre i costi e i tempi della
traduzione stessa mantenendo un elevato standard qualitativo sia dal
punto di vista linguistico che di formato. Oltre a questo, lo scopo è
anche quello di fornire al traduttore testi pretradotti corredati da
ulteriori elementi aggiuntivi utili al completamento del proprio
compito.
Il modello a tre livelli precedentemente descritto è l’unico ad oggi a
fornire una soluzione efficace a questa richiesta, in quanto da un lato
fornisce al cliente garanzia di organizzazione del lavoro, tempi certi di
realizzazione a costi preventivati con qualità elevata, e dall’altro è
l'unico in grado di consentire un'approfondita ricerca di conoscenze
specifiche e in particolare informatiche che solitamente non sono alla
portata e competenza di un singolo traduttore.
8 Computer Aided Translation
Un ulteriore motivo all’utilizzo della traduzione assistita è anche
quello di generare glossari bilingue a partire da testi completi allo
scopo di disporre di un riferimento terminologico preciso da utilizzare
anche in occasioni non strettamente legate alla traduzione.
Figura 1.1 - Computer Aided Translation - Programma di traduzione assistita da calcolatore
1.1 Componenti di base e strumenti aggiuntivi
I programmi di traduzione assistita sono normalmente composti da
strumenti atti all'analisi e alla pretraduzione di testi da tradurre da una
lingua sorgente ad una di destinazione. Questi strumenti sono
normalmente racchiusi dentro un'interfaccia grafica principale del
programma da cui è possibile impostare un progetto di traduzione e
accedere ai principali strumenti necessari alla gestione dello stesso.
L'interfaccia principale del programma consente quindi
specificatamente di indicare la posizione dei file da tradurre, la
posizione della memoria da utilizzare, le lingue coinvolte nel progetto,
lo stato di avanzamento del lavoro, il materiale di riferimento inerente
e altre informazioni.
Oltre all'interfaccia principale sono solitamente forniti anche altri
componenti utili alla realizzazione di un progetto di traduzione tra cui
si possono individuare ad esempio: dizionari multilingua, dizionari dei
Programma CAT Traduttore
Glossari, memorie ulteriori di riferimento, altra documentazione
Testo sorgente
Testo tradotto
Pre-tradotto
Computer Aided Translation 9
sinonimi, tool di conversione tra formati, programmi per la creazione
di memorie a partire da testi già tradotti in precedenza.
Oggetto principale di un programma di traduzione assistita è la
cosiddetta Translation Memory (TM) attorno alla quale ruotano tutti i
componenti del programma.
Translation Memory
Il principale componente di un programma di traduzione assistita
(CAT) è la cosiddetta Translation Memory (TM) o banca dati in cui
sono memorizzate le associazioni tra un segmento (o frase) in una
lingua e la sua corrispondente in un'altra lingua. Ogni associazione
rappresenta un record della banca dati comporto da più campi tra cui
anche data di creazione del record, autore, note, ecc.
Tale database costituisce il nucleo attorno a cui lavora il programma
vero e proprio che avrà quindi il compito di analizzare un testo
sottoposto a traduzione ricercando eventuali somiglianze tra una frase
nuova e quelle presenti nel database stesso. Tale approccio alla
traduzione assistita basato su esempi viene denominato EBMT -
Example Based Machine Translation – intendendo con ciò un sistema
per la realizzazione di una traduzione basandosi su precedenti
traduzioni memorizzate in una struttura organizzata [2] [16].
Una più precisa definizione è stata fornita dall'Expert Advisory Group
on Language Engineering Standards (EAGLES) [6]: “a multilingual
text archive containing (segmented, aligned, parsed and classified)
multilingual texts, allowing storage and retrieval of aligned
multilingual text segments against various search conditions” (un
archivio testuale multilingua di testi segmentati, allineati, scomposti e
classificati che consenta l'archiviazione e la ricerca di segmenti di
testo multilingua da tradurre tramite un'interrogazione
parametrizzabile.)
10 Computer Aided Translation
Tool di pretraduzione automatica (batch processing)
Il tool di pretraduzione automatica è quello strumento in grado di
generare un file bilingue sostituendo al testo originale quei segmenti
in lingua trovati in memoria. Il file così ottenuto è poi
successivamente sottoposto a traduzione per completarne il risultato.
La caratteristica di questo strumento di operare su testi anche senza
conoscenze linguistiche specifiche lo rendono utilizzabile da qualsiasi
operatore.
Questo strumento è calibrabile in base ad alcuni parametri come ad
esempio il livello di matching con cui cercare nella Translation
Memory, il grado di segmentazione del testo, le conversioni
automatiche di date, valute e formati numerici, ottenendo così la
possibilità di differenti risultati personalizzabili.
Tool di suggerimento
Il tool di suggerimento è quello strumento di interfaccia utente tramite
il quale il traduttore traducendo un testo riceve parallelamente alla
traduzione individuata nella TM anche alcuni input aggiuntivi
(suggerimenti) che sono contestuali, ad esempio suggerimenti di
termini attinti da glossari settoriali.
Dizionari Multilingua
Un dizionario multilingua è composto tipicamente da uno o più
dizionari bilingua e da un applicativo di ricerca. Questi applicativi
sono normalmente concepiti per lavorare assieme ad un programma di
videoscrittura e qualche volta permettono anche la gestione delle
inflessioni terminologiche (permettono cioè di non dover introdurre la
radice di un termine per cercarne la traduzione ma automaticamente
cercano e suggeriscono i termini più vicini). Questi applicativi
vengono forniti con dizionari settoriali preimpostati, ma modificabili,
e sono caratterizzati dalla possibilità di importazione/esportazione dei
termini stessi.
Computer Aided Translation 11
Si tratta quindi di uno strumento utile sia per il traduttore in fase di
traduzione sia per l'organizzazione che deve fornire al traduttore in
fase di inizio lavoro un dizionario contestuale al documento da
tradurre.
In taluni casi se la struttura organizzativa e il traduttore utilizzano il
medesimo sistema di traduzione assistita, è possibile interscambiare
dizionari in un formato originale senza necessità di esportarli al fine di
mantenere un'uniformità di strumentazione adoperata e consentendo di
arricchire direttamente il dizionario originale.
Dizionari dei Sinonimi
I dizionari dei sinonimi solitamente consistono di due o più dizionari
collegati (cross-reference multilingual thesauri) che permettono
ricerche di sinonimi (e/o contrari) tramite ricerche di concetto e non
solamente di tipo alfabetico. Il fruitore di tale dizionario (corredato da
applicativo di ricerca) può quindi scorrere e ricercare la terminologia
attraverso più lingue individuando le sotto-aree di pertinenza. Non
sono infrequenti informazioni anche di tipo grammaticale, genere,
inflessioni e altro.
I traduttori professionisti potrebbero altresì trovare questi dizionari
troppo limitati e quindi è prevista la possibilità di modifica,
cancellazione, introduzione dei termini stessi. Questi applicativi
inoltre forniscono la possibilità di riordinare i dati stessi in base a
criteri che vanno al di là della semplice relazione di sinonimia, ad
esempio: per associazioni, per contrari (antinomia), per sottoparti, per
declinazione. A questo proposito si veda §2.1.1.5 "MultiTerm" a
pagina 7.
Tool di conversione formati
Oggi i documenti da tradurre sono nei formati più disparati (Quark
Xpress, Adobe PageMaker, Adobe FrameMaker, Word XP, Word
2000, Word 97, ecc.) e devono essere tradotti da professionisti che
non sempre dispongono di tali software; sono quindi necessari
strumenti che consentano la trasformazione di un documento da un
12 Computer Aided Translation
formato ad un altro e viceversa al fine di garantire un processo di
traduzione semplificato e il rispetto/mantenimento dell'aspetto del
documento originale.
I tool di conversione permettono quindi di convertire in formati di
interscambio (Interchange Format File) come l'RTF (Rich Text File) o
il MIF (Meta Interchange Format) i documenti originali e di
mantenere con opportuni codici (tags) le formattazioni del testo stesso
(grassetti, dimensioni caratteri, posizione del testo e delle figure nella
pagina) al fine di permettere una corretta contro-conversione nel
formato originale.
Solitamente questo tool è di ausilio a chi si occupa di organizzare il
lavoro di traduzione e permetterà al traduttore di manipolare
documenti senza preoccuparsi del formato originale e senza necessità
di disporre di applicativi dedicati. Inoltre il traduttore potrà continuare
ad utilizzare il programma di videoscrittura a cui è maggiormente
abituato senza dover apprendere nuovi strumenti.
Tale processo di conversione è quindi una normalizzazione del testo
che lo rende di fatto indipendente dal formato originale. Tale
strumento permette inoltre un mantenimento dell'investimento
economico effettuato per l'acquisto del programma, grazie alla
possibilità di gestire nuovi formati tramite moduli aggiuntivi plug-in
da implementare nel programma stesso.
Nella figura seguente si vede un testo esportato dal formato
FrameMaker in formato RTF. Esso è corredato da codice di controllo
di colore grigio e rosso contenente quelle informazioni aggiuntive non
propriamente attinenti il lavoro vero e proprio del traduttore ma
necessarie per la sua corretta contro-conversione nel formato
originale.
Computer Aided Translation 13
Figura 1.2 - Esempio di file in formato FrameMaker trasformato in formato RTF (traduzione manualistica Panasonic dal giapponese)
Tool di creazione di nuove memorie
Nell'ottica di recuperare materiale precedentemente tradotto viene
fornito uno strumento per l'allineamento di testi sorgenti e testi tradotti
allo scopo di creare nuove memorie. Queste memorie saranno alla
base della pretraduzione di nuovi testi. E’ pertanto di fondamentale
importanza che questo strumento sia in grado di realizzare
velocemente ed efficacemente tali nuove memorie.
Questo strumento, normalmente dotato di interfaccia grafica
complessa, si compone di un primo modulo in grado di scomporre in
segmenti il testo sorgente e quello tradotto per poi, in una seconda
fase, consentire all'utente di verificare, ed eventualmente correggere,
l'allineamento segmento-segmento suggerito.
Al termine di questa operazione di allineamento, viene creata una
memoria catalogabile secondo vari parametri come il nome del
creatore, la data di creazione, il materiale su cui si basa e le lingue
presenti (vedi Figura 1.3).
14 Computer Aided Translation
Figura 1.3 - Computer Aided Translation - Allineamento segmenti e creazione di una nuova memoria
1.2 Caratteristiche ideali di un sistema di traduzione assistita
Al fine di poter analizzare un sistema di traduzione assistita presente
sul mercato è necessario compiere prima una analisi dei requisiti che
un applicativo del genere dovrebbe possedere. Sulla base di queste
caratteristiche sarà possibile comprendere meglio le caratteristiche dei
prodotti in commercio e i parametri con cui valutarne l’efficacia.
Ricordando che una sistema basato su Translation Memory è una sorta
di archivio multilingua contenente del testo segmentato, allineato e
classificato, sarà quindi possibile sottoporre al sistema materiale
testuale al fine di ottenere in output un dato qualificativo indicante la
presenza o meno nell’archivio dello stesso testo o di testo simile ad
esso. Tale valutazione di similitudine ovviamente dovrà essere
limitata al solo testo e sarà corredato da un valore compreso tra 0 e 1
che ne indica il grado di similitudine.
Alcuni software di traduzione assistita cercano e segnalano solo
stringhe perfettamente identiche a quelle presenti in memoria, altri
invece compiono una ricerca di tipo approssimata (fuzzy), suggerendo
frasi simili a meno di un valore percentuale che faccia da
TM
Computer Aided Translation 15
discriminante per il traduttore. In questo secondo caso l’applicativo
che compone il sistema di traduzione assistita, segnala puntualmente
con opportuni parametri, flag o colori le eventuali differenze.
Le segnalazioni sono tanto più accurate quanto più l’applicativo è
basato su un algoritmo complesso per l’individuazione di queste
somiglianze.
I migliori applicativi segnalano inoltre anche le eventuali ripetizioni
presenti nel testo al fine di minimizzare task ripetitivi di traduzione.
Considerando quindi le sopracitate necessità di ricerca ed indicazione
del livello di attinenza con i dati presenti in una memoria si evince che
un applicativo per la traduzione assistita è un sistema basato su un
sistema di tipo query / database.
Infine le caratteristiche di un sistema di traduzione assistita
suddividono lo stesso in differenti componenti: componenti Off-line,
intendendo la capacità del sistema di pre-analizzare un testo ancora da
sottoporre a traduzione; componenti On-line in grado di accompagnare
l’opera di traduzione vera e propria.
1.2.1 Componenti Off-line
1.2.1.1 Analisi del testo da tradurre
L’analisi delle caratteristiche Off-line parte dalla necessità di
segmentazione sia del testo sorgente che di quello di destinazione.
Tale scomposizione è necessaria da un lato per creare memorie di testi
già tradotti associando segmenti nelle due lingue, dall’altro per
consentire la ricerca di un segmento nuovo in una memoria esistente.
Segmentazione
Lo scopo della segmentazione è quello di individuare le unità di testo
da tradurre che abbiano una specificità, indipendenza e completezza a
prescindere dal testo che precede e segue. Intuitivamente la
scomposizione di un testo in segmenti può essere effettuata
considerando i segni di punteggiatura e gli eventuali codici aggiuntivi
o caratteri speciali, come elementi separatori.
16 Computer Aided Translation
Il riconoscimento della punteggiatura richiede ovviamente una
conoscenza da parte del sistema dell’ortografia e delle convenzioni
grammaticali della lingua, ad esempio per distinguere il normale punto
alla fine di una frase da un punto presente alla fine di una
abbreviazione o sigla.
Inoltre eventuali presenze di codici aggiuntivi propri del testo devono
essere individuati dal sistema e debitamente ignorati e/o utilizzati per
la corretta scomposizione del testo.
Si veda a questo proposito l'esempio seguente: una lista di ricambi
composta da codici alfanumerici di matricola seguiti dopo un segno
distintivo da brevi testi descrittivi, in tale caso il discriminante è
proprio il segno distintivo.
…
ALFA001 *** Transistor¶
BETA002 *** Triodo¶
GAMMA003 *** Diodo¶
… Figura 1.4 - Esempio di segmentazione del testo
Nell'esempio sopra riportato il sistema deve essere in grado di
individuare il simbolo "***" come elemento separatore tra i codici
sulla sinistra (da non tradurre) e i termini sulla destra da tradurre.
Ovviamente oltre a tale segno, il sistema deve riconoscere anche
l'andata a capo (¶) come ulteriore elemento distintivo. Anche altri
elementi come ad esempio nomi propri, numeri, date, valute, figure
possono essere considerati codici aggiuntivi utili alla scomposizione
del testo.
La segmentazione porta quindi alla scomposizione di un testo in
elementi di base che successivamente verranno o analizzati
ricercandoli nella memoria o allineati con altri segmenti in un’altra
lingua al fine di creare una nuova memoria.
Computer Aided Translation 17
I segmenti individuati da un processo di scomposizione non dovranno
essere troppo piccoli (necessità di avere un senso compiuto) al fine di
non arrivare all'assurda traduzione “parola per parola”; a questo
proposito si ricorda la presenza in commercio di programmi di
traduzione elementare i cui suggerimenti sono solo applicazione di
“filtri” di traduzione parola per parola con risultati spesso scarsi o
addirittura errati. La dimensione ottimale varia ovviamente in
funzione del tipo di testo che si traduce. Da un lato la traduzione di un
nuovo testo utilizzando una memoria basata su una segmentazione
troppo stretta potrebbe fornire una larga percentuale di uguaglianze
non riutilizzabili in un contesto che deve essere completo e omogeneo,
dall’altro la traduzione di un testo segmentato strettamente confrontato
con memorie dai segmenti più grandi potrebbe avere poche
segnalazioni di similitudine.
Altri tipi di segmentazione
Un altro tipo di segmentazione è quella linguistica:
- la lemmatizzazione (lemming) o stemming è la riduzione di un
termine al suo elemento primitivo, alla radice; ed è utilizzata per la
preparazione di una lista di parole chiave ad esempio per
successive ricerche in banche dati di tipo differente.
- la scomposizione sintattica è utile per individuare quelle sottoparti
di un segmento che possono essere considerate come indipendenti
e significative. Lo scopo è quello di permettere il riutilizzo della
loro traduzione in altre parti del documento stesso (concetto di
“molecola-poche parole” rispetto al concetto “atomo-parola”)
Allineamento
Per allineamento si intende l'individuazione delle corrispondenze tra
testo (sorgente/traduzione). La segmentazione fornisce
all’allineamento quella scomposizione in unità la cui corrispondenza
permette di ottenere i migliori risultati nella fase successiva di ricerca
nella Translation Memory.
18 Computer Aided Translation
In generale una differente punteggiatura nel testo tradotto può
ingenerare una difficoltà aggiuntiva in fase di allineamento (i migliori
applicativi permettono l’individuazione e correzione di tali regole di
scomposizione).
Estrazione delle parole chiave
Un ulteriore strumento è quello dell’analisi statistica delle parole
presenti nel testo di un documento da tradurre al fine di individuare
quei termini che si ripetono molte volte. Questo allo scopo di
individuare quelle parole chiave da sottoporre ad ulteriore (e separata)
analisi. Si veda §2.1.1.4 "Trados-ExtraTerm" a pagina 7.
Statistiche del testo
Alla necessità di valutare il volume di un nuovo lavoro di traduzione,
risponde quell’applicativo capace di fornire numericamente
indicazioni sulla quantità di parole, segmenti, ripetizioni presenti nel
testo sorgente al fine, ad esempio, di permettere una valutazione
tempi/costi di una traduzione che ci si appresta ad iniziare.
1.2.1.2 Importazione dati nella TM
L’importazione dei dati allineati in una TM consiste nell’introduzione
automatica di segmenti nella lingua sorgente e i corrispondenti
segmenti nella lingua di destinazione.
L’importazione può avvenire da un formato grezzo o da uno nativo.
Il cosiddetto formato grezzo è qualsiasi formato in cui il testo sorgente
e quello di destinazione sono formattati eccetto il formato nativo della
TM stessa.
In altre parole testi in formato ASCII, ANSI, o di un qualsiasi
programma di videoscrittura sono considerati come testo grezzo da
segmentare ed allineare.
Il formato nativo invece consiste nell’avere il testo sorgente e quello
di destinazione nel formato proprio della Translation Memory. Tale
formato conterrà già informazioni come segmentazione e
allineamento.
Computer Aided Translation 19
1.2.1.3 Esportazione dati dalla TM
Per esportazione si intende il processo di trasferimento di testo dalla
TM in un file esterno di testo. Lo scopo è quello di permettere la
successiva importazione da parte del traduttore in un eventualmente
differente sistema di traduzione assistita.
1.2.1.4 Altre funzioni Off-line
Altre funzioni off-line possono essere:
- Merging (Join)
- Filtering
- Inversione
- Composizione
Le TM sono dei database in cui il merging altro non è che il join tra
tabelle. Un record in una tabella corrisponde ad un segmento assieme
alla sua traduzione e ad altre informazioni aggiuntive. Un join è basata
sulla uguaglianza perfetta o di tipo approssimato tra uno o più campi.
Il merging può essere usato in congiunzione con il filtering. Per
filtering infatti si intende la possibilità di esportare (filtrare) da un
testo sottoposto a traduzione solo quei segmenti che non sono presenti
in memoria, al fine ad esempio di sottoporre tali segmenti non tradotti
ad altre analisi con altre TM.
Per inversione si intende invece la capacità di rovesciare il “verso”
della traduzione (scambio tra lingua sorgente e lingua destinazione nel
database).
Per composizione (sorta di proprietà transitiva delle memorie) si
intende la capacità di avere una traduzione in una terza lingua a partire
da memorie tra una prima lingua e una seconda e tra questa seconda e
la terza in questione.
20 Computer Aided Translation
1.2.2 Componenti On-line
In fase di traduzione un sistema di traduzione assistita deve fornire, a
partire dai dati presenti nella TM, suggerimenti su come tradurre un
determinato segmento di testo. Tale segnalazione deve essere
corredata da varie informazioni aggiuntive:
- diverse alternative di traduzione se in memoria sono presenti varie
frasi simili o uguali;
- indicazione del livello di somiglianza tra la frase da tradurre e
quella presente in memoria;
- indicazione delle parole differenti (colorandole ad esempio).
La stessa interfaccia utente deve supportare alcune funzionalità
specifiche:
- esportazione del nuovo segmento;
- possibilità di modificare la traduzione presente in memoria
(eventuali correzioni in memoria);
- possibilità di variare i parametri al fine di ottenere differenti
risposte dalla TM (ad esempio ignorare le date, i numeri, i codici, i
nomi propri, ecc.).
1.2.2.1 Ricerca
Si consideri la TM come un database e la frase/segmento sorgente
come quell’unità da cercare tramite query; si possono così ottenere
due tipi di risultati che sono alla base della ricerca.
Exact match
Per Exact match si intende la perfetta uguaglianza carattere per
carattere tra il testo sorgente da tradurre e il testo sorgente presente in
memoria.
Approximate match
Una uguaglianza di tipo approximate (fuzzy) è la somiglianza tra
segmenti a meno di alcune differenze. Solitamente gli applicativi
Computer Aided Translation 21
assegnano valori di verosimiglianza. La misurazione della distanza
(Edit distance [8]) tra le parole è uno dei metodi usati per valutare tale
verosimiglianza.
Si tenga conto che il peso assegnato alle differenze varia da
programma a programma, ma deve essere in parte parametrizzabile
dall’utente. Ad esempio la presenza di codici, date, ecc. e dei rispettivi
pesi di traduzione devono essere calibrabili.
1.2.2.2 Aggiornamento e Networking
In fase di traduzione una frase tradotta deve essere immediatamente
inserita nella TM al fine di fornirla come suggerimento all’utente
qualora si ripresentasse all’interno del testo.
Inoltre in caso di memorie centralizzate deve essere possibile accedere
ad esse da parte di più utenti contemporaneamente. Si noti come in
caso di memoria condivisa l’inserimento di una traduzione errata può
ripercuotersi su altre traduzioni, nasce quindi la necessità della
definizione del livello degli utenti (account) in relazione alla memoria,
potendo così valutare il suggerimento in relazione al livello degli
utenti quali “traduttori”, “revisori di lingua”, "correttori di bozze", ecc.
22 Computer Aided Translation
Programmi in commercio 23
Capitolo 2 Programmi in commercio
Nel presente capitolo si vogliono individuare i principali e
maggiormente diffusi programmi commerciali.
I programmi sottoposti ad analisi sono Trados nella versione 5.0.1 e
IBM TranslationManager nella versione 2.6.0.
24 Programmi in commercio
2.1 TRADOS
Figura 2.1- Trados 5
Trados è una suite composta da più programmi atti a consentire la
traduzione di un testo. L’approccio al sistema è estremamente curato
nell’interfaccia grafica e nelle possibilità di forte personalizzazione
consentite all’utente.
2.1.1 Componenti e loro caratteristiche
I componenti principali di Trados sono WorkSpace, WorkBench,
WinAlign, ExtraTerm, MultiTerm. In particolare tali componenti
servono per eseguire differenti task legati alla traduzione assistita in
relazione anche a differenti scenari possibili di traduzione.
L'operatività del sistema potrebbe essere quindi così descritta:
- creazione di memorie a partire da traduzioni precedentemente
svolte: usando WinAlign per l'allineamento delle stringhe e
WorkBench per la creazione della TM vera e propria si realizzano
memorie da utilizzare per successive traduzioni;
- creazione di nuovi progetti di traduzione in ambiente integrato
tramite WorkSpace, riunendo file da tradurre, memorie da
utilizzare, glossari consultabili;
Programmi in commercio 25
- creazione di glossari di traduzione esportando le parole chiave da
testi da tradurre tramite ExtraTerm, consultabili tramite
MultiTerm.
2.1.1.1 WorkSpace
WorkSpace è una shell integrata tramite la quale impostare interi
progetti di traduzione in varie lingue indicando ad esempio le cartelle
interessate al progetto, i dizionari associati, le memorie di traduzione
da utilizzare e aggiornare, oltre a permettere la centralizzazione dei
più comuni compiti di traduzione quali analizzare preventivamente il
materiale da tradurre (al fine di un preventivo) e arricchire la memoria
di traduzione al rientro di un file tradotto (Figura 2.2).
Figura 2.2 - Trados WorkSpace
2.1.1.2 WorkBench
WorkBench è l’interfaccia che si integra con il programma di Word
Processing adottato per l’editing del testo da tradurre. Prima della
creazione della versione 5, Trados non disponeva della scrivania
26 Programmi in commercio
virtuale WorkSpace ed era WorkBench stesso a fungere da strumento
principale per il traduttore. Ancora oggi si tende ad identificare Trados
con lo strumento WorkBench, in quanto risultava l’interfaccia tipica
per l’utente, negando di fatto l’esistenza di altri tool.
WorkBench consente il suggerimento on-line in fase di traduzione di
segmenti disponibili in memoria a meno di un valore percentuale di
similitudine (100% o approximate match); consente inoltre la
manutenzione e creazione di memorie a partire da file allineati
(realizzati precedentemente con WinAlign).
Figura 2.3 - Trados WorkBench
Qui di seguito (Figura 2.4) l'interfaccia di importazione e creazione
memoria a partire da file allineati in precedenza con WinAlign:
Figura 2.4 - Trados WorkBench - Importazione dati per creazione memoria
Tramite tale schermata è possibile indicare se si tratta di importazioni
minori (senza rigenerazione dell’indice della banca dati) o di
importazioni massive (Import Mode), oltre a permettere l’eventuale
aggiornamento di testo già presente in memoria fornendo nuove
possibili traduzioni dello stesso (Existing Translation Units).
Programmi in commercio 27
In fase di traduzione il programma è integrato direttamente
all’ambiente scelto per la traduzione del testo, tramite pulsanti
aggiunti alla toolbar del Word Processor. Tali pulsanti consentono di
interrogare il database, di sostituire il testo sorgente con quello
tradotto e di aggiornare in tempo reale la memoria (Figura 2.5).
Figura 2.5 - Integrazione Trados - WordProcessor
2.1.1.3 WinAlign
WinAlign è lo strumento per l'allineamento di coppie di file in lingue
differenti. Tale allineamento ha lo scopo di generare un file di
interscambio successivamente importabile in WorkBench.
Il programma permette l’individuazione di quali file allineare, il
formato degli stessi e le lingue di origine e destinazione (Figura 2.6).
28 Programmi in commercio
Figura 2.6 - Impostazione del progetto
Figura 2.7 - Associazione file sorgente, file tradotto
E' ovviamente possibile impostare interi gruppi di file che
compongono progetti complessi.
Dopo questa prima fase di impostazione dei parametri, il programma
compie una fase di pre-analisi/segmentazione (Figura 2.8). Durante
questa fase il programma scompone i file in lingua sorgente e in
lingua destinazione in segmenti che nella fase successiva saranno
proposti per l’allineamento vero e proprio.
Programmi in commercio 29
Figura 2.8 - Pre-allineamento batch
Al termine si procede alla verifica dell'allineamento suggerito dal
programma tramite un’interfaccia grafica a due colonne in cui sono
affiancate le due lingue e i segmenti in cui sono state scomposte.
L'operatore/utente può quindi intervenire a vari livelli correggendo
eventuali segmenti allineati in maniera errata (Figura 2.9).
Figura 2.9 - Allineamento segmento-segmento
30 Programmi in commercio
Durante questa fase è consentito di disallineare interi blocchi di
segmenti e di sospendere il lavoro per recuperarlo in un secondo
momento. Particolarmente interessante è la funzione che consente di
poter modificare il testo di singoli segmenti per correggere eventuali
errori di ortografia.
Al termine della fase di verifica dell'allineamento si procede con
l'esportazione in un file .TXT per permettere il successivo inserimento
nella TM.
Data la particolare importanza della fase di segmentazione del testo è
stata inserita la possibilità di impostare alcuni parametri del
programma stesso per consentire una calibrazione in base alle proprie
esigenze specifiche. In un pannello del programma stesso è infatti
possibile impostare, prima di eseguire la pre-analisi/segmentazione del
testo, parametri come le regole di segmentazione da adottare
(Segmentation Rules - Figura 2.10).
Figura 2.10 - Parametrizzazioni di WinAlign
Programmi in commercio 31
Si noti come il programma abbia preimpostate alcune regole di
segmentazione basate sul punto (Full Stop), sui segni di tabulazione
(Tabulator), sui punto e virgola (Colon), su marcatori personalizzabili
(Marks) e su segni di fine paragrafo (End of Paragraph), mentre non
prevede una segmentazione basata sulla regola della scomposizione in
base alla presenza di virgole nel testo ("comma"). Questa opzione è
però facilmente implementabile in quanto il programma consente
l’introduzione di nuove regole di segmentazione.
2.1.1.4 ExtraTerm
ExtraTerm è lo strumento di estrazione di parole chiave per la
realizzazione di glossari (Figura 2.11). Il programma è
parametrizzabile in funzione del tipo di glossario che si desidera
ottenere. Ad esempio è possibile stabilire che il glossario deve
contenere singole parole o insiemi di parole composte da un certo
numero di termini (Figura 2.12).
Figura 2.11 - Analisi in ExtraTerm
32 Programmi in commercio
Figura 2.12 - Lista termini esportabili
2.1.1.5 MultiTerm
MultiTerm è l’interfaccia integrata nel programma di Word
Processing per la ricerca in tempo reale di singoli termini durante la
fase di traduzione.
Figura 2.13 - Interfaccia MultiTerm
Programmi in commercio 33
2.1.2 Ulteriori caratteristiche
Lo strumento WorkBench consente la pretraduzione automatica di
tipo batch di un documento indicando un livello minimo di
verosimiglianza da applicare. E’ cioè consentito di ottenere in maniera
semiautomatica un documento pretradotto in cui le frasi uguali a
quelle in memoria sono sostituite con quelle nella lingua di
destinazione. Il testo così ottenuto sarà composto da frasi ancora nella
lingua sorgente e frasi nella lingua destinazione.
La particolarità di questo strumento è la possibilità di discriminare la
soglia di verosimiglianza. In altre parole è consentito impostare a
livelli inferiori il 100% il parametro con cui il programma sostituisce
le frasi quasi uguali (Approximate match).
Ad esempio è possibile pretradurre un documento indicando che
segmenti nella lingua sorgente uguali solo al 97% a segmenti presenti
in memoria siano trattati alla stregua di Exact match (Figura 2.14).
Questo genere di approccio è ovviamente estremamente delicato in
quanto si presuppone la certezza da parte dell’operatore di essere di
fronte a casi in cui la verosimiglianza al 97% sia effettivamente una
verosimiglianza assoluta.
Questo genere di azione è consigliabile solo dopo alcune prove e in
casi particolari in cui, ad esempio, i codici di controllo, e non il testo
vero e proprio, differiscono da quelli in memoria ed è comunque
prevista una successiva verifica degli stessi.
34 Programmi in commercio
Figura 2.14 – Trados WorkBench - Pretraduzione di tipo batch
Programmi in commercio 35
2.2 IBM TRANSLATION MANAGER
Figura 2.15 - IBM TranslationManager
IBM TranslationManager è un programma incentrato su una scrivania
virtuale di lavoro, unica e centralizzata, e da uno strumento aggiuntivo
per la creazione di memorie.
2.2.1 Componenti
Il programma è costituito da due applicativi ciascuno specifico per un
determinato compito. La shell principale di sistema
TranslationManager consente di cui creare progetti, importare file,
associare memorie a progetti, consultare memorie, ecc. Il secondo
applicativo si chiama Initial Translation Memory Tool e serve per la
creazione di memorie permettendo l'allineamento di file
scomponendoli in singole sentence.
2.2.2 Caratteristiche
La scrivania virtuale TranslationManager contiene una serie di finestre
ciascuna atta ad uno scopo diverso. Una prima finestra contiene ad
36 Programmi in commercio
esempio la lista delle cartelle progetto in cui è possibile importare e
impostare i formati dei file o aprire i file da pretradurre e completare.
Altri strumenti/finestre presenti sono la cartella delle memorie
consultabili e la cartella degli eventuali dizionari settoriali (Figura
2.16).
Figura 2.16 - Interfaccia principale IBM TranslationManager
Programmi in commercio 37
L'Initial Translation Memory Tool (Figura 2.17) si presenta invece
con una interfaccia articolata in cui individuare i file da allineare allo
scopo di permetterne la scomposizione e successiva realizzazione di
una nuova memoria.
Figura 2.17 - Initial Translation Memory Tool
Figura 2.18 – Allineamento con l'Initial Translation Memory Tool
Dopo la prima fase di segmentazione e allineamento dei due testi
(Figura 2.18), il programma presenta un'interfaccia a due colonne in
cui vengono visualizzati i due testi di cui verificarne l’allineamento
(Figura 2.19).
38 Programmi in commercio
Figura 2.19 – Initial Translation Memory Tool - Allineamento segmenti
Particolarità di questo approccio è l'arricchimento della memoria in
tempo reale; mentre infatti si procede con la conferma delle singole
frasi, la memoria viene aggiornata ed è subito utilizzabile da un altro
eventuale utente. Ovviamente il lavoro di conferma di allineamento
può essere sospeso, consentendo di rimandare particolare decisioni e
non introdurre in memoria dati inesatti.
Al termine della fase di allineamento dei due testi si conferma la
creazione della memoria completando il processo (Figura 2.20).
Figura 2.20 - Conferma allineamento
Programmi in commercio 39
Questa interfaccia a differenza del precedente Trados si presenta
estremamente scarna. In particolare risulta scomoda e poco intuitiva
per il neofita a causa dell’assenza di icone e menu personalizzabili. E’
quindi possibile, solo dopo molta pratica, apprendere i numerosi
comandi abbreviati da tastiera. Ciò è prevalentemente dovuto
all'origine del programma in ambiente Unix testuale in cui era stato
sviluppato e a cui i progettisti non hanno rinunciato nel porting in
ambiente Windows.
2.2.3 Ulteriori caratteristiche
Come nel caso del precedente programma analizzato, si vuole ora
valutare la differente tecnica di approccio alla traduzione del sistema
IBM. I tipi di analisi dei file da tradurre è anche in questo caso
distinguibile in analisi di tipo batch e analisi di tipo On-line.
Analisi di tipo batch
Figura 2.21 - Analisi batch in IBM TranslationManager
40 Programmi in commercio
Partendo dalla scrivania del sistema è possibile aprire e analizzare un
file singolo di un progetto impostato. Tale tipo di analisi prevede solo
pochi settaggi possibili per la pretraduzione automatica di un file.
Una caratteristica principale è che questo tipo di approccio può essere
definito di tipo assoluto, in quanto le frasi eventualmente uguali
(Exact match) vengono sostituite senza lasciare traccia nel documento
originale, perdendo quindi il vantaggio di un eventuale suggerimento
al traduttore. Non è inoltre possibile indicare un eventuale livello
minimo di verosimiglianza da utilizzare come soglia per ottenere un
documento pretradotto in cui anche le frasi simili a meno di un certo
valore percentuale siano automaticamente sostituite come fossero
esattamente uguali. Per questo motivo è preferibile fornire al
traduttore sia il file originale che la memoria, al fine di permettergli
una traduzione on-line che consenta in tempo reale la consultazione
delle frasi suggerite dalla memoria. Questo processo però genera nel
traduttore la necessità di tradurre o meglio confermare anche quelle
frasi che sono in realtà già rilevate dal sistema come uguali al solo
fine di permettere al traduttore di venirne a conoscenza
In conclusione questo approccio è sicuramente meno funzionale del
cosiddetto approccio a due vie consentito da altri programmi, tra cui
Trados, in cui è possibile ottenere un file di testo pretradotto in
maniera batch in cui sono affiancati sia il testo sorgente che la
traduzione corrispondente a meno un valore di verosimiglianza
indicato. L’approccio consentito da IBM TranslationManager inoltre
rende necessario disporre del programma stesso da parte del
traduttore.
Programmi in commercio 41
Analisi On-line
Figura 2.22 - Analisi batch in IBM TranslationManager
L'analisi on-line in questo caso avviene in un ambiente grafico che
non è il classico wordprocessor a cui il traduttore è abituato, bensì di
un ambiente a finestre in cui è possibile vedere: il testo nuovo da
tradurre, i segmenti trovati simili in memoria e i segmenti originali da
cui queste traduzioni sono scaturite.
Tale ambiente si occupa quindi delle eventuali conversioni da un
formato nativo (RTF, ANSI, altri) in questo documento di tipo
testuale, perdendo l'immediatezza d'uso. Per questo motivo il
traduttore dovrà quindi utilizzare una serie di comandi direttamente
dai menu a tendina o le combinazioni di tasti di questa particolare
interfaccia.
Il programma prevede la possibilità di nascondere eventuali tags al
fine di permettere una traduzione più agevole al traduttore che però
può in qualsiasi momento vedere (senza modificare) questi codici di
controllo. L'esempio riportato in figura essendo basato su file di testo
ANSI non presenta questi codici di controllo.
42 Programmi in commercio
Valutazione di un programma CAT 43
Capitolo 3 Valutazione di un programma CAT
In questo capitolo si intende fornire una panoramica degli approcci
possibili per la valutazione di un programma CAT.
3.1 Efficacia - Concetto di Precision e Recall
La determinazione di uno strumento di misura valido per la
determinazione dell’efficacia di un programma CAT deve ovviamente
rifarsi agli stessi strumenti forniti dalla letteratura sull’Information
Retrieval per la misurazione di una query SQL e dei risultati forniti.
Information Retrieval
La nascita del problema del recupero di informazioni da una raccolta
di testi è databile per lo meno al terzo secolo avanti Cristo, quando
iniziarono ad apparire biblioteche con centinaia di migliaia di
documenti; tuttavia è solo recentemente, con l’avvento degli strumenti
44 Valutazione di un programma CAT
informatici, che l’Information Retrieval ha subito una "spinta
evolutiva" ed ha assunto consistenza dal punto di vista teorico.
Per Information Retrieval si intende "classicamente" quell’insieme di
tecniche che consentono un accesso mirato ed efficiente a grandi
raccolte di oggetti contenenti principalmente testo (ad esempio, il
recupero, in una biblioteca, di tutti i libri inerenti l’argomento
"Information Retrieval"). Attualmente l’Information Retrieval
riguarda tecniche applicabili in modo algoritmico da "macchine"
(calcolatori) in grado di accedere agli oggetti di una raccolta. Ogni
oggetto è riassunto nei suoi attributi da "descrittori", che tipicamente
consistono in un testo. Queste descrizioni possono anche includere
descrittori assegnati dal creatore (autore) dell’oggetto o da un qualche
indicizzatore (un uomo o una "macchina") o utilizzati per descrivere
eventuali relazioni con altri oggetti nella raccolta.
Quello che rende un sistema del genere un Retrieval System è la
capacità di descrivere e tentare di soddisfare un fabbisogno informativo (f.i.), cioè un interesse specifico, dell’utente. Le
caratteristiche del f.i. sono descritte in query. Una query è espressa
tipicamente in linguaggio naturale, ma sono possibili anche altre
forme, come l’uso di espressioni booleane o di esempi di documenti.
Dando per scontato che l’utente sia in grado di formalizzare delle
query corrette e coerenti con il proprio f.i., egli dovrebbe essere in
grado di constatare, effettuata una ricerca, se gli oggetti recuperati
dalla "macchina" rientrano o meno nel suo interesse. Questa centralità
dell’utente nella valutazione del processo di retrieval è una
caratteristica importante dell’Information Retrieval tradizionale e
svincola in qualche modo il problema da quello attinente
l’interpretazione del testo.
Sintetizzando, il processo di retrieval può essere visto come una serie
di passi:
1. si genera una rappresentazione del significato o del
contenuto di ogni oggetto, basata sulla sua descrizione,
Valutazione di un programma CAT 45
2. si genera una rappresentazione del significato del
fabbisogno informativo,
3. si confrontano le due rappresentazioni e si scelgono quegli
oggetti che sembrano attenersi maggiormente al f.i.
Figura 3.1 – Processo di Retrieval
Risulta evidente allora come il problema sia quello di cercare delle
buone rappresentazioni del documento e del f.i., e di come poter
paragonare queste rappresentazioni.
Come valutare un meccanismo di ricerca
Compito dell’Information Retrieval (IR) è quello di memorizzare,
rappresentare ed estrarre da una raccolta di documenti la più grande
quantità di informazioni su un dato argomento e null’altro [5][18]. E’
necessario specificare che per documenti si intende ovviamente un
insieme omogeneo di dati che può quindi essere diversamente
costituito rispetto agli storici insiemi di testi quali si è solito fare
riferimento pensando a banche dati.
Se il reperimento di informazioni è l’aspetto su cui si incentra
maggiormente questa Tesi, allora l’aspetto da approfondire di un
Sistema IR è l’efficacia con cui esso è in grado reperire in una
collezione di documenti proprio i documenti ricercati, cioè la sua
capacità di fornire tutte le informazioni rilevanti presenti in una
collezione. La determinazione della rilevanza di un risultato fornito
dal Sistema IR è ovviamente soggettiva in quanto a medesimi risultati
Processo di Retrieval
46 Valutazione di un programma CAT
forniti da una stessa ricerca, utenti diversi potrebbero assegnare
giudizi diversi, cioè interpretare diversamente il risultato fornito. Tutto
dipende dalle conoscenze a priori che si hanno sull’argomento
ricercato. In particolare è necessario osservare come, in relazione ad
una data ricerca, vi sono dati restituiti rilevanti e dati restituiti non
rilevanti. I risultati ottenuti dalla ricerca potranno quindi essere
suddivisi nei seguenti quattro casi:
- rilevanti e reperiti, cioè corretti;
- rilevanti e non reperiti, cioè omessi;
- non rilevanti e reperiti, cioè inesatti;
- non rilevanti e non reperiti, cioè da omettere;
Rilevanti REL
Non rilevanti NREL
Documenti reperiti
RET
Corretti Inesatti
Documenti non reperiti NRET
Omessi Da omettere
Figura 3.2 – Possibili risultati di una ricerca in una collezione
Scopo di un Sistema IR è quello di massimizzare i documenti rilevanti
e reperiti (RET&REL) e minimizzare il “rumore” costituito dai
RET&REL
RET&NREL NRET&REL
NRET&NREL
reperiti non reperiti
rilevanti non rilevanti
Valutazione di un programma CAT 47
documenti reperiti e non rilevanti. I documenti rilevanti e non reperiti
(NRET&REL) sono invece i risultati omessi dal sistema e quindi sono
da minimizzare ugualmente.
I parametri adottati a livello internazionale per misurare l’efficacia di
un Sistema IR sono i fattori recall (richiamo, ricordo) e precision
(precisione).
Il fattore recall viene calcolato sui documenti rilevanti reperiti, e ne
misura la percentuale rispetto al totale contenuto nella collezione,
mentre il fattore precision invece riguarda i documenti reperiti dalla
ricerca e rappresenta la percentuale di documenti rilevanti.
recall = REL
RELRET & precision = RET
RELRET &
Ovviamente il fattore recall presuppone di conoscere quanti sono i
documenti rilevanti in tutta la collezione (deus ex-machina), mentre il
fattore precision è calcolabile a partire dal risultato ottenuto.
In genere aumentando il fattore recall, diminuisce il fattore precision e
viceversa.
Figura 3.3 – Curva precision e recall
Un buon modello di ricerca sarà allora quello in grado di
massimizzare i fattori di recall e precision, quindi di minimizzare
rispettivamente il silenzio cioè l’assenza di informazione
(informazione omessa) e il rumore cioè il deterioramento
dell’informazione (informazione inesatta).
precision
recall
1
0 1
48 Valutazione di un programma CAT
Esempio
Ad esempio se disponiamo di una raccolta di 10 documenti, di cui 4
hanno per argomento le torte di mele, mentre gli altri 6 contengono
ricette per cucinare il pesce. Effettuando una ricerca sulle torte, il
processo di retrieval restituisce 5 documenti, di cui 3 riguardano le
torte di mele mentre gli altri 2 la cottura della trota. Si avrà una
precision pari a 3/5 cioè 60%, mentre la recall sarà pari a 3/4 cioè
75%.
Figura 3.4 – Precision e recall - Esempio
3.2 I principali modelli di ricerca
Come si è visto, per attuare il processo di retrieval bisogna avere a
disposizione delle descrizioni di documenti da confrontare con la
descrizione del f.i. Quello che serve è allora un modello di retrieval
[1], che stabilisca i dettagli delle rappresentazioni usate e il criterio per
paragonare i due tipi di descrizioni.
Modello booleano
Nel modello booleano i documenti e le query sono rappresentati come
insiemi (set) di parole chiave; pertanto si dirà che il modello è di tipo
set theoretic [15]. Esso è il primo modello utilizzato storicamente e si
Il processo di retrieval ha ottenuto un recall pari al 75% e un precision del
60%
Valutazione di un programma CAT 49
contraddistingue in quanto i documenti sono rappresentati da insiemi
di termini chiave (keywords) estratti manualmente o automaticamente
dal testo e le ricerche sono condotte tramite parole chiave connesse da
operatori logici. La sua diffusione è dovuta prevalentemente alla sua
semplicità ed efficienza, ma a volte fornisce limitata efficacia.
In particolare quindi dato un insieme finito di feature R = {r1, r2…,
rk}, il documento è rappresentato come un assegnamento di qualche
feature. Tale assegnamento viene generalmente rappresentato da un
vettore a valori booleani V di lunghezza k: assegnare la feature ri ad
un documento significa impostare a true l’i-mo elemento di V; se una
data feature non è presente nel documento, il corrispondente elemento
nel vettore viene posto a false.
Ad esempio se l’insieme delle feature è:
R = {…, informatica, information retrieval, intelligenza artificiale, …}
il presente documento potrebbe essere rappresentato dal vettore:
[…, TRUE, TRUE, FALSE, …]
Un fabbisogno informativo è descritto da una espressione booleana, in
cui gli operandi rappresentano dei concetti, mentre vengono ritenuti
rilevanti tutti e solo quei documenti che soddisfano l’espressione
suddetta.
La valutazione della query partiziona allora l’insieme dei documenti
in due sottoinsiemi, quelli "rilevanti" e quelli "non rilevanti", ma non
fornisce alcuna informazione sulla relativa probabilità che documenti
ritenuti "rilevanti" soddisfino il f.i.
Il modello booleano è alla base della maggior parte dei servizi
commerciali di retrieval, ma generalmente è considerato difficile da
utilizzare. Inoltre, non classificando i documenti nella raccolta, ottiene
bassi risultati di recall e precision.
Modello dello spazio vettoriale
Nel modello vettoriale, i documenti e le query sono rappresentati
come vettori in uno spazio k-dimensionale; pertanto si definisce
questo modello come algebrico [15].
50 Valutazione di un programma CAT
Tale modello utilizza nuovamente il vettore di feature dove i
documenti VD e le query Q sono rappresentati da vettori di lunghezza
k, questa volta a valori reali, in cui ogni elemento costituisce un peso.
Possono essere utilizzate diverse tecniche per determinare i vari pesi,
ma comunemente ci si basa sulla frequenza di un termine in un
singolo documento e nell’intera raccolta. Il confronto fra documenti e
query avviene utilizzando una funzione di somiglianza: ad esempio il
coseno dell’angolo tra i vettori.
Questo modello è storicamente importante, avendo avviato un filone
di ricerca fin dagli anni ’60, ma viene criticato per il fatto di essere un
modello ad hoc, peraltro povero di giustificazioni teoriche.
Figura 3.5 – Modello booleano
Un’evoluzione di questo modello in grado di tenere conto della
somiglianza fra i documenti è quello basato sui cluster (grappoli). A
fondamento del modello è la Cluster Hypothesis, che afferma che
documenti simili sono conformi ad uno stesso f.i.
Invece che paragonare le rappresentazioni dei singoli documenti alla
rappresentazione del f.i., viene effettuata una prima catalogazione dei
documenti suddividendoli in cluster (in base ad una qualche misura di
somiglianza) e per ogni cluster si crea un documento "medio" che
rappresenta i documenti corrispondenti. Il processo di retrieval
restituisce tutti quei documenti appartenenti a cluster che soddisfano
la query.
Esempi di vettori rappresentativi di un documento e di un f.i. in due modelli di retrieval
Valutazione di un programma CAT 51
E’ da notare come questo modello non fornisca una definizione
standard della rilevanza, dipendendo quest’ultima dai cluster utilizzati
e dai criteri adottati per la riduzione di documenti simili ad uno stesso
cluster. Infine, esistono diversi criteri per identificare i cluster da
recuperare, specie se si ricorre a tecniche di strutturazione che
permettono la navigazione nella gerarchia dei cluster.
Figura 3.6 – Modello basato su cluster
Modello probabilistico
Un modello simile al vector-space model, ma con una più solida base
teorica, è il modello probabilistico. Il principio alla base del modello è
detto Probabilistic Ranking Principal e afferma che la miglior
efficacia di retrieval si raggiunge quando i documenti sono classificati
in ordine decrescente della probabilità di rilevanza.
Il documento di e il f.i. fj vengono rappresentati da un vettore
booleano a k dimensioni. Detto F l’insieme delle rappresentazioni per
i fabbisogni informativi e D l’insieme delle rappresentazioni dei
documenti, si definisce uno spazio degli eventi F x D. L’obiettivo è
quello di determinare le coppie (di, fj) rilevanti, cioè stimare la
probabilità P(R | di, fj).
Di fatto si fanno delle supposizioni sulla indipendenza della
distribuzione delle feature nei documenti e nelle query.
Modello basato sui cluster
52 Valutazione di un programma CAT
Successivamente si effettua una stima delle probabilità che le singole
feature siano assegnate a documenti "rilevanti" o "non rilevanti", e si
utilizza il teorema di Bayes per derivare una funzione di
classificazione che calcoli P(R | di, fj) in termini di queste probabilità.
Nella pratica, esistono differenti modelli probabilistici, ciascuno
caratterizzato da un particolare insieme di supposizioni di
indipendenza, e quindi da differenti funzioni di classificazione.
Si noti, infine, come i vari modelli probabilistici e quello dello spazio
vettoriale, possano essere considerati delle estensioni del modello
booleano, in quanto fanno ricorso al vettore di feature e consentono
ricerche in termini di corrispondenza parziale (partial matching) delle
feature tra query e documenti.
Prove sperimentali 53
Capitolo 4 Prove sperimentali
Scopo di questa sperimentazione è di individuare quale approccio i
programmi di traduzione assistita di tipo commerciale adottano per
individuare similitudini tra la frase sottoposta e quelle presenti in
memoria.
In particolare si adotta il seguente schema sperimentale: si realizza
inizialmente una memoria a partire da un testo precedentemente
tradotto realizzando così una Translation Memory; utilizzando questa
TM viene sottoposto un nuovo testo da tradurre tramite programma
CAT. I risultati ottenuti sono indicati tramite alcuni valori numerici di
"distanza" dal tesato presente in memoria. In generale infatti un
programma CAT indica che la traduzione suggerita è valida o meno
fornendo un valore numerico di somiglianza che va dal 50% al 100%
(approximate match o exact match).
Si è scelto di procedere utilizzando un testo descrittivo di un software
(DeLuxe Paint III) e crearne così una TM. Successivamente si è
54 Prove sperimentali
proceduto a effettuare alcune modifiche al testo al fine di valutare
quali siano le penalità applicate dai programmi CAT.
DELUXEPAINT III is a graphics tool that can help you create works
of art with an ease and precision that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
Figura 4.1 - Testo originale inserito in memoria
Prove sperimentali 55
4.1 Valutazione delle penalizzazioni
Per penalizzazione si intende il grado di distanza/somiglianza che il
programma assegna ad un segmento sottoposto a traduzione.
4.1.1 Trados
4.1.1.1 Eliminazione di una parola di 8 lettere
Nel brano sottoposto (originariamente composto da 109 parole per
605 caratteri - spazi compresi) si è proceduto ad eliminare una parola
di 8 lettere (108 parole-596 caratteri). DELUXEPAINT III is a graphics tool that can help you create works
of art with an ease and precision that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
Figura 4.2 - Eliminazione di una parola di 8 lettere
In Trados l'analisi di tipo batch (off-line) indica i seguenti valori: Start Analyse: Sat May 11 14:06:50 2002