Vai al contenuto

Traduzione automatica

Da Wikipedia, l'enciclopedia libera.

La traduzione automatica (in inglese machine translation, abbreviato in MT) è un'area della linguistica computazionale e della scienza della traduzione che studia la traduzione di testi da una lingua naturale a un'altra mediante programmi informatici.

Testi incomprensibili prodotti dalla traduzione automatizzata.

I primi esperimenti di traduzione automatica vennero effettuati negli anni trenta del secolo scorso dal franco-armeno Georges Artsrouni e dal russo Pёtr Smirnov-Trojanskij. Il cervello meccanico ideato da Artsouni era in realtà un dispositivo per il trattamento generale (archiviazione, ricerca, consultazione) dell'informazione su nastro, che poteva essere usato come dizionario bilingue grazie a un meccanismo di sostituzione parola per parola. Il modello progettato da Smirnov-Trojanskij usava invece un dizionario bilingue e un metodo per mettere in correlazione i ruoli grammaticali esistenti in lingue diverse. Il processo di traduzione veniva suddiviso in tre fasi: trasformazione del testo originale in una forma logica modellata sulla base della lingua di partenza; trasformazione di questa forma logica in una seconda forma logica modellata sulla base della lingua d'arrivo; trasformazione di questa seconda forma logica in un testo nella lingua d'arrivo.

La vera e propria storia della TA comincia nel 1949 con l'ingegnere Warren Weaver, che per primo propose di creare un programma informatico in grado di tradurre un testo da una lingua all'altra senza alcun intervento da parte dell'uomo. Nel documento intitolato Translation, scritto per la Rockfeller Foundation’s Natural Science Division, l'ingegnere e matematico americano formulava alcune ipotesi sulle potenzialità e sui metodi della TA: sosteneva la validità del metodo della sostituzione parola per parola, e proponeva di integrarlo con tecniche di statistica applicata per rilevare la frequenza di parole e caratteri in testi paralleli. L'idea di Weaver riuscì a catturare in ben poco tempo l'attenzione di diverse aziende, che decisero di finanziare il progetto.

Negli anni cinquanta cominciarono a emergere i primi limiti della traduzione automatica. Durante una conferenza tenutasi nel 1952 Yehoshua Bar-Hillel, supervisore di nuovi progetti presso il MIT (Massachusetts Institute of Technology), riconobbe per la prima volta che una traduzione completamente automatizzata poteva essere ottenuta solo al prezzo di un certo grado di trascuratezza, e che la FAHQT (Fully Automatic High Quality Translation) era un obiettivo irraggiungibile. Bar-Hillel era convinto che l'ambiguità semantica e la complessità sintattica fossero gli ostacoli maggiori per i sistemi di traduzione automatica, pertanto elaborò un prototipo di traduttore automatico che usava forme di inglese semplificate come il Basic English, creato dal linguista e scrittore Charles Ogden intorno agli anni trenta.

Nel 1952 si tenne la prima conferenza sulla TA che fu determinante per la realizzazione del primo grande software di traduzione automatica per opera di IBM. Nel 1954 a New York, presso la sede di IBM, ebbe luogo la prima dimostrazione pubblica del funzionamento di un sistema di traduzione automatica in collaborazione con l'università di Georgetown. Durante l'esperimento vennero tradotte 49 frasi dal russo all'inglese con un calcolatore che disponeva di 250 parole di vocabolario e di sei regole grammaticali. All'epoca la dimostrazione ebbe un notevole impatto perché convinse l'opinione pubblica che l'avvento della traduzione automatica era imminente, stimolando il finanziamento della ricerca soprattutto negli Stati Uniti.

Nel 1966 tuttavia l'ALPAC (Automatic Language Processing Advisory Committee) pubblicò un rapporto che raffreddò notevolmente l'entusiasmo, e con esso gli studi nel campo della traduzione automatica, poiché sottolineava la mancanza di progressi compiuti e concludeva che la traduzione automatica era più costosa e meno accurata della traduzione umana. Da quel momento i finanziamenti statali vennero destinati solo ai progetti di TA più meritevoli e l'interesse dei ricercatori si rivolse alle applicazioni di traduzione assistita. Nel 1983 uscì TSS (Translation Support System), il primo programma di traduzione automatica operante su PC prodotto da ALPS, un'azienda americana produttrice di software per applicazioni linguistiche. TSS venne subito adottato da molte grandi società, tra le quali IBM, per la propria attività di traduzione interna.

Esistono tre importanti tipologie di traduzione automatica: basata su regole linguistiche, basata su corpus testuali e basata sul contesto.

Traduzione basata su regole

[modifica | modifica wikitesto]

La traduzione automatica basata su regole, che comprende la traduzione basata sul principio del trasferimento (transfer) e quella basata sull'uso di una interlingua (o "lingua pivot"), è al giorno d'oggi il paradigma prevalente per la traduzione automatica. Le parole vengono tradotte secondo un punto di vista prettamente linguistico scegliendo gli equivalenti linguistici più appropriati. La traduzione automatica basata su regole utilizza in genere un processo traduttivo suddiviso in tre fasi. Nella prima fase, nota come fase di analisi, il sistema esegue il parsing delle frasi del testo di partenza e le trasforma in diagrammi ad albero (morfologici, sintattici e/o semantici). Nella seconda fase, detta fase di trasferimento, gli alberi sintattici creati per il testo di partenza vengono trasformati in altrettanti alberi con la struttura sintattica della lingua d'arrivo. Nella terza fase, chiamata fase di generazione o sintesi, le parole della lingua di partenza vengono tradotte nella lingua d'arrivo e inserite nell'albero d'arrivo seguendo le regole sintattiche proprie della lingua medesima al fine di creare frasi di senso compiuto.

Una tecnica particolare della traduzione automatica basata su regole è quella che parte da un linguaggio intermedio ("interlingua"). Rispetto al sistema di traduzione diretta, parola per parola, in questo caso La lingua d'origine del testo da tradurre viene trasferita a una lingua intermedia, la cui struttura è indipendente da quella della lingua originale e da quella della lingua finale. Il testo nella lingua di destinazione viene ottenuto a partire dalla rappresentazione del testo nella lingua intermedia.

I più famosi sistemi di traduzione automatica sono tutti basati su regole. Fra questi i più conosciuti sono sicuramente Babel Fish (usato da AltaVista e poi da Yahoo!, e infine dismesso), Microsoft Translator e Google Traduttore.

I principali punti deboli di questa tecnologia sono sostanzialmente due. In primo luogo, la quantità di regole su cui si basa qualsiasi sistema è ovviamente limitata. Per ottenere risultati migliori, gli autori del testo da tradurre dovrebbero adeguare il loro stile di scrittura, la qual cosa è, per ovvi motivi, assolutamente improponibile. In secondo luogo, nonostante sul mercato siano reperibili pacchetti commerciali di traduzione automatica basata su regole con decine di combinazioni linguistiche, molte lingue ancora non sono state attivate.

Traduzione tramite corpus

[modifica | modifica wikitesto]

La tipologia di traduzione automatica che utilizza corpus linguistici paralleli, si basa sull'analisi di campioni reali e delle loro traduzioni corrispondenti. Fra questi sistemi, quello principale è la traduzione automatica statistica, abbreviata in SMT (statistical machine translation). L'obiettivo di questa tecnologia è generare traduzioni a partire da metodi statistici basati su corpus di testi bilingui e monolingui. Affinché la SMT funzioni correttamente è necessario mettere a disposizione del sistema due banche dati piuttosto corpose: una di testi nella lingua di partenza con le relative traduzioni nella lingua d'arrivo e un'altra di testi solo nella lingua d'arrivo. Di fronte a un nuovo testo da tradurre, il sistema genera possibili traduzioni delle sequenze di parole che trova nel testo stesso sulla base delle corrispondenze che riscontra nella prima banca dati. Tra le varie proposte di traduzione seleziona poi la migliore sulla base della seconda banca dati, quella relativa alla sola lingua d'arrivo. Il vantaggio della traduzione automatica statistica è che, una volta impostato il sistema secondo le specifiche richieste dal cliente, questi ha a disposizione uno strumento in grado di fornire una discreta qualità traduttiva di testi simili tra loro. Il lato negativo è che, affinché il sistema fornisca risultati di un certo livello, occorre mettere a sua disposizione un corpus molto sostanzioso di traduzioni esistenti e approvate.

Come si può facilmente immaginare, con questa tecnologia la qualità della traduzione aumenta all'aumentare della dimensione dei corpus linguistici nelle banche dati. Con un insieme sterminato di traduzioni esistenti e di testi nella lingua d'arrivo, si potrebbero ottenere risultati eccellenti con testi di argomento similare.

Il primo programma di traduzione automatica statistica fu Candide, sviluppato da IBM.

Language Weaver, il principale fornitore di sistemi di traduzione automatica statistica a livello mondiale, per ogni combinazione linguistica consiglia un corpus bilingue minimo di due milioni di parole, ma si tratta di un valore molto inferiore rispetto a quello necessario per ottenere traduzioni accettabili. Per questo motivo e anche per il costo tendenzialmente superiore rispetto ad alcuni sistemi basati su regole, i sistemi di traduzione automatica statistica vengono usati quasi unicamente da agenzie governative e da multinazionali. Dal 2017 sono stati lanciati i servizi web di DeepL Translator (ex Linguee) e di Ludwig.guru.

Traduzione basata sul contesto

[modifica | modifica wikitesto]

La traduzione automatica basata sul contesto si basa sulla ricerca della migliore traduzione di una parola prendendo in considerazione il resto delle parole che la circondano.

Il sistema suddivide un testo in unità di quattro/otto parole e propone traduzioni di ogni sequenza nella lingua di destinazione eliminando le traduzioni che contengono frasi senza senso. Tale filtraggio utilizza un corpus nella lingua di destinazione, nel quale viene conteggiato il numero di volte in cui compare la frase cercata. In seguito la sequenza creata viene spostata di una posizione (una parola), ritraducendo la maggior parte dei vocaboli e filtrando nuovamente il testo in modo da lasciare solo le frasi coerenti. Tale procedimento viene ripetuto per tutto il testo. Nella fase finale vengono concatenati i risultati di ciascuna sequenza in modo da ottenere un'unica traduzione del testo.

La traduzione automatica basata sul contesto presenta un grande vantaggio rispetto alle altre tecnologie di traduzione automatica basate su corpus linguistici: aggiungere nuove lingue è molto facile. Per inserire una nuova lingua, infatti, non è necessario tradurre milioni di parole come nei metodi statistici: sono sufficienti due corpus linguistici di dimensioni ridotte: un buon dizionario elettronico, contenente regole che permettano al sistema di coniugare correttamente i verbi e di accordare aggettivi e sostantivi in base al genere e al numero, e un corpus nella lingua di destinazione, che può essere facilmente reperito su Internet.

Oggi i software più sofisticati offrono la possibilità di fissare parametri specifici a seconda del settore in cui si esegue la traduzione per ottenere risultati più accurati. Ad esempio si può limitare la quantità di sostituzioni permesse oppure selezionare i nomi propri e aiutare il software a riconoscere la terminologia e la fraseologia più ricorrenti. Queste tecniche sono particolarmente utili in campi dove si impiega un linguaggio formale basato su moduli, come gli annunci nelle stazioni dei treni e negli aeroporti, i documenti legali e amministrativi o le previsioni del tempo.

I traduttori automatici non possono soppiantare i traduttori umani, ma possono contribuire a gestire in maniera organizzata una mole di lavoro maggiore e sono comunque utili per cogliere il senso generale di un testo e per verificare se il contenuto è di proprio interesse.

Traduzione automatica mediante lingua intermedia

[modifica | modifica wikitesto]

La traduzione automatica mediante lingua intermedia è una delle strategie classiche di traduzione automatica. L'idea fondamentale di questo metodo indiretto di traduzione è di tradurre il testo iniziale in una lingua intermedia, indipendente dalle altre due (iniziale e finale), per tradurre successivamente nel linguaggio di destinazione.

Figura 1. Schema delle lingue che intervengono nel processo di traduzione tramite lingua ponte

Le prime idee di traduzione automatica tramite lingua intermedia apparvero già nel XVII secolo, con Cartesio e Leibniz. Ambedue formularono teorie per elaborare dizionari fondati su codici numerici universali. Cave Beck, Athanasius Kircher e Johann Joachim Becher, da canto loro, lavorarono per sviluppare un linguaggio universale, senza ambiguità, basato su principi, logiche e simboli iconici. Nel 1668, John Wilkins elaborò una interlingua in Essay towards a Real Character and a Philosophical Language.

  • (EN) W. John Hutchins, Harold L. Somers, An Introduction to Machine Translation, London, Academic Press, 1992. URL consultato il 23 gennaio 2009 (archiviato dall'url originale il 22 aprile 2009).
  • Aleksandăr Lûdskanov, Un approccio semiotico alla traduzione. Dalla prospettiva informatica alla scienza traduttiva, a cura di Bruno Osimo, Milano, Hoepli, 2008 [1967], pp. 76+XIX, ISBN 978-88-203-4084-1.
  • Claude Piron, Le défi des langues - Du gâchis au bon sens, Paris, L'Harmattan, 1994.
  • Hellmut Riediger, Tradurre col computer, Laboratorio Weaver, 2018 [1]
  • Isabella Chiari, Introduzione alla linguistica computazionale, Bari, Laterza, 2007, ISBN 978-88-420-8209-5.
  • Johanna Monti, Dalla Zairja alla traduzione automatica. Riflessioni sulla traduzione nell'era digitale, Napoli, Loffredo, 2019, ISBN 978-88-321-9317-6.

Voci correlate

[modifica | modifica wikitesto]

Altri progetti

[modifica | modifica wikitesto]

Collegamenti esterni

[modifica | modifica wikitesto]
Controllo di autoritàThesaurus BNCF 9915 · LCCN (ENsh00006582 · GND (DE4003966-3 · BNF (FRcb11947452q (data) · J9U (ENHE987007292868605171 · NDL (ENJA00565743