OCR al servizio della traduzione

OCR al servizio della traduzione

Traduzione e adattamento di un articolo di Kevin Lossner, pubblicato su ProZ.com

La tecnologia OCR viene spesso indicata come soluzione ideale per la traduzione dei documenti in formato PDF, ma può anche essere utile a livello più ampio nel nostro settore.

In questo articolo si discutono gli aspetti “tradizionali” dell’uso della tecnologia OCR ma anche il modo in cui servirsene per realizzare un guadagno extra e ridurre i rischi quando si risponde alle offerte di lavoro. Esistono vari programmi adatti allo scopo, a seconda della combinazione di lingue e di altri fattori. Ormai da anni in Qabiria usiamo Abbyy FineReader per gli ottimi risultati che offre con le lingue europee, l’ottimo rapporto qualità/prezzo e la sua facilità d’uso.

La maggior parte delle conversioni di documenti TIFF e PDF che riceviamo solitamente dalle agenzie sono difficili da usare per la traduzione e richiedono modifiche significative. A volte tali conversioni sono addirittura inutilizzabili. In particolare possono insorgere dei problemi nei casi in cui si usano strumenti CAT o la lunghezza della lingua di destinazione è molto diversa da quella originale (soprattutto se più lunga). Il metodo migliore per evitare tutto questo è:

  • non utilizzare le impostazioni automatiche per le conversioni OCR, ma definire manualmente le aree di riconoscimento;
  • nella maggior parte dei casi non salvare il testo convertito mantenendone completamente il formato;
  • utilizzare un flusso di lavoro post-OCR appropriato per ripulire il documento convertito riunendo le frasi interrotte, eliminando i caratteri superflui e risolvendo gli errori di conversione, ecc.

Se l’idea di differenziare le aree di riconoscimento per ogni pagina in un documento di 100 pagine può essere scoraggiante, non bisogna perdersi d’animo. In molti casi i programmi come Abbyy FineReader permettono di definire modelli di OCR, rendendo il lavoro molto più rapido. Più di un traduttore che conosciamo è diventato così abile nell’uso di questi modelli OCR che le agenzie gli chiedono di realizzare per loro lavori di OCR di alta qualità.

Questo ci ha portato a pensare all’OCR come attività remunerativa per le agenzie e i traduttori. Di solito le copie cartacee, i documenti scannerizzati, i fax e i PDF richiedono uno sforzo aggiuntivo per i traduttori rispetto ai documenti elettronici modificabili e richiedono anche misure per il controllo qualità diverse e talvolta più fallibili rispetto a un flusso di lavoro all’interno di un sistema di traduzione assistita con documenti elettronici originali. Senza conversione qualsiasi ricerca terminologica o di concordanza è più laboriosa. È anche più facile che gli occhi saltino dei brani. Pure con la conversione, il testo della conversione dev’essere confrontato attentamente con il documento originale per rilevare e correggere qualsiasi errore (e ce ne saranno sempre, anche con il miglior software OCR). Quindi non è per niente irragionevole applicare una tariffa più alta per lavorare su copie cartacee, documenti scannerizzati, fax e file PDF.

Ci sono vari modi per incorporare questo sovrapprezzo nel proprio tariffario. I due modi più ovvi sono applicare una tariffa premium a parola/linea/cartella o una tariffa oraria. Normalmente li proponiamo entrambi ai nostri clienti, con la tariffa a parola/linea/cartella che rappresenta la tariffa “fissa”, mentre la tariffa oraria rappresenta la tariffa “flessibile”, per la quale eseguiamo una stima non impegnativa, e il cliente pagherà di più o di meno a seconda dello sforzo effettivo impiegato. Per semplici conversioni OCR senza traduzione, applichiamo almeno la tariffa di revisione, perché controlliamo il formato e l’ortografia di tutto il documento.

Spesso ci si sente rispondere dai clienti che non vogliono pagare di più. D’accordo. In tal caso è il cliente stesso che deve incaricarsi del lavoro. È comunque importante riconoscere che ogni sforzo extra dev’essere ricompensato. Ma di solito c’è un modo per addolcire la pillola, ed è qui che entra in gioco l’abilità di ognuno. Le argomentazioni “win-win” che si possono presentare possono essere:

  • la disponibilità di una versione modificabile del documento può essere utile al cliente per future versioni;
  • la possibilità di utilizzare una memoria di traduzione sul testo convertito con OCR (che può far risparmiare tempo e denaro in un secondo momento);
  • un migliore controllo di qualità, specialmente con termini di consegna molto stretti.

Consegnare insieme alla traduzione il documento originale convertito con OCR e ben formattato è una forma di pubblicità eccellente. I clienti finali lo apprezzeranno e le agenzie possono riconoscere la vostra abilità nel creare documenti che non si scompaginano quando vengono modificati, offrendovi magari altri incarichi. Se la vostra combinazione di lingue non è molto richiesta o c’è molta concorrenza, questo può essere un vantaggio e fare la differenza.

Anche senza specializzarsi in conversioni OCR di alta qualità, questa tecnologia è utilissima per un’altra area importante del nostro settore: nei preventivi e nella limitazione dei rischi. Ci sono molti strumenti sul mercato per il conteggio di un testo, che è una parte cruciale del nostro lavoro. Alcuni lo fanno ancora a mano, che, anche se laborioso, non è sbagliato per verificare un conteggio elettronico. Stime troppo basse possono derivare da vari fattori, come oggetti o grafica che contengono testo, e mentre possono sfuggire ai programmi per il conteggio delle parole, non sfuggono alla conversione mediante OCR. Allora consigliamo di stampare il documento come PDF e di convertirlo mediante OCR. Se il conteggio delle parole della conversione è molto diverso dal conteggio realizzato con un altro metodo, è segno che dovete controllare più a fondo il documento originale prima di mandare un preventivo.

L’OCR oggigiorno è uno dei più importanti software per un traduttore, anche più di un programma CAT. Non è soltanto uno strumento per recuperare documenti elettronici “perduti”, o per rendere le copie cartacee più accessibili per la traduzione, ma anche un modo per differenziarsi e per ridurre i rischi nel caso di progetti molto lunghi e complessi. Una caratteristica essenziale del programma che si sceglie dovrebbe essere la possibilità di scegliere le aree di testo da convertire e l’ordine nel quale vengono convertite, oltre alle varie opzioni per il salvataggio del testo (mantenendo il formato completamente, parzialmente o senza alcuna formattazione). Ma la cosa più importante di tutte è di applicare una procedura appropriata di controllo di qualità per evitare inconvenienti durante la traduzione e consegnare un lavoro con un aspetto professionale.

Il software OCR è dunque un ottimo strumento per aumentare la propria visibilità nei confronti delle agenzie e dei clienti finali e per semplificare i propri procedimenti in un’epoca in cui molti sistemi di archiviazione ed ERP tendono a preferire i documenti PDF o TIFF. I vari produttori di questi software spesso offrono delle versioni demo gratuite, e dopo averne provata una, fate la vostra scelta: non ve ne pentirete.

Qabiria white logo

Crediamo nell’aumento della produttività attraverso l’uso creativo della tecnologia.

il traduttore insostituibile

Ultime notizie

Contatti

Qabiria Studio SLNE
Carrer Lleida, 3 1-2
08912 Badalona
(Barcelona)
SPAGNA

+34 675 800 826

qabiria

Inviaci un messaggio

Ricevi la newsletter

Vuoi leggere gli articoli e le novità di Qabiria direttamente nella posta?