Come conteggiare e tradurre file PDF

(2 voti)
Come conteggiare e tradurre file PDF

I file in formato pdf sono fra i nemici più temuti dai professionisti della traduzione. Per poter analizzare o tradurre con un sistema di traduzione assistita un PDF è necessario convertirlo in un formato editabile. Questa conversione può risultare più o meno difficile (o addirittura impossibile) a seconda del tipo di PDF ricevuto. Saper distinguere a prima vista i vari tipi di PDF è essenziale per applicare il corretto procedimento di conversione e usare il giusto strumento, minimizzando il tempo che intercorre fra la ricezione del file e l’effettivo inizio della traduzione.

PDF è l’abbreviatura di Portable Document Format, un formato di file sviluppato da Adobe nel 1993 che consente di rappresentare documenti in modo indipendente dall’hardware e dal software utilizzati per generarli o per visualizzarli. In definitiva un PDF viene visualizzato e renderizzato allo stesso modo indipendentemente dal computer utilizzato. Tale caratteristica ha reso questo formato uno dei metodi preferiti di condivisione di documenti. Per molte persone creare un PDF di un documento è diventato l’equivalente di «fare una fotocopia virtuale» dello stesso, con tutti i vantaggi che ciò comporta in termini di praticità, ma senza contare gli svantaggi che si manifestano quando è necessario modificare o tradurre il PDF stesso.

Quando si riceve un file pdf bisogna innanzi tutto verificare la natura del suo contenuto. Un PDF può contenere elementi di vario tipo. Alcuni elementi non appartengono al testo visibile: sono le cosiddette «proprietà», ovvero il nome dell’autore, il titolo, etc. Gli altri invece costituiscono il documento vero e proprio e generalmente sono: testo, immagini bitmap (fotografie), grafici vettoriali (linee, alcuni tipi di diagrammi). Ai nostri fini è importante verificare se il testo del documento appare come tale, ovvero se può essere selezionato. Per saperlo basta aprire il documento con Adobe Reader (o con qualunque altro visualizzatore di PDF) e fare clic sull’apposita icona di selezione testo nella barra strumenti, oppure aumentare lo zoom del documento. Se a un certo punto il testo appare sfocato e scalettato significa che ci troviamo di fronte a una scansione. Al contrario, se è possibile selezionare il testo o se aumentando lo zoom esso non perde risoluzione, significa che il PDF è stato generato da un’applicazione. Alcuni programmi di scansione abbinati agli scanner sono in grado di produrre documenti PDF che preservano l’aspetto della pagina digitalizzata, ma che riconoscono allo stesso tempo il testo. In questi casi, il testo è selezionabile, benché la pagina appaia come una copia esatta del documento cartaceo da cui deriva. In questi casi è consigliabile controllare l’ortografia e l’esattezza del testo, perché l’OCR ha un certo margine di errore.

Per conoscere quale applicazione ha generato il PDF bisogna premere CTRL+D (oppure File | Document Properties) e leggere quanto contenuto nella scheda Description. Alla voce Application dovrebbe comparire il nome del programma usato per creare il PDF. A questo punto l’ideale sarebbe chiedere al cliente di spedire il file editabile, specificando che si è certi della sua esistenza (avendolo appena letto nelle proprietà del documento stesso). Di solito un modo per convincere il cliente è affermare che gli si farà pagare una maggiorazione per coprire i costi del processo di conversione. Evidentemente questo tipo di trattativa dipende dal rapporto instaurato con il cliente e dal potere di negoziazione in ogni specifico caso. In tutta onestà, può anche darsi, soprattutto nel caso di organizzazioni multinazionali, che il file editabile non sia effettivamente a disposizione di chi invia il PDF. Spesso i servizi di DTP vengono realizzati presso la sede centrale e le filiali ricevono soltanto i PDF finali da stampare in loco. La traduzione può essere una necessità sorta successivamente e dunque risalire alla fonte originale può risultare alquanto laborioso.

Se, nonostante gli sforzi, non si ha a disposizione il file originale, esistono varie opzioni per esportare il testo. È bene sottolineare fin d’ora che nessuna darà come risultato un file perfettamente identico all’originale, soprattutto se esso contiene immagini bitmap e un certo grado di formattazione, senza contare il tipo di carattere utilizzato per il testo. Il metodo scelto, e quindi il grado di precisione, dipende anche dalla finalità dell’estrazione del testo. I casi sono due:

  1. avere a disposizione il testo soltanto per poter eseguire un conteggio o un’analisi;
  2. creare un file editabile il più simile possibile all’originale.

Nel primo caso non è neppure necessario ricorrere all’estrazione. Se il testo del PDF è codificato come testo (come abbiamo visto in precedenza), si può usare uno dei seguenti strumenti:

Se il file da conteggiare non pesa più di 1 MB non c’è neppure bisogno di installare un programma. Esiste almeno uno strumento online gratuito che permette di contare il numero di parole contenute nel PDF:

Se non si può o non si vuole utilizzare il software citato e si possiede Adobe Acrobat (non Adobe Reader), è possibile estrarre il testo in questo modo:

  • aprire il file PDF con Adobe Acrobat
  • dal menu File salvare il documento come RTF o DOC

A seconda del tipo di documento potrà essere necessario applicare una o più macro per sistemare il formato. Ad esempio questa macro di Word ripristina i ritorni a capo corretti (il collegamento è a una copia del sito archiviata su www.archive.org, perché www.terminologymatters.com attualmente risulta offline). Un’altra macro molto efficace, in questo caso per OpenOffice, è MyTXTcleaner.

Se non si possiede Adobe Acrobat:

  • aprire il file con Adobe Reader
  • scegliere lo strumento seleziona testo
  • selezionare tutto il testo (CTRL+A)
  • copiare (CTRL+C)
  • aprire Word o qualunque altro editore di testi
  • incollare il testo (CTRL+V)

Evidentemente questa opzione si può scegliere anche nel caso in cui il testo da analizzare o tradurre sia soltanto una parte dell’intero documento.

Se si desidera mantenere il formato ci sono due opzioni: o usare uno dei numerosissimi programmi che convertono PDF in Word o usare direttamente un programma di OCR (FineReader, OmniPage, ReadIris, ecc.) In linea di massima ci permettiamo di sconsigliare i programmi che garantiscono una conversione diretta senza intervento dell’utente. Questi programmi di solito creano documenti Word che mantengono visivamente l’apparenza dei PDF originali, ma raggiungono questo risultato mediante una formattazione complicatissima piena di cornici di testo, intervalli di sezione, colonne, stili, interlinea. Appena si interviene sul documento, per esempio cancellando una frase o aprendolo con un programma di traduzione assistita, il formato si scompone e il più delle volte è umanamente impossibile lavorarci. Perciò consigliamo di eseguire la conversione con un programma di OCR (quello che ci ha dato i migliori risultati è Abbyy FineReader), modificando manualmente le impostazioni predefinite, ovvero indicando al programma la distribuzione dei vari elementi sulla pagina. Per ulteriori informazioni su come ottimizzare il funzionamento di FineReader vi rimandiamo all’articolo «Riconoscimento ottico dei caratteri con Abbyy FineReader».

Se il formato non soltanto va mantenuto, ma il cliente ha la necessità di ricostruire completamente il file, (sempre nel caso in cui non esiste più il file che ha originato il PDF), ci sono due possibilità:

  1. o si lavora in un programma di DTP (QuarkXPress, InDesign, ecc.) usando il PDF originale come modello sullo sfondo, oppure
  2. si può utilizzare Infix, un editor di PDF distribuito da Iceni.

La versione “Professional” di Infix (che costa circa 150 dollari) contiene infatti un’utile funzione per esportare il testo di un PDF in formato XML. Questo file XML può essere tradotto con un CAT tool (ad esempio OmegaT, che dalla versione 2.3.0 dispone di un filtro per tradurre direttamente questo tipo di file, vedi tutorial dettagliato sul sito di OmegaT). Il file tradotto dev’essere successivamente re-importato nel PDF originale, sempre mediante Infix Professional. Sul sito di Infix è presente un chiaro video esplicativo del procedimento completo.

Se si deve invece lavorare in un programma di DTP (Quark, InDesign, etc.) va usato il PDF originale come modello sullo sfondo. Raccomandiamo la lettura del seguente articolo per ulteriori dettagli: http://www.proz.com/translation-articles/articles/560/1/Translation-and-DTP-of-a-PDF-File

Chi non desidera investire nell’acquisto di un OCR perché ne farebbe soltanto un uso saltuario, può ricorrere a uno dei vari convertitori online, come Zamzar (http://www.zamzar.com).

Quanto esposto finora si applica, lo ripetiamo, a PDF generati da applicazioni. Nel caso in cui il testo contenuto nel PDF sia costituito da immagini (tipico caso di un fax ricevuto e poi digitalizzato con uno scanner) l’unico modo di esportarlo a un formato editabile è usando un programma di OCR.

Una complicazione aggiuntiva è rappresentata dagli eventuali livelli di sicurezza posseduti dal PDF da manipolare. È infatti possibile impostare due livelli di sicurezza mediante una «user password» e mediante una «owner password». La prima impedisce l’apertura del documento stesso, mentre la seconda restringe una o varie operazioni, come la stampa, la copia del testo, eventuali modifiche, l’aggiunta di note, ecc. Dunque, se l’autore del PDF ha scelto di restringere le operazioni mediante password, sarà impossibile usare i vari metodi descritti in precedenza. È necessario contattare il cliente e sollecitare l’invio della password. Nel caso ciò sia impossibile, è bene sapere che esistono numerosi strumenti in grado di decifrare rapidamente le «owner password». Basta cercare su Google «PDF crack» (addirittura si trovano strumenti online, come http://www.ensode.net/pdf-crack.jsf ). Il discorso è molto più complicato nel caso di «user password» che impediscono l’apertura del PDF; in questo caso i programmi ricorrono a metodi «basati sulla forza bruta» che possono impiegare ore, se non giorni, a decifrare la chiave. Si noti che il ricorso a questi strumenti può contravvenire i diritti di proprietà e in nessun caso Qabiria ne incoraggia l’utilizzo.

Qabiria white logo

Crediamo nell’aumento della produttività attraverso l’uso creativo della tecnologia.

Ultime notizie

Contatti

Qabiria Studio SLNE
Carrer Lleida, 3 1-2
08912 Badalona
(Barcelona)
SPAGNA

+34 675 800 826

qabiria

Inviaci un messaggio

Ricevi la newsletter

Vuoi leggere gli articoli e le novità di Qabiria direttamente nella posta?