Come conteggiare, modificare e tradurre file PDF

Di: Marco Cevoli - Tempo di lettura: 11 minuti

Indice

Che cos’è il formato PDF
Quali tipi di PDF esistono?
Come si riconoscono i vari tipi di PDF?
Come conteggiare le parole di un PDF
Come modificare un PDF mantenendone il formato
Come si converte un PDF derivante da una scansione?
Come si converte un PDF protetto da password?
Un promemoria sotto forma di diagramma

I file in formato PDF sono ostici da modificare o tradurre. Per poter modificare o tradurre un PDF è necessario convertirlo in un formato editabile. Questa conversione può risultare più o meno difficile (o addirittura impossibile) a seconda del tipo di PDF.

Saper distinguere a prima vista i vari tipi di PDF è essenziale per applicare il corretto procedimento di conversione e usare il giusto strumento.

Che cos’è il formato PDF

PDF è l’abbreviatura di Portable Document Format, un formato di file sviluppato da Adobe nel 1993 che consente di rappresentare documenti in modo indipendente dall’hardware e dal software utilizzati per generarli o per visualizzarli.

In definitiva un PDF viene visualizzato allo stesso modo indipendentemente dal computer o dispositivo utilizzato. Tale caratteristica ha reso questo formato uno dei metodi preferiti di condivisione di documenti. Per molte persone creare un PDF di un documento è diventato l’equivalente di “fare una fotocopia digitale” dello stesso, con tutti i vantaggi che ciò comporta in termini di praticità, ma senza contare gli svantaggi che si manifestano quando è necessario modificare o tradurre il PDF stesso.

Un PDF può contenere elementi di vario tipo. Alcuni elementi non appartengono al testo visibile: sono le cosiddette “proprietà”, ovvero:

il nome dell’autore;
il titolo;
la data di creazione;
lo strumento con cui è stato creato, ecc.

Gli altri elementi invece costituiscono il documento vero e proprio e generalmente sono:

testo;
immagini bitmap (fotografie);
grafici vettoriali (linee, alcuni tipi di diagrammi).

Quali tipi di PDF esistono?

Quando si riceve un file PDF bisogna innanzi tutto verificare la natura del suo contenuto, per capire se si tratta di:

un “vero” PDF, cioè un documento creato digitalmente con un programma come Word o Excel, oppure con la funzione “Stampa” (stampante virtuale) da altri programmi; questo tipo di PDF può contenere testo, immagini vettoriali e immagini bitmap;
un PDF contenente una scansione di un documento cartaceo, creato semplicemente fotografando o digitalizzando con uno scanner il documento originale; si tratta di un’immagine JPG o TIFF salvata nel PDF, che funge da contenitore, il cui testo non è selezionabile;
un “ibrido” dei precedenti, ovvero un PDF che ha un primo livello visibile costituito dall’immagine scansionata o fotografata, ma il cui testo è selezionabile e ricercabile, poiché è stato convertito da un sistema di riconoscimento ottico dei caratteri. Alcuni programmi, come quelli abbinati agli scanner, oltre a copiare esattamente il documento cartaceo, durante la scansione riconoscono il testo e lo salvano in un livello sottostante l’immagine.

Come si riconoscono i vari tipi di PDF?

Se si desidera modificare o tradurre un PDF è importante verificare se il testo del documento appare come testo, ovvero se può essere selezionato. Basta aprire il documento con Adobe Reader (o con qualunque altro visualizzatore di PDF) e cliccare sull’icona di selezione testo nella barra strumenti, oppure aumentare lo zoom del documento.

Se a un certo punto il testo appare sfocato o scalettato significa che ci troviamo di fronte a una scansione. Al contrario, se aumentando lo zoom il testo non perde risoluzione, significa che il PDF è stato generato da un’applicazione.

Come si diceva nella sezione precedente, esiste anche il caso “ibrido”, in cui il documento è sì una scansione, ma esiste un livello con il testo selezionabile. In questi casi, per estrarre il testo basta selezionarlo, ma è consigliabile controllare attentamente l’ortografia e l’esattezza del testo, perché il sistema di riconoscimento dei caratteri che estrae il testo da un’immagine (OCR) ha un certo margine di errore.

Se abbiamo appurato che il PDF è un “vero” PDF generato da un’applicazione, per conoscere quale applicazione lo ha generato basta premere consultare le proprietà del documento (di solito con CTRL+D, oppure File | Document Properties) e leggere quanto contenuto nella scheda Descrizione (Description).

Alla voce Applicazione (Application o simile) dovrebbe comparire il nome del programma usato per creare il PDF.

A questo punto l’ideale sarebbe chiedere al cliente di spedirci il file editabile, specificando che si è certi della sua esistenza (avendolo appena letto nelle proprietà del documento stesso). Avere il file sorgente che ha generato il PDF è l’unico modo in cui si può lavorare comodamente sul documento, con la certezza di poter generare un altro PDF identico all’originale una volta terminata la traduzione o la modifica.

Di solito un modo per convincere il committente o chi ci ha fornito il PDF è chiedere una maggiorazione per coprire i costi del processo di conversione. Evidentemente questo tipo di trattativa dipende dal rapporto instaurato con il committente e dal nostro potere di negoziazione.

In verità capita anche, soprattutto nel caso di organizzazioni multinazionali, che il file editabile/sorgente non sia proprio a disposizione di chi invia il PDF. Spesso i servizi di DTP (impaginazione) vengono realizzati presso la sede centrale e le filiali ricevono soltanto i PDF finali da stampare in loco. Qualsiasi necessità di manipolare o tradurre il PDF può essere sorta successivamente e dunque risalire alla fonte originale del documento può risultare alquanto laborioso, se non impossibile.

Se, nonostante gli sforzi, non si ha a disposizione il file originale, esistono varie opzioni per esportare il testo di un PDF.

NOTA BENE: È bene sottolineare fin d’ora che nessuna opzione darà come risultato un file perfettamente identico all’originale, soprattutto se esso contiene immagini (bitmap) e un certo grado di formattazione, o tipi di carattere speciali.

Il metodo scelto, e quindi il grado di precisione, dipende anche dalla finalità dell’estrazione del testo. I casi più comuni sono due:

avere a disposizione il testo soltanto per poter eseguire un conteggio delle parole o per copiare (e poi incollare) il testo;
creare un file editabile il più simile possibile all’originale, da tradurre o modificare successivamente.

Come conteggiare le parole di un PDF

Se serve soltanto conteggiare il testo di un PDF, per esempio per poter stimare il costo di una traduzione, non è neppure necessario ricorrere all’estrazione. Se il testo del PDF è codificato come testo (come abbiamo visto in precedenza), si può usare uno dei seguenti strumenti:

($) AnyCount (https://www.anycount.com/)
($) Wordy (https://www.wordy.com/word-count-tool Se il file da conteggiare non pesa più di 1 MB non c’è neppure bisogno di installare un programma. Vari strumenti online consentono di contare il numero di parole contenute in un PDF. Ne citiamo uno, gratuito:
Textomate (https://textomate.com/).

Se non si può o non si vuole utilizzare il software citato qui sopra e si possiede Adobe Acrobat (non Adobe Reader), è possibile estrarre il testo in questo modo:

aprire il file PDF con Adobe Acrobat;
dal menu File salvare il documento come RTF o DOC.

In questo caso, a seconda del tipo di documento originale potrà essere necessario applicare una o più macro per sistemare il formato. Ad esempio questa macro di Word ripristina i ritorni a capo corretti (il collegamento è a una copia del sito archiviata su www.archive.org, perché www.terminologymatters.com non è più online). Un’altra macro molto efficace, in questo caso per OpenOffice e LibreOffice, è PerfectEpub, versione migliorata di MyTXTcleaner.

Se non si possiede Adobe Acrobat:

aprire il file con Adobe Reader;
scegliere lo strumento seleziona testo;
selezionare tutto il testo (CTRL+A);
copiare (CTRL+C);
aprire Word o qualunque altro elaboratore di testi;
incollare il testo (CTRL+V).

Evidentemente questa opzione si può scegliere anche nel caso in cui il testo da analizzare o tradurre sia soltanto una parte dell’intero documento.

L’estrazione del testo di un PDF è utile anche in quei casi in cui sia necessaria una traduzione rapida del testo e non si possa o non si voglia ricorrere ai servizi di un traduttore umano. Il testo estratto con i metodi descritti in questo articolo può essere incollato in un traduttore automatico. Naturalmente, se si desidera una traduzione di alta qualità, il nostro consiglio è quello di affidarsi sempre a traduttori professionisti specializzati.

Come modificare un PDF mantenendone il formato

Per mantenere il formato di un PDF da modificare o tradurre abbiamo due opzioni:

usare uno dei numerosissimi programmi che convertono PDF in Word
usare direttamente un programma di riconoscimento ottico dei caratteri, un OCR come FineReader, OmniPage, ReadIris, ecc.

Ci sentiamo di sconsigliare i programmi che garantiscono una conversione diretta senza intervento dell’utente. Questi programmi di solito creano documenti Word che mantengono il formato dei PDF originali solo all’apparenza, ma raggiungono questo risultato mediante una formattazione complicatissima piena di cornici di testo, intervalli di sezione, colonne, stili, interlinea.

Appena s’interviene sul documento, per esempio cancellando una frase o aprendolo con un CAT tool (un programma di traduzione assistita), il formato si scompone e il più delle volte è umanamente impossibile lavorarci.

Perciò consigliamo di eseguire la conversione con un programma di OCR. Quello che ci ha dato i migliori risultati è Abbyy FineReader. La strategia migliore è quella di modificare manualmente le impostazioni predefinite, ovvero indicare al programma la distribuzione dei vari elementi sulla pagina.

Se il formato non soltanto va mantenuto, ma si ha la necessità di ricostruire completamente il file, (sempre nel caso in cui non esista più il file che ha originato il PDF), ci sono due possibilità:

o si lavora in un programma di DTP (InDesign, Scribus, Inkscape, QuarkXPress, ecc.) usando il PDF originale come modello, oppure
si può utilizzare Infix PDF Editor, un editor di PDF distribuito da Iceni.

Iceni PDF Editor (disponibile in abbonamento o come acquisto singolo) contiene un’utile funzione (TransPDF) che esporta il testo di un PDF in formato XLIFF, uno degli standard del settore della traduzione. Questo file XLIFF può essere tradotto con un qualsiasi CAT tool. Il file tradotto dev’essere successivamente re-importato nel PDF originale, sempre mediante Infix. Sul sito di Infix è presente un chiaro video esplicativo del procedimento completo.

Se si deve invece lavorare in un programma di impaginazione va usato il PDF originale come modello sullo sfondo. Raccomandiamo la lettura del seguente articolo per ulteriori dettagli: “Translation and DTP of a PDF file”.

Chi non desidera investire nell’acquisto di un programma di riconoscimento dei caratteri (OCR), perché ne farebbe soltanto un uso saltuario, può ricorrere a uno dei numerosi convertitori online, come Zamzar.com, i cui risultati tuttavia potrebbero soffrire degli stessi difetti di cui soffrono i convertitori desktop.

Se il PDF è stato generato con Microsoft Word, un’altra opzione che solitamente dà ottimi risultati è quello di far convertire il PDF a Microsoft Word stesso. In qualche modo Word “riconosce” che il PDF è stato generato con lo stesso programma e lo converte con estrema accuratezza.

Un altro programma che ha potenti funzioni di editing di PDF è Inkscape, l’editor per grafici vettoriali gratuito e open source (un’alternativa a Adobe Illustrator). Inkscape apre i PDF e ne consente la manipolazione. Tuttavia, è richiesta una certa dimestichezza con il programma, la cui ricchezza di opzioni e configurazioni può risultare difficile soverchiante.

Come si converte un PDF derivante da una scansione?

Quanto esposto finora si applica a PDF generati da applicazioni. Nel caso in cui il testo contenuto nel PDF sia costituito da immagini (tipico caso di un fax ricevuto e poi digitalizzato con uno scanner) l’unico modo di esportarlo a un formato editabile è usando un programma di OCR.

Come si converte un PDF protetto da password?

Una complicazione aggiuntiva è rappresentata dagli eventuali livelli di sicurezza posseduti dal PDF da manipolare. In un PDF si possono infatti impostare 2 livelli di sicurezza mediante una “user password” e mediante una “owner password”. La prima impedisce l’apertura del documento stesso, mentre la seconda restringe una o varie operazioni, come la stampa, la copia del testo, eventuali modifiche, l’aggiunta di note, ecc.

Dunque, se l’autore del PDF ha scelto di restringere le operazioni mediante password, sarà impossibile usare i vari metodi descritti in precedenza. È necessario contattare chi ci ha fornito il PDF e sollecitare l’invio della password. Nel caso ciò sia impossibile, è bene sapere che esistono numerosi strumenti in grado di decifrare rapidamente le “owner password”. Basta cercare su Google "PDF crack" (addirittura si trovano strumenti online, come Unlock-PDF). Il discorso è molto più complicato nel caso di “user password” che impediscono l’apertura del PDF; in questo caso i programmi ricorrono a metodi “basati sulla forza bruta” che possono impiegare ore, se non giorni, a decifrare la chiave.

ATTENZIONE: il ricorso a questi strumenti può contravvenire i diritti d’autore o di proprietà e in nessun caso Qabiria ne incoraggia l’utilizzo.

Un promemoria sotto forma di diagramma

Per rendere più chiari i passaggi logici necessari per convertire un PDF a scopo di traduzione o modifica, abbiamo approntato un diagramma di flusso come guida pratica, che si può scaricare gratuitamente senza registrazione.

code2flow Me4QFr

Scarica il diagramma “Come tradurre PDF”

Se sei a conoscenza di altri metodi per tradurre o modificare PDF o vuoi contribuire alla discussione con la tua esperienza, non esitare e aggiungi un commento qui sotto.

Devi tradurre un PDF e non sai come fare? Contattaci senza impegno

NOTA: articolo scritto originariamente il 25/10/2008 e aggiornato il 19/01/2022. Alcuni commenti potrebbero riferirsi a parti rivedute o corrette.

Marco Cevoli

69 articoli pubblicati

Traduttore tecnico, project manager, imprenditore. Laureato in Lingue e Master in Design e produzione multimedia. Ha fondato Qabiria nel 2008.

Come conteggiare, modificare e tradurre file PDF

Indice

Che cos’è il formato PDF

Quali tipi di PDF esistono?

Come si riconoscono i vari tipi di PDF?

Come conteggiare le parole di un PDF

Come modificare un PDF mantenendone il formato

Come si converte un PDF derivante da una scansione?

Come si converte un PDF protetto da password?

Un promemoria sotto forma di diagramma

Marco Cevoli

Leggi anche:

Condividi questo articolo

Cerca

Ultimi articoli

Come automatizzare i processi aziendali senza impazzire

Che cos’è l’email marketing

È ora di automatizzare i tuoi processi di vendita

Read the Docs vs Docusaurus

Argomenti

Parla con uno di noi