Cómo editar, modificar, traducir o hacer el recuento de palabras en PDF

Mano con copie di documenti

Los archivos en formato PDF son difíciles de editar o traducir. Para poder editar o traducir un PDF es necesario convertirlo a un formato editable. Esta conversión, puede resultar más o menos difícil (y a veces hasta imposible) según el tipo de PDF que se trate.

Saber distinguir los distintos tipos de PDF a simple vista es esencial para aplicar el proceso de conversión correcto y utilizar la herramienta adecuada.

¿Qué es el formato PDF?

PDF es la abreviatura de Portable Document Format, un formato de archivo desarrollado por Adobe en 1993 que permite representar los documentos independientemente del hardware y el software utilizados para generarlos o visualizarlos.

En definitiva, un PDF se visualiza y se procesa del mismo modo, indistintamente del equipo que se utilice para ello. Esta característica ha hecho del formato PDF, uno de los métodos preferidos para compartir documentos. Para mucha gente, crear un PDF de un documento se ha convertido en el equivalente a «hacer una fotocopia digital» del mismo, con todas las ventajas que ello conlleva en términos de comodidad, pero sin contar con los inconvenientes que surgen cuando es necesario editar o traducir el propio PDF.

Un PDF suele contener elementos de distintos tipos. Algunos elementos no pertenecen al texto visible: son las llamadas «propiedades», a saber:

  • el nombre del autor,
  • el título,
  • la fecha de creación,
  • la herramienta con la que se creó, etc.

El resto de elementos, forman el documento y, en general, son:

  • texto,
  • imágenes de mapa de bits (fotografías),
  • gráficos vectoriales (líneas, algunos tipos de diagramas).

¿Qué tipos de PDF existen?

Cuando se recibe un archivo PDF, se recomienda comprobar la naturaleza del contenido, para entender si se trata de:

  1. un PDF «real», es decir, un documento creado digitalmente con un programa como Word o Excel, o con la función «Imprimir» (impresora virtual) de otros programas; este tipo de PDF puede contener texto, gráficos vectoriales, imágenes de mapa de bits;
  2. un PDF que contiene un escaneo de un documento en papel, creado simplemente fotografiando o digitalizando el documento original con un escáner; se trata de una imagen JPG o TIFF guardada en PDF, que hace de contenedor, y cuyo texto no puede ser seleccionado;
  3. un «híbrido» de los anteriores, es decir, un PDF que tiene una primera capa visible formada por la imagen escaneada o fotografiada, pero cuyo texto es seleccionable y consultable, ya que ha sido convertido por un sistema de reconocimiento óptico de caracteres. Algunos programas, además de copiar exactamente el documento en papel durante el escaneado, reconocen el texto y lo guardan en un nivel distinto.

¿Cómo se reconocen los diferentes tipos de PDF?

Si se quiere editar o traducir un PDF es importante comprobar si el texto del documento aparece como texto, es decir, si se puede seleccionar. Solo tienes que abrir el documento con Adobe Reader (o cualquier otro visor de PDF) y hacer clic en el icono de selección de texto de la barra de herramientas, o ampliar el documento.

Si en algún momento el texto aparece borroso o escalado significa que se trata de un escaneo. Por el contrario, si al aumentar el zoom el texto no pierde resolución, significa que el PDF ha sido generado por una aplicación.

Como se ha mencionado en el apartado anterior, también existe el caso «híbrido», en el que el documento es efectivamente un escaneo, pero existe asimismo una capa con texto seleccionable. En estos casos, lo único que hay que hacer para extraer el texto es seleccionarlo, pero es aconsejable comprobar cuidadosamente la ortografía y la exactitud del texto, porque el sistema de reconocimiento de caracteres que extrae el texto de una imagen (OCR) tiene un cierto margen de error.

Si hemos comprobado que el PDF es un PDF «real» generado por una aplicación, para saber qué aplicación lo ha generado basta con consultar las propiedades del documento (normalmente con 1«CTRL+D», o Archivo | Propiedades del documento) y leer lo que contiene la pestaña Descripción.

En «Aplicación» («Application» o similar), debería aparecer el nombre del programa utilizado para crear el PDF.

Llegados a este punto, lo ideal sería pedirle al cliente que nos enviara el archivo editable, especificando que estás seguro de su existencia (puesto que acabas de leerlo en las propiedades del propio documento). Tener el archivo que generó el PDF es la única manera en la que se puede trabajar de forma cómoda en el documento, con la certeza de generar otro PDF idéntico al original, una vez terminada tanto la traducción como la modificación.

Por lo general, para convencer al cliente o quien nos haya provisto del PDF, basta con decir que el no hacerlo le supondrá un gasto añadido para cubrir los costes del proceso de conversión. Evidentemente, este tipo de cuestiones depende de la relación que tenemos con él y, sobre todo de nuestra capacidad de negociar.

Para ser honestos, también sucede que, especialmente en el caso de las organizaciones multinacionales, aquellos que envían el archivo PDF no tienen a su disposición el archivo editable. A menudo los servicios de DTP (maquetación) se realizan en la sede central de la empresa y las sucursales solo reciben los PDF finales para imprimirlos in situ. La traducción puede, además, ser algo que se ha requerido en un segundo momento y entonces buscar la fuente original puede ser muy laborioso, pero no imposible.

Si, a pesar de estos esfuerzos, no está disponible el archivo original editable, hay varias opciones para exportar el texto de un PDF.

Nota: En este punto hay que subrayar que ninguna opción dará como resultado un archivo perfectamente idéntico al original, sobre todo si contiene imágenes (bitmap) y cierto grado de formato, o fuentes especiales.

El método elegido, y por tanto el grado de precisión, también depende del objetivo de la extracción del texto. Hay dos posibilidades:

  1. tener el texto a disposición con el fin de realizar un recuento, análisis o bien, para copiar y pegar el texto;
  2. crear un archivo editable lo más similar posible al original, para traducir o modificar según el caso.

Cómo contar palabras de un PDF

Si solamente deseamos hacer un análisis del texto de un PDF, por ejemplo, para poder estimar el costo de una traducción, no es necesario recurrir a su extracción. Si el texto del PDF está codificado como texto (tal como veíamos antes), se pueden utilizar las siguientes herramientas:

Si no puedes o no quieres utilizar el software que acabamos de mencionar y tienes Adobe Acrobat (no Adobe Reader), puedes extraer el texto de la siguiente manera:

  • abre el archivo PDF con Adobe Acrobat,
  • desde el menú Archivo guarda el documento como RTF o DOC.

Dependiendo del tipo de documento, puede ser necesario aplicar una o más macros para fijar el formato. Por ejemplo, esta macro de Word restaura las nuevas líneas correctas (el enlace es a una copia archivada del sitio en www.archive.org, porque www.terminologymatters.com ya no está online). Otra macro muy eficaz, en este caso para OpenOffice y LibreOffice, es PerfectEpub, una versión mejorada de MyTXTcleaner.

Si no se dispone de Adobe Acrobat, debemos:

  • abrir el archivo con Adobe Reader,
  • elegir la herramienta de selección de texto,
  • seleccionar todo el texto (CTRL+A),
  • copiar (CTRL+C),
  • abrir Word o cualquier otro procesador de textos,
  • pegar el texto (CTRL+V).

Evidentemente, esta opción también se puede emplear en el primer caso cuando el texto para traducir o analizar solo forma una parte de todo el documento.

La extracción del texto de un PDF también es útil en los casos en los que es necesaria una traducción rápida del texto y no se puede o no se quiere recurrir a los servicios de un traductor humano. El texto extraído con los métodos descriptos en este artículo pueden ser pegados en una herramienta de traducción automática. Evidentemente, si se desea una traducción de alta calidad, nuestro consejo es que recurra a traductores profesionales y especializados.

Cómo editar un PDF manteniendo el formato

Para conservar el formato de un PDF que queremos modificar o traducir, existen dos opciones:

  • utilizar uno de los muchos programas que convierten PDF a Word
  • utilizar directamente un programa de reconocimiento óptico de caracteres, un OCR como FineReader, OmniPage, ReadIris, etc.

No recomendamos utilizar programas que garanticen la conversión directa sin la necesidad de que el usuario intervenga. Estos programas suelen crear documentos de Word que mantienen visualmente el aspecto del PDF original, pero alcanzan este resultado a través de un formateo complicadísimo, repleto de cuadros de texto, intervalos de sección, columnas, estilos, interlineados, etc.

En cuanto nos pongamos a trabajar con el documento, por ejemplo, ya sea al eliminar una frase o al abrirlo con una herramienta TAO (Traducción Asistida por Ordenador), el formato se descompondrá y complicará el trabajo con creces.

Como consecuente, aconsejamos a tal fin, utilizar un programa OCR. El que mejor resultado nos ha dado es Abbyy FineReader. La mejor estrategia es modificar manualmente la configuración por defecto o, en su defecto, indicar al programa la distribución de los diversos elementos de la página.

Si el cliente no solo necesita conservar el formato, sino también reconstruir el archivo completamente (siempre hablando del caso de no disponer del archivo a partir del cual se ha creado el PDF), tenemos dos posibilidades:

  1. o trabajar en un programa DTP (InDesign, Scribus, Inkscape, QuarkXPress, etc.) utilizando el PDF original como plantilla, o
  2. utilizar Infix PDF Editor, un editor de PDF distribuido por Iceni.

Iceni PDF Editor (disponible por suscripción o como compra única) contiene una útil función (TransPDF) que exporta el texto de un PDF en formato XLIFF, uno de los estándares de la industria de la traducción. Este tipo de archivo XLIFF puede ser traducido con cualquier herramienta TAO. El archivo traducido deberá ser re-importado en el PDF original, siempre utilizando Infix. En la web de Infix hay un vídeo explicativo muy ilustrativo del proceso completo.

Si tienes que trabajar en un programa de maquetación, utiliza el PDF original como plantilla de fondo. Es recomendable la lectura del siguiente artículo en inglés para ampliar información: «Translation and DTP of a PDF file».

Si no quieres invertir en un programa de OCR porque solo lo utilizarás ocasionalmente, puedes utilizar uno de los muchos conversores online, como Zamzar.com, pero los resultados pueden presentar las mismas deficiencias que los conversores de escritorio.

Si el PDF ya fue generado con Microsoft Word, otra opción que da buenos resultados es convertir el PDF a Microsoft Word mismo. De alguna manera, Word «reconoce» que el PDF fue generado con el mismo programa y lo convierte con suma precisión.

Otro programa con potentes funciones de edición de PDF es Inkscape, el editor de gráficos vectoriales gratuito y de código abierto (una alternativa a Adobe Illustrator). Inkscape abre el PDF y permite su manipulación. Sin embargo, se requiere familiaridad con el programa, cuya riqueza de opciones y configuraciones puede resultar difícil de manejar.

¿Cómo convierto un PDF escaneado?

Lo anterior se aplica, repetimos, a un PDF generado por las aplicaciones. En el caso de que el texto contenido en el archivo PDF se componga de imágenes (caso típico de un fax que se haya digitalizado con un escáner), la única forma de exportarlo a un formato editable es utilizar un programa de OCR.

¿Cómo puedo convertir un PDF protegido por contraseña?

Puede suceder que los PDF tengan ciertos niveles de seguridad, eso complica un poco las cosas. En un archivo PDF se pueden establecer dos niveles de seguridad mediante una «contraseña de usuario» y una «contraseña de propietario». La primera impide la apertura del documento, mientras que la segunda restringe una o varias operaciones, como imprimir, copiar o editar el texto; añadir notas; etc.

Por lo tanto, si el autor del PDF ha optado por establecer una contraseña, será imposible realizar cualquier acción sobre el documento. En ese caso, es necesario ponerse en contacto con quien nos proveyó el PDF y solicitar la contraseña. Si esto es imposible, es bueno saber que hay muchas herramientas que pueden descifrar rápidamente las «contraseñas del propietario». Sólo tienes que buscar en Google «PDF crack» (incluso puedes encontrar herramientas online, como Unlock-PDF). La cuestión es mucho más complicada en el caso de las «contraseñas de usuario» que impiden abrir el PDF, en este caso, los programas recurren a métodos de «fuerza bruta» que pueden tardar horas, si no días, en descifrar la clave.

AVISO: Queremos indicar que el uso de estos instrumentos puede infringir los derechos de propiedad del documento y Qabiria no alienta su uso en ningún caso.

Un recordatorio en forma de diagrama

Para aclarar aún más los pasos lógicos necesarios para convertir un PDF con fines de traducción o edición, hemos preparado un diagrama de flujo como guía práctica, el cual puedes descargar gratuitamente sin necesidad de registro.

code2flow Me4QFr

Descargar el diagrama «Cómo traducir PDF»

Si conoces otros métodos para traducir o modificar un PDF o quieres contribuir al debate con tu experiencia, no dudes y comenta aquí abajo.

¿Necesitas traducir un PDF y no sabes cómo hacerlo? Contacta con nosotros sin compromiso

NOTA: artículo escrito originalmente el 25/10/2008 y actualizado el 19/01/2022. Algunos comentarios pueden referirse a partes revisadas o corregidas.

Traductor técnico, project manager, emprendedor. Está licenciado en Lenguas y cuenta con un máster en Diseño y Producción Multimedia. Fundó Qabiria en 2008

Leer también

Habla con nosotros

Cuéntanos qué necesitas enviándonos un correo electrónico a hola@qabiria.com o mediante el formulario de contacto. Tendrás una respuesta garantizada en 24 horas, pero habitualmente mucho antes.

Contacta con nosotros