Cómo analizar, modificar y traducir PDF sin morir en el intento

Cómo analizar, modificar y traducir PDF sin morir en el intento

El formato PDF es uno de los enemigos más temidos por los traductores. Para poder modificar o traducir un archivo PDF, es necesario convertirlo a un formato editable. Esta conversión, puede resultar más o menos difícil (y a veces hasta imposible) según el tipo de PDF que se trate. Distinguir de entrada los diferentes tipos de archivos PDF es esencial a la hora de saber cuál es el proceso de conversión más conveniente, así como la herramienta adecuada: así se consigue reducir al mínimo el tiempo que transcurre entre la recepción del archivo y el inicio real de la traducción.

Qué es el formato PDF

PDF es la sigla de Portable Document Format , un formato de archivo desarrollado por Adobe en el año 1993, para representar documentos independientemente del hardware y el software utilizado para generarlos y visualizarlos.

En definitiva, un PDF se visualiza y se procesa del mismo modo, indistintamente del equipo que se utilice para ello. Esta característica ha hecho del formato PDF, uno de los métodos preferidos para compartir documentos. Para muchas personas, crear un PDF de un documento se ha convertido en el equivalente de "hacer una fotocopia digital" del mismo, con todas las ventajas que ello supone en términos de practicidad, pero sin tener en cuenta los inconvenientes que se presentan a la hora de editar o traducir el documento PDF en sí.

Un PDF suele contener elementos de distintos tipos. Algunos elementos no pertenecen al texto visible: Son las denominadas "propiedades", es decir:

  • nombre del autor;
  • título;
  • fecha de creación;
  • instrumento con el que fue creado, etc.

El resto de elementos, forman el documento y, en general, son:

  • texto;
  • imágenes de mapa de bits (fotografías);
  • gráficos vectoriales (líneas, algunos tipos de diagramas).

¿Qué tipos de PDF existen?

Cuando se recibe un archivo PDF, se recomienda comprobar la naturaleza del contenido, para entender si se trata de:

  1. un "verdadero" PDF, es decir, un documento creado de manera digital con un programa como Word o Excel, o incluso con la función "Imprimir" (impresión virtual) de otros programas; este tipo de PDF puede contener texto, gráficos vectoriales, imágenes de mapa de bits;
  2. un PDF que resulta de escanear un documento en papel, creado a partir de una foto o del escaneo del documento original; se trata de una imagen JPG o TIFF guardada en PDF, que hace de contenedor, y cuyo texto no puede ser seleccionado;
  3. un híbrido de los anteriores, es decir, un PDF que tiene un primer nivel visible constituido por la imagen escaneada o fotografiada, pero en el cual el texto es seleccionable, ya que ha sido convertido por un sistema de reconocimiento óptico de caracteres. Algunos programas, además de copiar exactamente el documento en papel durante el escaneado, reconocen el texto y lo guardan en un nivel distinto.

¿Cómo reconocer los distintos tipos de PDF?

Si se desea manipular (modificar o traducir) un PDF, es de suma importancia comprobar que el texto del documento aparezca como tal o que pueda seleccionarse. Para saberlo, basta con abrir el documento utilizando Adobe Reader (o cualquier otro lector de PDF) y hacer clic en el icono de selección de texto situado en la barra de herramientas o aumentar el zoom documento.

Si en algún momento el texto se vuelve borroso y pixelado, significa que estamos frente a un documento escaneado. Si, por el contrario, se puede seleccionar texto o hacer zoom sin que el texto pierda resolución, significa que el PDF se ha generado con una aplicación.

Como dijimos en la sección anterior, existe también un caso "híbrido" en el cual, aunque el documento provenga de un escaneado, su texto puede ser seleccionado. En estas ocasiones, para extraer el texto, basta con seleccionarlo. Sin embargo, es recomendable comprobar la ortografía y la exactitud del texto, ya que el OCR (el sistema de reconocimiento óptico de caracteres, que extrae el texto de la imagen) tiene cierto margen de error.

Si estamos seguros de que el PDF es un "verdadero" PDF, pero queremos saber con cuál aplicación fue creado, basta con pulsar CTRL+D (o Archivo | Propiedades del documento) y leer la información contenida en la ficha Descripción.

En el apartado "Aplicación de" aparece el nombre del programa utilizado para crear el documento PDF.

Cuando esto sucede, lo ideal es pedirle al cliente que nos envíe el archivo editable, indicando que se está seguro de su existencia (se puede leer en las propiedades del mismo documento). Tener el archivo que generó el PDF es la única manera en la que se puede trabajar de forma cómoda en el documento, con la certeza de generar otro PDF idéntico al original, una vez terminada tanto la traducción como la modificación.

Por lo general, para convencer al cliente o quien nos haya provisto del PDF, basta con decir que el no hacerlo le supondrá un gasto añadido para cubrir los costes del proceso de conversión. Evidentemente, este tipo de cuestiones depende de la relación que tenemos con él y, sobre todo de nuestra capacidad de negociar.

Para ser honestos, también sucede que, especialmente en el caso de las organizaciones multinacionales, aquellos que envían el archivo PDF no tienen a su disposición el archivo editable. A menudo, los servicios de DTP se realizan en la oficina central y las sucursales sólo reciben el PDF final para imprimir a nivel local. La traducción puede, además, ser algo que se ha requerido en un segundo momento y entonces buscar la fuente original puede ser muy laborioso, pero no imposible.

Si, a pesar de estos esfuerzos, no está disponible el archivo original editable, hay varias opciones para exportar el texto de un PDF.

Nota: Resulta interesante señalar que ninguna de las opciones dará como resultado un archivo completamente idéntico al original, sobre todo si contiene mapas de bits y cierto grado de formato, sin entrar en la fuente utilizada en el texto (caracteres especiales).

El método elegido y, por tanto, el grado de precisión, dependen también de la finalidad de la extracción del texto. Hay dos posibilidades:

  1. tener el texto a disposición con el fin de realizar un recuento, análisis o bien, para copiar y pegar el texto;
  2. crear un archivo editable lo más similar posible al original, para traducir o modificar según el caso.

Cómo hacer el recuento de las palabras en un PDF

Si solamente deseamos hacer un análisis del texto de un PDF, por ejemplo, para poder estimar el costo de una traducción, no es necesario recurrir a su extracción. Si el texto del PDF está codificado como texto (tal como veíamos antes), se pueden utilizar las siguientes herramientas:

Si el archivo en cuestión no ocupa más de 1 MB, no resulta necesario instalar ningún programa, ya que existen herramientas gratuitas en línea que permiten contar el número de palabras que contiene un PDF sin necesidad de copiar y pegar el texto. Por ejemplo este, que es gratuito:

Si, por el contrario, no se desea utilizar el software mencionado y se dispone de Adobe Acrobat (no Adobe Reader), se puede extraer el texto de la siguiente manera:

  • abrir el archivo PDF con Adobe Acrobat
  • en el menú Archivo, guardar el documento como RTF o DOC.

Dependiendo del tipo de documento, puede ser necesario aplicar una o más macros para fijar el formato. Por ejemplo, esta macro de Word restaura los archivos (el enlace es a una copia del sitio archivado en www.archive.org porque www.terminologymatters.com no se encuentra más disponible). Otra macro muy eficaz, en este caso para OpenOffice y LibreOffice es PerfectEpub, una versión mejorada de MyTXTcleaner.

Si no se dispone de Adobe Acrobat:

  • abrir el archivo con Adobe Reader;
  • elegir la herramienta selecciona texto;
  • seleccionar todo el texto (CTRL+A);
  • copiar (CTRL+C);
  • abrir Word o cualquier editor de texto;
  • pegar el texto (CTRL+V).

Evidentemente, esta opción también se puede emplear en el primer caso cuando el texto para traducir o analizar solo forma una parte de todo el documento.

La extracción del texto de un PDF también es útil en los casos en los que es necesaria una traducción rápida del texto y no se puede o no se quiere recurrir a los servicios de un traductor humano. El texto extraído con los métodos descriptos en este artículo pueden ser pegados en una herramienta de traducción automática. Evidentemente, si se desea una traducción de alta calidad, nuestro consejo es que recurra a traductores profesionales y especializados.

Cómo modificar un PDF conservando su formato

Para conservar el formato de un PDF que queremos modificar o traducir, existen dos opciones:

  • utilizar alguno de los varios programas que convierten PDF en Word
  • utilizar directamente un programa de reconocimiento óptico de caracteres, un OCR como FineReader, OmniPage, ReadIris, etc.

No recomendamos utilizar programas que garanticen la conversión directa sin la necesidad de que el usuario intervenga. Estos programas suelen crear documentos de Word que mantienen visualmente el aspecto del PDF original, pero alcanzan este resultado a través de un formateo complicadísimo, repleto de cuadros de texto, intervalos de sección, columnas, estilos, interlineados, etc.

En cuanto nos pongamos a trabajar con el documento, por ejemplo, ya sea al eliminar una frase o al abrirlo con una herramienta TAO ( herramienta de traducción asistida), el formato se descompondrá y complicará el trabajo con creces.

Como consecuente, aconsejamos a tal fin, utilizar un programa OCR. El que mejores resultados nos ha dado es Abbyy FineReader. La mejor estrategia es modificar manualmente la configuración por defecto o, en su defecto, indicar al programa la distribución de los diversos elementos de la página. Para más informaciones acerca del manejo de FineReader consultar el artículo «Riconoscimento ottico dei caratteri con Abbyy FineReader». (de momento solo en italiano).

Si el cliente no solo necesita conservar el formato, sino también reconstruir el archivo completamente (siempre hablando del caso de no disponer del archivo a partir del cual se ha creado el PDF), tenemos dos posibilidades:

  1. trabajar con un programa de publicación de escritorio (DTP) como InDesign, Scribus, Inkscape, QuarkXPress, etc., utilizando el PDF original como un modelo para el fondo, o
  2. utilizar Infix PDF Editor, un editor de PDF distribuido por Iceni.

Iceni PDF Editor (software de pago) contiene una función muy útil (TransPDF) que exporta el texto de un PDF en formato XLIFF, uno de los standard en el sector de la traducción. Este tipo de archivo XLIFF puede ser traducido con cualquier herramienta TAO. El archivo traducido deberá ser re-importado en el PDF original, siempre utilizando Infix. En el sitio de Infix se puede disfrutar de un vídeo explicativo claro del proceso completo.

Si en lugar de trabajar con un programa de DTP, tenemos que utilizar el PDF original como un modelo del fondo. Es recomendable la lectura del siguiente artículo en inglés para ampliar información: «Translation and DTP of a PDF file».

Quien no desee invertir en un programa de reconocimiento óptico de caracteres (OCR) porque considera que lo utilizará muy de tanto en tanto, puede usar uno de los distintos convertidores en línea, como Zamzar.com, cuyos resultados puede llegar a tener los mismos defectos que tiene los conversores offline.

Si el PDF ya fue generado con Microsoft Word, otra opción que da buenos resultados es convertir el PDF a Microsoft Word mismo. De cualquier manera, Word "reconoce" que el PDF fue generado por el mismo programa y lo convierte con óptima precisión.

Otro programa que tiene amplias funciones de edición de PDF es Inkscape, el editor para gráficos vectoriales gratuitos y de código abierto (una alternativa a Adobe Illustrator). Inkscape abre el PDF y permite su manipulación. Sin embargo, se requiere familiaridad con el programa, cuya riqueza de opciones y configuraciones puede resultar difícil de manejar.

¿Cómo convertir un PDF proveniente de un escaneo?

Lo anterior se aplica, repetimos, a un PDF generado por las aplicaciones. En el caso de que el texto contenido en el archivo PDF se componga de imágenes (caso típico de un fax que se haya digitalizado con un escáner), la única forma de exportarlo a un formato editable es utilizar un programa de OCR.

¿Cómo convertir un PDF protegido por contraseña?

Puede suceder que los PDF tengan ciertos niveles de seguridad, eso complica un poco las cosas. En un PDF se pueden agregar niveles de seguridad mediante una contraseña de usuario y mediante una contraseña de permisos o maestra. La primera impide la apertura del documento, mientras que la segunda restringe una o varias operaciones, como imprimir, copiar o editar el texto; añadir notas; etc.

Por lo tanto, si el autor del PDF ha optado por establecer una contraseña, será imposible realizar cualquier acción sobre el documento. En ese caso, es necesario ponerse en contacto con quien nos proveyó el PDF y solicitar la contraseña. Sin embargo, de no ser lo anterior posible, es bueno saber que hay muchas herramientas que pueden descifrar o eliminar rápidamente la contraseña de permisos. Solo hay que buscar en Google «desbloquear PDF» y aparecen infinidad de herramientas en línea, como Unlock-PDF.

Los PDF protegidos con contraseña de usuario que impide la apertura del mismo, son más complicados de desbloquear. En este caso, si la contraseña es segura, los programas recurren a métodos de «fuerza bruta» que pueden tardar horas o incluso días en descifrar la clave.

Nota: Queremos indicar que el uso de estos instrumentos puede infringir los derechos de propiedad del documento y Qabiria no alienta su uso en ningún caso.

Un recordatorio en forma de diagrama

Para ser mas claros en cuanto a los pasos lógicos para convertir un PDF a los fines de una traducción o una modificación, diseñamos un diagrama de flujo que hará fácilmente de guía práctica Además de la imagen de abajo, el diagrama también puede ser descargado como PDF.

proceso traducir pdf

Si conoces otros métodos para traducir o modificar un PDF o quieres contribuir al debate con tu experiencia, no dudes y comenta aquí abajo.

¿Tienes que traducir un PDF y no sabes cómo hacer? ¡Contáctanos sin compromiso! 

Nota: Este artículo fue originalmente escrito el 25/10/2008 y actualizado el 27/11/2019. Algunos comentarios pueden referirse a apartados que han sido corregidos.

Qabiria white logo

Creemos en el incremento de la productividad mediante el uso creativo de la tecnología.

Somos socios de:

logo de PIMEC

Últimas noticias

Contacto

Qabiria Studio SLNE
Carrer Lleida, 3 1-2
08912 Badalona
(Barcelona)
ESPAÑA

+34 675 800 826

qabiria

Envíanos un mensaje

Recibe nuestro boletín

¿Quieres leer los artículos y novedades de Qabiria directamente en tu bandeja de entrada?