​En Qabiria expresamos todo nuestro apoyo a todas las personas que están enfrentándose en primera línea a la emergencia COVID-19 y a los que más sufren sus consecuencias. Además de seguir trabajando para ofrecer nuestros servicios de forma regular, estamos a disposición de clientes y proveedores para encontrar soluciones a cualquier dificultad que pueda surgir de la prolongada situación de emergencia.

Traducir archivos XML sin dolor: ¿una misión imposible?

Traducir archivos XML sin dolor: ¿una misión imposible?

Artículo traducido al castellano por Gabriela Richarte.

En el ámbito de nuestra colaboración como docentes de OmegaT con la Universitat Autònoma di Barcellona (UAB), en particular con el Máster en Tradumática, durante dos años coordinamos como tutores el trabajo de fin de máster de los estudiantes, que debían afrontar un proyecto de traducción de inglés a español y catalán de programas informáticos reales, algunos de los sistemas desarrollados en el ámbito del Public Knowledge Project.

Este proyecto de localización sirve como ejemplo perfecto para ilustrar cómo preparar y traducir archivos XML con herramientas de localización y traducción de código abierto, el tema de este artículo.

El proyecto PKP es una iniciativa de distintas universidades, dirigida al desarrollo de software libre para mejorar la calidad de las publicaciones académicas. Este proyecto ha dado como resultado algunas de las aplicaciones más utilizadas en la universidad para la gestión de publicaciones académicas (Open Journal Systems), monografías (Open Monograph Press), conferencias (Open Conference Systems) y para la indexación de metadatos relacionados (Open Harvester Systems).

Al ser sistemas open source, es decir abiertos y sin ánimo de lucro, algunos de ellos también han sido elegidos por la UAB para su funcionamiento interno. Por lo tanto, era natural establecer una colaboración entre la Oficina de Publicaciones y el Máster en Tradumática, que permitiera a los estudiantes localizar en catalán y en castellano las partes de los programas aún no traducidas.

Los proyectos de localización que coordinamos son los de OMP (Open Monograph Press) y de OCS (Open Conference Systems) y, como tales, no se diferencian de ningún proyecto comercial. De hecho, presentaban todas las dificultades inherentes a la traducción de cadenas fuera de contexto, extraídas de cientos de archivos diferentes, con el uso de material de referencia no del todo coherente y -por necesidad- de herramientas perfeccionables y, sobre todo, poco conocidas.

En resumen, fueron un excelente ejercicio no solo para los alumnos del máster, que tendrán que enfrentarse diariamente a estos problemas si quieren trabajar en el campo del software o la localización web, sino también para los que tuvieron que supervisar y coordinar la actividad de media docena de grupos de 3-4 personas cada uno, con plazos bastante ajustados.

Para nuestros propósitos es interesante observar cómo, con la ayuda de una herramienta multiplataforma, el conjunto de programas Okapi Framework (del que ya hemos hablado en otros artículos), es posible preparar cualquier archivo XML para traducirlo cómodamente en la herramienta de traducción que se prefiera.

¿Por qué convertir un archivo XML al formato XLIFF cuando casi todas las herramientas de traducción asistida (TAO) permiten traducir directamente el formato XML? Mientras tanto, no todas las herramientas TAO permiten definir fácilmente cuáles son los elementos traducibles de un archivo XML y cuáles deben ser protegidos. Utilizando una sofisticada herramienta externa como Okapi se puede preparar todo tipo de archivos XML, con la ventaja añadida de no depender de una única herramienta TAO y por lo tanto poder pasarle el proyecto a cualquiera, sin estar atado a una TAO específica. Una vez creado el archivo XLIFF, este podrá ser enviado a los traductores, que lo podrán traducir con cualquier herramienta capaz de leer un XLIFF, sin preocuparse de tener que configurar su programa de cabecera.

Los dos vídeos aquí presentados, en español, grabados inicialmente para los alumnos del máster (y por ello un poco informales) explican cuál es la estructura de los archivos traducibles del paquete OMP tomado como ejemplo y el procedimiento para crear el filtro apropiado para Rainbow/Okapi.

El mismo procedimiento puede aplicarse a cualquier programa que presente los textos a traducir como XML. No es casualidad que el enfoque sea el mismo que el descrito en el artículo «Cómo traducir un curso de Moodle», al que nos referimos para más detalles. Podemos resumirlo en estos pasos:

  1. análisis de archivos XML para identificar elementos y atributos traducibles
  2. creación del archivo de configuración apropiado para el filtro Rainbow/Okapi XMLStream
  3. conversión de archivos XML a XLIFF a través de Rainbow
  4. verifica que todo el contenido traducible se muestre realmente y que el contenido no traducible esté correctamente etiquetado
  5. fase de traducción y revisión
  6. procedimiento de reconversión, de XLIFF a XML
  7. testing lingüístico y funcional desde dentro de la aplicación

Para los dos proyectos aquí presentados, el procedimiento fue un poco más complejo, porque la preparación de los archivos se completó con una fase de extracción terminológica y la división del proyecto entre los diversos grupos de trabajo. Esquemáticamente, las etapas fueron:

  1. extracción de los archivos que componen el paquete a traducir, es decir, los que están en inglés, en una carpeta
  2. análisis de los archivos DTD para entender cuales serían los elementos y los atributos traducibles de los archivos XML
  3. creación del filtro con Okapi Rainbow, siguiendo las instrucciones del Wiki de Okapi, precisamente las páginas XML Stream Filter y HTML Filter
  4. en este punto se copia el filtro en la carpeta principal del paquete de traducción
  5. se arrastran los archivos a Rainbow
  6. configuración de las lenguas correctas y su codificación UTF8
  7. se establece la ruta del archivo
  8. selección de todos los archivos y modificación del tipo de filtro predeterminado (utilizando el creado para este propósito)
  9. conversión a XLIFF
  10. posible resolución de errores debido a la sintaxis incorrecta de los originales. En el caso en cuestión, se produjo un error debido a una sobreabundancia de CDATA en uno de los archivos, que se han corregido interviniendo manualmente en el propio archivo
  11. después de la conversión, extracción de términos más recurrentes con la función de extracción terminológica estadística de Rainbow
  12. sucesivamente, cración de un proyecto en OmegaT para cada lengua de llegada
  13. adición de memorias de traducción y de glosarios correspondientes, penalizando las memorias provenientes de fuentes no fiables
  14. análisis de los archivos a la vista, para detectar cualquier error de segmentación
  15. modificación ad hoc de las reglas de segmentación en OmegaT
  16. conteo de palabras - análisis de los archivos
  17. subdivisión de los archivos en varios grupos de trabajo

Estamos disponibles para cualquier pregunta a través del espacio de comentarios abajo.

Si necesitas traducir archivos XML, te podemos ayudar

Qabiria white logo

Creemos en el incremento de la productividad mediante el uso creativo de la tecnología.

Últimas noticias

Contacto

Qabiria Studio SLNE
Carrer Lleida, 3 1-2
08912 Badalona
(Barcelona)
ESPAÑA

+34 675 800 826

qabiria

Envíanos un mensaje

Recibe nuestro boletín

¿Quieres leer los artículos y novedades de Qabiria directamente en tu bandeja de entrada?