Los estándares en la evolución de las tecnologías de la traducción

Mani squadra occhiali

Este artículo analiza los estándares más comunes en el sector lingüístico y de la traducción, y cómo estos pueden influir positivamente en la evolución de las tecnologías del lenguaje y la traducción.

En la primera parte, analizaremos brevemente los tres tipos principales de estándares y veremos cómo intervienen en los procesos de traducción y localización.

En la segunda parte, estudiaremos en qué medida aplican estos estándares los desarrolladores de software y los proveedores de servicios lingüísticos (LSP) durante los flujos de trabajo.

Por último, expondremos algunas reflexiones sobre cómo la estandarización y la interoperabilidad pueden mejorar la calidad de las interacciones en el mercado de los servicios lingüísticos.

Introducción

Como afirma el Instituto Europeo de Normas de Telecomunicaciones (ETSI), el principal objetivo de la estandarización es permitir la interoperabilidad de los compradores y la libertad de elección en un entorno de múltiples proveedores, redes y servicios. Los LSP, en particular, deben garantizar necesariamente que sus servicios, cada vez más demandados, cumplan al menos algunos de los estándares unificados del sector.

Los proveedores de servicios lingüísticos trabajan principalmente con archivos de texto, por lo que los estándares del sector deben centrarse en el texto y su representación digital. De hecho, la interoperabilidad en el ámbito lingüístico debe permitir básicamente crear y procesar documentos en diferentes entornos y transferirlos por diferentes medios sin perder sus propiedades.

Hasta ahora, esto no siempre ha sido posible, ya que las políticas de los líderes del mercado han obstaculizado a menudo la interoperabilidad de las herramientas disponibles. Sin embargo, en los últimos quince años ha habido un compromiso creciente en este sentido y los estándares están empezando a desempeñar un papel constructivo en la evolución de las tecnologías lingüísticas.

En aras de la claridad, en este artículo examinaremos tres grupos principales de estándares que afectan directamente al sector de la traducción:

  1. Estándares de codificación de caracteres
  2. Formatos de archivo
  3. Estándares de proceso

Estándares de codificación de caracteres

Los estándares de codificación de caracteres establecen cómo se presenta un texto en forma de código digital para transmitirse de un sistema informático a otro. Existen varios conjuntos de caracteres, pero solo algunos de ellos se soportan universalmente. Por lo tanto, el uso de conjuntos de caracteres no estándar puede producir un texto indescifrable cuando los documentos se transfieren de un sistema a otro. El resultado clásico es un texto caótico y que se visualiza mal, lleno de signos de interrogación, cuadraditos y otros símbolos.

El problema surge especialmente en el caso de los textos multilingüe en los que tienen que coexistir diferentes alfabetos o incluso letras e ideogramas. Un glosario ruso-inglés, por ejemplo, debe codificarse de forma que tanto el alfabeto cirílico como el latino sean legibles por cualquier ordenador, independientemente de la configuración del sistema local.

Una solución a este problema es el uso del estándar Unicode que proporciona un número único para cada carácter o ideograma en casi todos los idiomas escritos. UTF-8 y UTF-16 son dos de los conjuntos de caracteres basados en Unicode más completos y utilizados. La capacidad de Unicode para representar y manejar textos expresados en la mayoría de los sistemas de escritura del mundo ha propiciado su uso generalizado en páginas web y, por tanto, también en el sector de los servicios lingüísticos.

Formatos de archivo

Los formatos de archivo definen la estructura interna de los propios archivos, para que la aplicación correspondiente los cargue, abra, procese y guarde correctamente. Las empresas deberían utilizar formatos estándar para los archivos escritos que contengan información de importancia, de modo que siempre se mantenga la seguridad de esa información.

Por el contrario, si solo hay una o pocas aplicaciones comerciales a disposición de las empresas para elaborar y traducir sus documentos, se crea una arriesgada relación de dependencia. Además de no respetar las normas, la empresa de software que vende la aplicación puede obligar a los compradores a realizar actualizaciones que impidan la compatibilidad con versiones anteriores. También puede ocurrir que la empresa deje de desarrollar la app o, peor aún, que llegue al cierre total y deje a los usuarios sin actualizaciones ni soporte.

Desde los tiempos de las tarjetas perforadas, los usuarios finales han sido testigos de estas prácticas de bloqueo de proveedores por parte de las principales empresas de software que buscan ganar o mantener su cuota de mercado, independientemente de la calidad de los productos que ofrecen. De hecho, fue la falta de estándares comunes para los procesadores de texto lo que provocó una dolorosa migración masiva de usuarios de WordPerfect a Microsoft Word cuando Windows sustituyó a DOS como sistema operativo principal a mediados de los años noventa.

El nicho de los servicios lingüísticos no es en absoluto una excepción, ya que SDL Trados Studio es el actual líder del mercado y el estándar de facto, aunque está lejos de ser el mejor software de traducción, al menos en términos de compatibilidad. En primer lugar, se basa en la tecnología .NET de Microsoft, por lo que excluye a los usuarios de Mac y Linux. Tampoco permite que las versiones más antiguas abran archivos creados por versiones posteriores, y su interfaz desordenada y caótica, que recuerda a la de principios de los 90, estuvo muchos años sin mejorarse, hasta hace poco. Más relevante aún es el hecho de que en el pasado ha demostrado tratar a sus usuarios de pago como beta testers, por ejemplo en septiembre de 2011 lanzó una versión de su suite Studio 2011 aún no libre de errores y, solo tres meses después, lanzó el primer Service Pack de 347 Mb.

En el sector de la traducción, la estandarización de los formatos de archivo es especialmente necesaria para los distintos archivos de texto con etiquetas, que suelen ser subproductos intermedios y auxiliares del proceso de traducción, cuando este se lleva a cabo mediante una herramienta de traducción asistida.

Normalmente, las herramientas CAT pueden procesar al menos tres tipos de archivos: memorias de traducción, textos bilingües y bases de datos terminológicas. Si la estructura interna de estos archivos sigue unas especificaciones comunes, pensadas expresamente para ser compartidas en diferentes entornos, la documentación multilingüe de una empresa no dependerá solo de uno o pocos proveedores.

Algunos de las estándares, diseñados específicamente para el proceso de localización, fueron regulados por la Localization Industry Standards Association (LISA) hasta su disolución el 28 de febrero de 2011. Ese mismo año, el ETSI puso en marcha un grupo de interés especial por la localización (LIS) que pretendía avanzar en el desarrollo de los estándares TBX, TMX, SRX, GMX-V y xml:tm, pero hasta la fecha no ha realizado ningún avance importante en este sentido.

Memorias de traducción

Las memorias de traducción suelen ser archivos de tipo base de datos que contienen textos previamente traducidos, indicaciones sobre su formato y otras propiedades. Algunas de las propiedades están definidas por defecto (por ejemplo, el idioma de origen y el de destino, la fecha, la hora, la identificación de la persona o el software que realizó la traducción, etc.), mientras que otras pueden añadirse, como atributos personalizados, por ejemplo.

Cada herramienta de traducción asistida tiene su propia forma de almacenar las memorias de traducción, pero para todos los proveedores de servicios lingüísticos es muy importante poder compartir las memorias de traducción para poder llevar a cabo sus actividades. El Translation Memory eXchange (TMX) es un formato basado en XML que permite representar la estructura de la base de datos y está diseñado para el intercambio de memorias de traducción entre diferentes herramientas CAT. Una vez más, el desarrollo se detuvo hace varios años, cuando se propuso la versión 2.0 de la especificación sin llegar nunca a implementarse.

Archivos bilingües

Sea cual sea el formato del archivo de origen, en la mayoría de los casos, la traducción y los procesos relacionados con ella tienen como subproducto archivos de texto que contienen la extracción del texto, etiquetas y marcadores de posición para mantener el diseño de impresión o la visualización original. Estos archivos se llaman bilingües porque contienen las frases del texto original y su traducción en paralelo. El formato XML Localisation Interchange File Format (XLIFF) ofrece una estructura unificada para los documentos bilingües.

El formato XLIFF se utiliza como «puente» que da al texto extraído su estructura adecuada. Los elementos y atributos específicos del propio formato se utilizan para definir las propiedades de cada par de segmentos (original y traducción), así como la lengua de origen y la de destino, la herramienta de extracción, etc. A diferencia de los formatos anteriores, el estándar XLIFF fue desarrollado por el consorcio OASIS. La última versión es la 2.0, lanzada en 2014.

El formato Portable Object (PO) de Gettext también es multilingüe y está diseñado específicamente para la industria de la localización de software. Los ficheros PO tienen una estructura muy sencilla, sin atributos especiales, y suelen presentarse en columnas con las cadenas a traducir a la izquierda y su correspondiente traducción a la derecha.

Bases de datos terminológicas

Term-Base eXchange (TBX), Universal Terminology eXchange (UTX) y Open Lexicon Interchange Format (OLIF) son tres formatos basados en XML diseñados específicamente para datos terminológicos y léxicos. Los tres pueden contener glosarios, ya sea para traducción humana o automática. Almacenan pares de términos de la lengua de origen y la de destino, así como datos terminológicos adicionales como la función gramatical, el género, el número e información léxica más detallada.

Otros tipos de archivos

Hay otros tipos de archivos que tienen sus propios estándares e intervienen en el proceso de traducción asistida de esta manera:

El formato Segmentation Rules eXchange (SRX) se utiliza para definir las reglas de segmentación. La segmentación es la operación que permite dividir el texto en partes, denominadas segmentos, que pueden traducirse una a una. Cuando un programa necesita segmentar un documento, se necesitan reglas para determinar dónde termina un segmento y empieza el siguiente. En la mayoría de los casos es el punto final el que determina el final del segmento, excepto cuando el punto final se inserta dentro de una dirección de internet o de unas siglas, por ejemplo.

Las Global information management Metrics eXchange (GMX) son un conjunto de estándares destinados a proporcionar medios comunes para medir aspectos cuantitativos de un documento, como el número de palabras, la complejidad, etc. Cuando una empresa de traducción recibe un encargo, es necesario estimar todo el trabajo de traducción para realizar un presupuesto del proyecto. Los presupuestos de traducción para un mismo texto pueden variar mucho, ya que cada agencia de traducción mide la complejidad y la longitud de un texto de forma diferente. Con el desarrollo y la integración de los estándares GMX, el sector de la traducción se beneficiará de parámetros verificables y definidos que se aplican a los documentos de texto.

Estándares del proceso

El crecimiento del mercado de la traducción en los últimos quince años ha creado una gran necesidad de desarrollar estándares de calidad para los servicios de traducción. Por un lado, la demanda aumenta debido al creciente volumen de información escrita y al número de clientes que, en su mayoría, no están familiarizados con conceptos como localización, internacionalización y globalización. Por otro lado, gracias a internet, ahora es más fácil que nunca crear y dirigir una empresa de traducción con inversiones modestas. De hecho, el mercado está repleto de proveedores nuevos e inexpertos.

Por ello, los gobiernos y otras instituciones, como las asociaciones de traductores, han promovido la introducción de estándares de calidad para describir formalmente todos los pasos necesarios para prestar un servicio de traducción satisfactorio. Sea cual sea el producto final, ya sea un contrato comercial, los subtítulos de un documental, un catálogo de productos, un sitio web multilingüe, etc., la estandarización beneficia a los usuarios finales al proporcionarles un marco de referencia, basado en criterios reconocidos e imparciales, a través del cual pueden evaluar su experiencia con los proveedores de servicios lingüísticos.

Dado que es muy difícil ponerse de acuerdo sobre una forma de definir y medir la calidad de las traducciones escritas, las normas de proceso se centran principalmente en la calidad general de un flujo de trabajo de traducción tradicional, desde la solicitud del servicio hasta la entrega del producto. De hecho, no proporcionan criterios específicos para la traducción o la calidad del proyecto, ya que son aspectos muy subjetivos. Más bien establecen los parámetros que los LSP deberían tener en cuenta antes de iniciar un proyecto de traducción (recursos humanos, análisis y presupuesto del proyecto, especificaciones del cliente y comunicación), durante su ejecución (gestión de la terminología, traducción, edición, formateo, corrección y control de calidad) y después, aparte, la entrega (mantenimiento de la memoria de traducción y seguimiento de los comentarios).

A diferencia de los fabricantes y proveedores de servicios, que disponen del estándar ISO 9001 como principal certificación internacional, hasta 2015 las mejores prácticas en el sector de la traducción estaban definidas por diferentes estándares de calidad, en función de la ubicación geográfica. En Europa, la norma UNI 10574:1996 primero y después UNI EN 15038:2006 pretendían unificar la terminología de las actividades de traducción, así como la definición de buenas prácticas para la relación comprador-vendedor. En Norteamérica, la Asociación de la Industria Lingüística de Canadá (AILIA) contribuyó a la elaboración del estándar nacional canadiense para los servicios de traducción, el CAN/CGSB 131.10-2008, que se ajusta al estándar europeo. En Estados Unidos, la asociación de traductores ATA ha aprobado la ASTM F2575, la Guía estándar para la garantía de calidad en la traducción. En 2015 se introdujo la norma ISO 17100, que tiene validez mundial y establece por fin los requisitos para la prestación de servicios de traducción de calidad a escala internacional.

Conclusiones

La estandarización tiene muchos enemigos en la industria de la traducción. Una prueba de ello es que un organismo orientado a las telecomunicaciones como el ETSI fue el único que se presentó para seguir desarrollando los formatos estándar publicados por LISA hasta ese momento, en lugar de las propias partes interesadas del sector a través de sus numerosas organizaciones como EUATC, FIT, GALA, ELIA, etc., que parecen carecer de la voluntad de acordar un conjunto unificado de estándares. De hecho, hasta ahora el sector lingüístico ha sufrido la evolución de la tecnología de forma pasiva, en lugar de crecer con ella y dirigir su desarrollo. Además, hay muy poca coherencia, ya que la iniciativa está en manos de un pequeño grupo de organizaciones. Por no hablar de que las prácticas de bloqueo de proveedores por parte de los desarrolladores de software suponen una amenaza para el libre mercado.

Sin embargo, los estándares desempeñan ya, y seguirán desempeñando, un papel decisivo en el ámbito de la documentación y la traducción, y su introducción gradual será la clave de la evolución tecnológica de la traducción. Aunque todavía no cubren todos los aspectos de los servicios de traducción, los estándares proporcionan un marco aceptado y aceptable para aplicar procesos de mejor calidad a todos los niveles. Puesto que contribuyen a mejorar la gestión de la traducción en general, todas las partes interesadas —desarrolladores de software, proveedores de servicios lingüísticos y clientes finales— tienen la responsabilidad de apoyar la estandarización y mejorar la interoperabilidad.

De hecho, muchos desarrolladores de software están adoptando los estándares de la industria para tener un modelo de diseño de programas compatible. De este modo, los proveedores de servicios lingüísticos de cualquier tamaño pueden eludir las restricciones del software comercial. Por otra parte, mediante la aplicación de estándares de proceso, los LSP pueden elegir a sus proveedores de traducción en función de sus cualificaciones reales, ya que haber adquirido una determinada licencia de software no debería ser un requisito previo para elegir a un proveedor de servicios lingüísticos.

Y lo que es más importante: los clientes pueden beneficiarse de una mayor transparencia en el mercado de la traducción, independientemente del papel que desempeñe cada parte, y de una mejor comunicación con los proveedores de servicios lingüísticos para establecer especificaciones sin defectos. En otras palabras, los estándares ayudan a los clientes a obtener el mejor servicio de traducción porque promueven la competencia y les facilitan la elección del proveedor de servicios lingüísticos adecuado para satisfacer sus necesidades. Por ello, los propios clientes deberían comprometerse a contratar a proveedores que se ciñan a los estándares.

Traductor técnico, project manager, mentor y admirador del ingenio. Socio fundador de Qabiria.

Leer también

Habla con nosotros

Cuéntanos qué necesitas enviándonos un correo electrónico a hola@qabiria.com o mediante el formulario de contacto. Tendrás una respuesta garantizada en 24 horas, pero habitualmente mucho antes.

Contacta con nosotros