Contenidos duplicados: introducción al SEO multilingüe

Contenidos duplicados: introducción al SEO multilingüe
Artículo traducido al castellano por Gabriela Richarte.

Tienes un comercio electrónico o contenido publicado en un blog y quieres traducirlo para hacer de tu sitio uno multilingüe, o bien para alcanzar un determinado mercado internacional.

De repente, te asalta la duda: ¿qué sucede si Google piensa que el contenido que has traducido es contenido duplicado y te penaliza por ello?

Para quien tiene prisa, la respuesta es que no sucederá: si tienes un sitio y has traducido el contenido para diferentes países, el problema no debería existir.

Pero, siempre hay una excepción. Antes que nada, hay que tener en cuenta varios conceptos para evitar sufrir consecuencias a nivel SEO en lo que respecta al posicionamiento de tu sitio multilingüe, frente a posibles contenidos duplicados.

¿Qué es un contenido duplicado?

Imaginemos que gestionas un comercio electrónico de smartwatch bluetooth y que tu CMS (Content Management System), como Wordpress o Joomla, te permite, a través de filtros, cambiar el orden en el que se muestran tus productos.

Puede suceder que cada vez que decidas el criterio de visualización, se modifique automáticamente la URL correspondiente. ¿Y entonces? Te encuentras con páginas diferentes, cada una con su URL pero que, en cuanto a contenidos, son muy similares, lo que cambia es solo la distribución de los artículos. Se trata de páginas con contenido duplicado. Según un estudio de Raven Tools realizado en el 2015, la criticidad existe. Este estudio estima que hasta un 29% de los sitios escaneados por Googlebot (instrumento automático que escanea la web para indexar su contenido) tienen contenido duplicado.

Además, cuando generamos contenido, debemos tener en cuenta sugerirle a Google qué página mostrarle al usuario (y potencial lead). El objetivo de Google es hacer que la experiencia de navegación del usuario sea satisfactoria, evitando que vea el mismo contenido una y otra vez en los resultados de una sola búsqueda.

Según la definición de Google:

se denomina contenido duplicado a los bloques de contenido de un tamaño considerable que coinciden completamente o son muy parecidos a otros que se encuentren en ese mismo dominio o en cualquier otro.

Básicamente, se trata de una cuestión de indexación, pero debe estar bien gestionada.

Aclaremos una cosa: un contenido duplicado inconscientemente no será penalizado, pero tampoco será óptimo.

Decimos esto porque existen algunas prácticas que Google considera engañosas: a menudo sucede que los gestores de comercios electrónicos o sitios web publican intencionalmente contenido duplicado en varios dominios, para supervisar su posicionamiento en los motores de búsqueda y así, aumentar el tráfico generado.

Es preciso prestar atención para asegurar que, en tales casos, el sitio podrá ser penalizado y hasta eliminado de los resultados de búsqueda.

Porqué evitar contenido duplicado a nivel SEO

Como nos sugiere Moz en este artículo, siempre es aconsejable indicar al motor de búsqueda qué versión de nuestro sitio web debe indexar y posicionar para que entienda, también, si debe dirigir las métricas de los enlaces (relevancia, anchor text, análisis del perfil del enlace) a una sola página o si debe mantenerlas separadas entre varias versiones.

Si no prestamos la correcta atención, la presencia de contenido duplicado puede resultar en la pérdida de posicionamiento y de relevancia. Esto significa que cualquier sitio web que nos remita a través de backlink puede escoger qué duplicado mostrar.

Cómo intervenir sobre los contenidos existentes en nuestro sitio web

¿A qué elementos de su sitio multilingüe debe prestarle atención para evitar contenido duplicado?

1. La estructura de las URL

Los dominios son un factor SEO muy poderoso. Los parámetros URL (Uniform Resource Locator) son los primeros en destacar en los informes de Google Analytics como referencia inmediata al contenido, el primer lugar donde se optimizan los términos de búsqueda y el primero en dar una idea inmediata de dónde se encuentra el contenido dentro del la estructura de nuestro sitio.

Una URL con una buena estructura debe tener:

  • una estructura jerárquica: dominio/página principal/páginas secundarias
  • letras minúsculas
  • las palabras separadas por el signo menos
  • brevedad, concisión y ausencia de espacios o caracteres no ASCII
  • las palabras clave de búsqueda pero no demasiadas, para que sean claras tanto para los usuarios como para los motores de búsqueda.

2. Traducción de contenidos

Actualmente, el contenido es lo más importante y es imprescindible, por no decir obligatorio, que sea original.

Personalizar contenido significa que los usuarios quieren leer contenido localizado a su mercado o, al menos, en su idioma.

Cada versión traducida no solo necesitará un contenido bien localizado, es decir, correctamente adaptado al público de destino, sino que también necesitará estudiar el customer journey, es decir, un estudio específico de las palabras claves que resultará en una arquitectura de contenido diferente, con textos diferentes y una optimización diferente de los elementos SEO.

Entonces, las traducciones no son contenido duplicado pero hay que prestarle mayor atención al modo en el que se hacen. Si la traducción se realiza con ayuda de herramientas TAO, de webmaster o incluso Google Translate sin ninguna revisión posterior, el resultado no será de buena calidad.

Las traducciones automáticas no son naturales, desde ya, y son velozmente identificables por su carencia de aspecto personal (y hasta pueden clasificarse como spam).

Para evitar que esto suceda, la mejor solución es ponerse en contacto con una agencia de traducción que pueda contar con profesionales nativos y de esta forma asegurar que tus visitantes tengan una mejor experiencia y disfrute del contenido.

Entonces, para lograr que tus visitantes encuentren siempre contenidos diferentes y actualizados en las diferentes páginas que componen su sitio, puedes reforzar tu SEO, cambiando las frases y encontrando nuevas soluciones en el artículo que escribimos sobre las palabras clave a utilizar en los títulos y descripciones que aparecen en el SERP.

Malas prácticas que generan contenido duplicado

1. Contenido no traducido en dominios localizados

Imagina que has creado varios dominios localizados de tu comercio electrónico de smartwatch para poder estar presente en varios mercados internacionales, como por ejemplo .co.uk para Reino Unido y uno .de para Alemania. Si no has traducido y localizado los diferentes contenidos, el motor de búsqueda encontrará duplicados en todos los dominios. Y, aunque Google sabe desde dónde escribe el usuario y sabe que tiene que mostrarle la versión correcta basada en el dominio y su país de referencia, existe el riesgo de que, sin el contenido traducido, Google fracase en su intento.

Por lo tanto, la traducción y localización profesional del contenido sigue siendo la clave para proporcionar una buena experiencia al usuario y para demostrarle a Google que has contextualizado y remodelado el contenido que, de esta manera, resulta auténtico.

2. Copia de contenido (content scraping)

Al algoritmo Panda de Google no le gusta la copia de contenido. El contenido creado a través del web scraping se genera a través de un proceso automatizado de extracción de datos de un sitio web a través de programas que reproducen la navegación humana.

Esta práctica, generalmente, es implementada por el comercio electrónico que vende múltiples versiones del mismo producto y, a menudo, se copian las descripciones de productos tomadas de otro sitio en línea, generalmente del fabricante, sin realizarle ningún tipo de modificación.

contenido duplicado

Una agencia de traducción y localización puede perfectamente encargarse de este servicio lingüístico.

3. Republicar contenido en otros sitios (content syndication)

Otra trampa es republicar contenido en otros sitios que podrían generar contenido duplicado.

Para hacerle frente a este problema, es inteligente pedirle al sitio que está realizando la difusión de tu contenido, crear un backlink a tu sitio con un anchor text apropiado.

También puedes "marcar" el contenido republicado con la etiqueta rel="canonical", que la que hablaremos más adelante y que "le dice" a los motores de búsqueda cuál URL de la misma versión considerar "canónica", es decir, principal; o bien, utiliza meta tag noindex, que explicaremos a continuación.

En cualquier caso, puede ser interesante saber que Google no considera como duplicado el contenido republicado en LinkedIn o Medium.

Cómo corregir contenido duplicado.

¿Qué soluciones técnicas son las más apropiadas en caso de contenido duplicado en un sitio multilingüe?

1. Insertar la etiqueta rel="canonical" en el código fuente

La solución para diferenciar páginas similares o muy similares pero con URLs diferentes y tener bajo control el contenido duplicado es el atributo rel="canonical". La URL canónica le indica a Google qué versión debe considerar como principal: esto implica que sobre esta versión se reunirán todos los datos SEO generados, incluso por las otras versiones duplicadas y, por ende, la que se mostrará en los SERPs.

Una buena práctica SEO consiste en utilizar el tag link canónico en el encabezado del archivo HTML en el interior de la etiqueta  <head> de la versión principal: la etiqueta canonica puede ser autoreferencial:

<html>
<head>
<link rel="canonical" href="https://www.bluetoothsmartwatch.it"/>
</head>
</html>

De la misma forma, se utiliza del mismo modo en los archivos HTML de las versiones duplicadas.

Sin embargo, según afirma SemRush en su artículo, el uso de la etiqueta canónica es un simple consejo que se le da a Google y no una orden.

2. HTTP o HTTPS, WWW o no, ¿barra final o no?

La etiqueta canónica representa apenas uno de los instrumentos disponibles.

Cabe recordar que la coherencia de las URL es fundamental.

  • Piensa que basta con tener en su sitio dos versiones HTTP y HTTPS, ambas activas, con el mismo contenido y visibles en los buscadores para incurrir en la creación de contenido duplicado, sin que este último sea intencionado, como ocurre en la mayoría de los casos.

En el caso del comercio electrónico, las HTTPS deberían ser la versión de preferencia en su dominio: por un lado, asegura a los usuarios que su sitio es seguro, especialmente cuando hay información sensible que proporcionar y guardar, mientras que por otro lado, es la preferida de Google para poder posicionarlo mejor.

  • Es preferible que elijas qué dominio (con WWW o no) es tu preferido: esta decisión le indica al motor de búsqueda qué dominio escanear e indexar, lo que proporcionará, al final, mejores resultados.
  • De igual manera, este planteo resulta útil a la hora de utilizar versiones con o sin barra final (trailingslash): la barra oblicua final al término de una URL indica que se trata de un directorio, mientras que una URL sin la barra final indica que se trata de un archivo específico. Aquí también es necesario elegir una versión de preferencia.

Para resolver el problema de generar contenido duplicado en los tres casos mencionados, la solución más adecuada es la redirección permanente Redirect 301, es decir, redirigir la URL del contenido duplicado a lo que hemos decidido que sea nuestro favorito para no perder el posicionamiento, el tráfico y no menos importante, el seguimiento de la antigua URL. Esto se puede hacer accediendo al archivo .htaccess:

Redirect 301 /bluetoothsmartwatch.it/ https://www.bluetoothsmartwatch.it/

3. Atribución de la etiqueta Meta NOINDEX

Otra forma de avanzar cuando tienes dos páginas con contenido similar, como una página normal y su versión impresa, es insertar la página duplicada en el código fuente:

la etiqueta <meta> con el atributo robots="noindex" para evitar que el robot del motor (o crawler o spider) pueda escanearlo.

4. Etiqueta HREFLANG para la gestión de sitios localizados

Cuando tenemos un sitio multilingüe y queremos llegar a usuarios que viven en diferentes países y hablan diferentes idiomas, no podemos dejar de insertar en el código fuente los atributos hreflang y rel="alternate" para informar a Google de que el mismo contenido está dirigido a diferentes áreas geográficas y diferentes idiomas.

<link rel="alternate" hreflang="en-gb" href="https://www.bluetoothsmartwatch.co.uk/">
<link rel="alternate" hreflang="de-de" href="https://www.bluetoothsmartwatch.de/">

Presta atención a dos aspectos importantes a la hora de utilizar el atributo HREFLANG:

  1. los códigos de idioma deben expresarse necesariamente en formato ISO 639-1 y los códigos de área geográfica en formato ISO 3166-1 Alpha 2.
    Es importante recordar que se puede especificar el idioma sin especificar el país, pero no se puede hacer lo contrario: Google no deduce automáticamente el idioma exacto del código de país introducido. Además, el código de país siempre sigue al código de idioma;
  1. los enlaces de retorno deben estar siempre presentes: una vez insertado el atributo, si la página A se refiere a la página B, la página B también debe referirse a la página A, de lo contrario el informe HREFLANG podría ser ignorado o malinterpretado por el motor de búsqueda.

Antes de llegar a una conclusión, te dejamos algunas herramientas que puedes utilizar en combinación para encontrar posibles contenidos duplicados:

  • un método sencillo es insertar una parte entera del texto en la barra de búsqueda de Google, en lugar de la palabra clave o grupo de palabras clave habituales
  • Copyscape
  • la función Compare de Copyscape, compara dos URLs
  • Siteliner, una herramienta gratuita que le permite encontrar contenido duplicado dentro de un sitio, con solo introducir la URL

Conclusiones

  • Abrirse a los mercados extranjeros a través de un sitio multilingüe es una elección que implica una localización de contenidos estratégica y bien diseñada para evitar incurrir en la creación, consciente o inconscientemente, de contenidos duplicados
  • Se debe prestar suma atención no solo al proceso de traducción de contenido, sino también a otros elementos más técnicos que contribuyen a no indexar correctamente tu sitio multilingüe desde una mirada SEO
  • Ofrecer una experiencia de usuario correcta es una mezcla de aspectos lingüísticos y técnicos que hay que tener en cuenta a la hora de gestionar un comercio electrónico o un negocio en línea

Glosario

anchor text: o texto de anclaje, es el texto legible en el enlace de referencia a otro sitio web.

backlink: son enlaces desde otros sitios web que hacen referencia a la tuya y, consecuentemente, aumenta su relevancia.

conversion: es el comportamiento o la reacción de un usuario inducido a realizar una acción deseada por el operador del sitio web, por ejemplo, la compra de un producto o la suscripción al newsletter.

Google Panda: el algoritmo de filtrado de Google, interesado en la calidad de los contenidos, que penaliza a aquellos que son poco originales y superficiales. En Europa fue lanzado en abril de 2011 y se actualiza continuamente. La última actualización fue en julio de 2015.

lead: potencial contacto o comprador interesado en el producto y/o servicio vendido en el sitio web.

SERP (Search Engine Results Page): las páginas de resultados generados por una búsqueda por parte del usuario-cliente, a través de la introducción de una o más palabras clave.

Para profundizar

SI NECESITAS UN TRADUCTOR PARA TU SITIO MULTILINGÜE, CONTÁCTANOS SIN COMPROMISO

Filomena Capobianco

Traduttrice e localizzatrice.

Profilo LinkedIn 

Qabiria white logo

Creemos en el incremento de la productividad mediante el uso creativo de la tecnología.

Últimas noticias

Contacto

Qabiria Studio SLNE
Carrer Lleida, 3 1-2
08912 Badalona
(Barcelona)
ESPAÑA

+34 675 800 826

qabiria

Envíanos un mensaje

Recibe nuestro boletín

¿Quieres leer los artículos y novedades de Qabiria directamente en tu bandeja de entrada?