¿El contenido duplicado de tu web está perjudicando a su rendimiento?

Guía de estrategia SEO multilingüe

Gemelle che urlano

Tienes productos en una tienda online, contenido en tu página web o blog, y has decidido traducirlos para hacer que sea multilingüe y llegar así a un mercado internacional determinado.

De repente, te asalta la duda: ¿Google me penaliza al considerar el contenido traducido de mi web como contenido duplicado?

Para quienes tengan prisa, la respuesta es no: si tienes un sitio y has traducido el contenido para diferentes países, el problema no debería existir.

Pero hay un «pero». Y algunas cosas que hay que saber para evitar sufrir las consecuencias de SEO en el ranking de su sitio multilingüe debido a la presencia de posibles contenidos duplicados.

¿Qué es un contenido duplicado?

Imaginémonos que gestionas un e-commerce de smartwatches Bluetooth y tu CMS (Sistema de Gestión de Contenidos) como WordPress o Joomla te permita cambiar el orden de visualización de los productos a través de algunos filtros.

Puede ocurrir que cada vez que decidas aplicar un criterio de visualización, la URL correspondiente también se modifique automáticamente.

¿El resultado? Se acaban teniendo diferentes páginas, cada una con su propia URL, pero que, en cuanto al contenido, son muy similares si no fuera por la diferente distribución de los elementos. Páginas con contenido duplicado.

Según un estudio de Raven Tools realizado en 2015, existen ciertos tipos de penalizaciones. El estudio estima que hasta el 29% de las páginas web escaneadas por Googlebot (la herramienta automatizada que explora la web para indexar el contenido) tienen contenido duplicado.

Así que cuando creamos contenido tenemos que preocuparnos de sugerir a Google qué página mostrar al usuario (y potencial lead) para que la visita se transforme en conversión. El objetivo de Google es hacer que la experiencia de navegación del usuario sea satisfactoria, evitando que vea el mismo contenido una y otra vez en los resultados de una sola búsqueda.

Presta atención a la definición proporcionada por el propio Google:

los contenidos duplicados son bloques de texto idénticos o muy similares en varias páginas de tu web o en varias URL diferentes.

Básicamente, es una cuestión de indexación limitada a Google, pero que hay que saber gestionar.

Aclaremos una cosa: un contenido duplicado inconscientemente no es penalizado, pero tampoco es óptimo.

Decimos esto porque existen algunas prácticas que Google considera engañosas: A menudo sucede que los gestores de comercios electrónicos o sitios web publican intencionalmente contenido duplicado en varios dominios, para supervisar su posicionamiento en los motores de búsqueda y así, aumentar el tráfico generado.

Es preciso prestar atención para asegurar que, en tales casos, el sitio puede ser penalizado y hasta eliminado de los resultados de búsqueda.

Por qué evitar el contenido duplicado desde el punto de vista del SEO

Como sugiere Moz en este artículo sobre contenidos duplicados, siempre es recomendable indicar al buscador qué versión de nuestra web debe indexar y posicionar para que entienda si debe dirigir las métricas relacionadas con los enlaces (autoridad, texto ancla, análisis del perfil de enlaces) a una sola página o mantenerlas separadas entre varias versiones.

Si no prestamos la debida atención, la presencia de contenido duplicado puede suponer una pérdida de posicionamiento y de autoridad. Significa que cualquier página web que enlace con la nuestra a través de backlinks puede encontrarse, a su pesar, con que tiene que elegir qué duplicado mostrar.

Cómo intervenir sobre el contenido existente en nuestra web

¿A qué elementos de su sitio multilingüe debe prestarle atención para evitar contenido duplicado?

1. La estructura de las URL

Los dominios son un factor SEO muy poderoso. Los parámetros del Localizador Uniforme de Recursos (URL) son los primeros que destacan en los informes de Google Analytics como referencia inmediata al contenido, el primer lugar donde se optimizan los términos de búsqueda y el primero que proporciona inmediatamente una idea de dónde se encuentra el contenido dentro del árbol de información.

Una URL con una buena estructura debe tener:

  • una estructura jerárquica: dominio/página principal/página secundaria;
  • letras minúsculas,
  • palabras separadas por el signo de menos,
  • brevedad, concisión y ausencia de espacios o caracteres no ASCII,
  • palabras clave de búsqueda, pero no demasiadas, para que sean claras tanto para los usuarios como para los motores de búsqueda.

2. Traducción de contenidos

Hoy en día «el contenido es el rey», pero debe ser un «rey» original, con autoridad y personalizado.

Personalizar los contenidos significa que los usuarios quieren leer contenidos localizados para su mercado o, al menos, en su idioma.

Cada versión traducida no solo necesitará un contenido bien localizado, es decir, correctamente adaptado al público objetivo, sino que también será necesario que cada una desarrolle el mapeo del customer journey, un estudio de palabras clave específicas, lo que dará lugar a una arquitectura de contenidos diferente, a textos diferentes y a una optimización distinta de los elementos SEO.

Hemos dicho que las traducciones no son contenido duplicado, pero hay que prestar atención a la forma en que se hacen. Si la traducción se realiza con ayuda de herramientas TAO, de webmaster o incluso Google Translate sin ninguna revisión posterior, el resultado no será de buena calidad.

Las traducciones automáticas no son naturales, desde ya, y son velozmente identificables por su carencia de aspecto personal y hasta pueden clasificarse como spam.

Per evitare che ciò accada, la soluzione migliore è rivolgersi a un’agenzia di traduzione che possa contare su traduttori madrelingua professionisti per assicurare ai visitatori un’esperienza e una fruizione di contenuti migliori.

Para que los visitantes encuentren siempre un contenido diferente y actualizado en las distintas páginas que componen tu web, podrías reforzar tu SEO variando las frases y encontrando nuevas soluciones en el artículo que escribimos sobre las palabras clave que deben utilizarse en los títulos y descripciones que aparecen en las SERP.

Malas prácticas que generan contenido duplicado

1. Contenido no traducido en dominios localizados

Imaginemos que has creado varios dominios localizados de tu tienda online de relojes inteligentes para dirigirte a varios mercados internacionales, por ejemplo .co.uk para el Reino Unido y uno .de para Alemania.

Si no has traducido y localizado los distintos contenidos, el motor de búsqueda los encontrará duplicados en todos los dominios. Y, aunque Google sepa desde dónde escribe el usuario y sepa mostrarle la versión correcta en función del dominio y de su país de referencia, te arriesgas a que, sin el contenido traducido, Google falle en el intento.

Por lo tanto, la traducción y localización profesional del contenido sigue siendo la clave para proporcionar una buena experiencia al usuario y para demostrarle a Google que has contextualizado y remodelado el contenido que, de esta manera, resulta auténtico.

2. Contenido extraído de otras webs (content scraping)

Al algoritmo Panda de Google no le gusta el scraping de contenidos. El contenido creado a través del web scraping se genera mediante un proceso automatizado de extracción de datos de un sitio web utilizando programas de software, que imitan la navegación humana.

Esta práctica, generalmente, es implementada por el comercio electrónico que vende múltiples versiones del mismo producto y, a menudo, copian las descripciones de productos tomadas de otro sitio en línea, generalmente del fabricante, sin realizarle ninguna modificación.

Contenido duplicado

De nuevo, una agencia de traducción y localización puede encargarse de reescribir este contenido para que no se considere duplicado.

3. Contenido republicado en otras webs (content syndication)

Otra trampa es republicar contenido en otros sitios que podrían generar contenido duplicado.

Para evitar este problema, pídele a la web que difunde tu contenido que cree un enlace a tu sitio con un texto de anclaje apropiado.

Como alternativa, también se puede marcar el contenido republicado con la etiqueta de enlace rel="canonical", de la que hablaremos más adelante y que indica a los motores de búsqueda qué URL de la misma versión deben considerar «canónica», es decir, la principal; o el uso de la etiqueta meta noindex, que explicaremos en el siguiente párrafo, podría ser lo más adecuado para ti.

En cualquier caso, para tu tranquilidad, Google no considera como duplicado el contenido republicado en LinkedIn o Medium. Sin embargo, te aconsejamos que esperes al menos 7 días antes de volver a publicarlos para que Googlebot tenga tiempo de indexar primero el contenido original de tu sitio. Como alternativa, publica primero en estas plataformas e implementa rel="canonical" enlazándolo a la versión de tu blog.

Cómo corregir el contenido duplicado

¿Qué soluciones técnicas son las más apropiadas en caso de contenido duplicado en un sitio multilingüe?

1. Insertar la etiqueta rel="canonical" en el código fuente

La solución para aclarar la relación entre páginas similares o muy similares con diferentes URL y para manejar el fenómeno del contenido duplicado es el atributo rel="canonical". La URL canónica le indica a Google qué versión debe considerar como principal: esto implica que sobre esta versión se reunirán todos los datos SEO generados, incluso por las otras versiones duplicadas y, por ende, la que se mostrará en los SERPs.

Una buena práctica SEO consiste en insertar la etiqueta de enlace canónico en la cabecera del archivo HTML dentro de la etiqueta <head> de la versión principal: la etiqueta de enlace canónico puede, de hecho, ser autorreferencial:

<html\>  
<head\>  
<link rel="canonical" href="https://www.bluetoothsmartwatch.it"/\>  
</head\>  
</html\>

de la misma forma, se utiliza del mismo modo en los archivos HTML de las versiones duplicadas.

Sin embargo, hay que tener cuidado, ya que como afirma SemRush en su artículo, la etiqueta canónica es solo un consejo que se le da a Google, pero no una imposición.

2. ¿HTTP o HTTPS, www o no, barra final o no?

La etiqueta canónica representa apenas uno de los instrumentos disponibles.

No hace falta decir que la coherencia de las URL es fundamental.

  • Basta con tener en tu sitio dos versiones HTTP y HTTPS, ambas activas, con idéntico contenido y visibles en los motores de búsqueda para incurrir en la creación de contenido duplicado, aunque este último sea intencionado, como ocurre en la mayoría de los casos.

En el caso de una tienda online, el HTTPS debería ser la versión preferida presente en tu dominio: por un lado, asegura a los usuarios que su sitio es seguro, especialmente cuando hay información sensible que proporcionar y guardar, mientras que por otro lado, es la preferida de Google para poder posicionarlo mejor.

Al crear un dominio (WWW o sin WWW), es preferible que elijas cuál es tu preferido: esta decisión le indica al motor de búsqueda qué dominio escanear e indexar, lo que producirá mejores resultados.

Lo mismo puede hacerse con versiones con o sin barra final (trailing slash): la barra oblicua final al final de una URL indica que se trata de un directorio, mientras que una URL sin la barra final indica que se trata de un archivo específico. Aquí también es necesario elegir una versión de preferencia.

Para solucionar el problema de generación de contenido duplicado en los tres casos que acabamos de exponer, la solución más adecuada es la redirección permanente Redirect 301, es decir, redirigir la URL del contenido duplicado a la que hayamos decidido que es nuestra URL preferida para no perder el posicionamiento, el tráfico y el seguimiento de la antigua URL. Esto se puede hacer accediendo al archivo .htaccess:

Redirect 301 /bluetoothsmartwatch.it/ https://www.bluetoothsmartwatch.it/

Si quieres optar por una solución más inmediata y tienes tu sitio web en Wordpress, puedes usar el plugin [All In One Redirection] (https://wordpress.org/plugins/all-in-one-redirection/).

3. Atribución de la etiqueta Meta NOINDEX

Otra forma de avanzar cuando tienes dos páginas con contenido similar, como una página normal y su versión impresa, es insertar la página duplicada en el código fuente:

la etiqueta <meta> con el atributo robots="noindex"

para evitar que el robot motor (o crawler o spider) lo escanee.

4. Etiqueta HREFLANG para la gestión de sitios localizados

Cuando tenemos una web multilingüe y queremos llegar a usuarios que viven en diferentes países y hablan diferentes idiomas, no podemos evitar insertar en el código fuente los atributos hreflang y rel="alternate" para señalar al Googlebot que el mismo contenido está traducido y dirigido a diferentes zonas geográficas e idiomas y por tanto, no está duplicado.

Por ejemplo, las diferentes versiones (en inglés para el Reino Unido y en alemán para Alemania) de nuestro reloj inteligente y tienda online tendrán las siguientes cadenas en sus respectivas secciones<head>:

<link rel="alternate" hreflang="en-gb" href="https://www.bluetoothsmartwatch.co.uk/"\> <link rel="alternate" hreflang="de-de" href="https://www.bluetoothsmartwatch.de/"\>

Presta atención a dos aspectos importantes a la hora de utilizar el atributo HREFLANG:

  1. los códigos de idioma deben expresarse necesariamente en el formato ISO 639-1 y los códigos de área en el formato ISO 3166-1 Alpha 2.
    Es importante recordar que puede especificar el idioma sin especificar el país, pero no puedes hacer lo contrario: Google no deduce automáticamente el idioma exacto del código de país introducido. Además, el código de país siempre sigue al código de idioma;

  2. los enlaces de retorno deben estar siempre presentes: una vez insertado el atributo, si la página A se refiere a la página B, la página B también debe referirse a la página A, de lo contrario el informe HREFLANG podría ser ignorado o malinterpretado por el motor de búsqueda.

Antes de llegar a las conclusiones, te dejamos algunas herramientas que puedes utilizar de forma combinada para encontrar cualquier contenido duplicado:

  • un método sencillo es introducir una porción entera de texto en la barra de búsqueda de Google, en lugar de la palabra clave o el grupo de palabras clave habituales,
  • Copyscape,
  • la función Compare de Copyscape, que compara dos URLs,
  • Siteliner, una herramienta gratuita que permite encontrar contenido duplicado dentro de una web con solo introducir la URL.

Conclusiones

  • Abrirse a los mercados extranjeros a través de una web multilingüe es una elección que implica una localización y una redacción de los contenidos estratégicas y bien estudiadas para evitar incurrir en la creación, consciente o no, de contenidos duplicados.
  • Hay que prestar atención no solo al proceso de traducción de contenidos, sino también a otros elementos más técnicos que provocan que tu web multilingüe no se indexe correctamente desde el punto de vista del SEO.
  • Ofrecer una buena experiencia de usuario consiste en presentar una mezcla de aspectos lingüísticos y técnicos que a la que hay que prestar mucha atención si gestionamos una tienda o negocio online.

Glosario

anchor text
o texto ancla, es el texto legible del enlace que apunta a otra página web.
backlinks
los enlaces de retorno de otras páginas web que apuntan a la tuya, aumentando así tu autoridad dentro del campo.
conversión
el comportamiento o la reacción de un usuario inducido a realizar una acción deseada por el gestor de la página web, por ejemplo, la compra de un producto o la suscripción a un boletín informativo.
Google Panda
el algoritmo de filtrado de Google que se interesa por la calidad de los contenidos y penaliza aquellos que son poco informativos, escasos o superficiales. En Europa fue lanzado en abril de 2011 y se actualiza continuamente. Se actualizó por última vez en julio de 2015.
lead
potencial contacto o comprador interesado en el producto y/o servicio vendido en una página web.
SERP (Search Engine Results Page)
las páginas de resultados generadas por una solicitud de un usuario cliente mediante la introducción de una o varias palabras clave.

Para profundizar más

Si necesitas un traductor para tu página web multilingüe, contacta con nosotros sin compromiso

Traductora, diseñadora UX, redactora de contenidos. Está graduada en Lenguas y cuenta con un máster en Localización y Nuevas Tecnologías. Colabora con Qabiria desde 2018.

Leer también

Habla con nosotros

Cuéntanos qué necesitas enviándonos un correo electrónico a hola@qabiria.com o mediante el formulario de contacto. Tendrás una respuesta garantizada en 24 horas, pero habitualmente mucho antes.

Contacta con nosotros