Contenuti duplicati: guida alla strategia di SEO multilingue

Contenuti duplicati: guida alla strategia di SEO multilingue Business vector created by pikisuperstar - www.freepik.com

Hai dei prodotti su un e-commerce, dei contenuti sul sito della tua attività o sul tuo blog e hai deciso di tradurli per rendere il tuo sito multilingue e per raggiungere un determinato mercato internazionale.

Improvvisamente, un dubbio ti assale: e se Google mi penalizzasse considerando i contenuti tradotti presenti sul mio sito contenuti duplicati?

Per chi ha fretta, la risposta è no: se hai un sito e ne hai tradotto il contenuto per diversi Paesi, il problema non dovrebbe sussistere.

Ma c’è un ma. E alcune cose da sapere per evitare di subire conseguenze in ottica SEO nel posizionamento del tuo sito multilingue a causa della presenza di possibili contenuti duplicati.

Che cosa sono i contenuti duplicati?

Immaginiamo che tu gestisca un e-commerce di smartwatch bluetooth e il tuo CMS (Content Management System) come Wordpress o Joomla ti consenta attraverso alcuni filtri di modificare l’ordine di visualizzazione dei prodotti.

Può succedere che, ogni volta che decidi il criterio di visualizzazione, venga modificato automaticamente anche l’URL corrispondente.Il risultato? Ti ritrovi ad avere pagine diverse, ognuna con il rispettivo URL, ma che, a livello contenutistico, sono molto simili se non fosse per la diversa distribuzione degli elementi. Pagine con contenuti duplicati.Secondo uno studio della Raven Tools condotto nel 2015, la criticità esiste. Lo studio stima che ben il 29% dei siti web scansionati da Googlebot (lo strumento automatico che scandaglia il web per indicizzarne il contenuto) presenti contenuti duplicati.

Quando creiamo un contenuto dobbiamo dunque preoccuparci di suggerire a Google quale pagina mostrare all’utente (e potenziale lead) affinché la visita si trasformi in conversione. Lo scopo di Google, infatti, consiste nel rendere l’esperienza di navigazione soddisfacente all’utente, evitando di sottoporre ai visitatori sempre gli stessi contenuti in un’unica richiesta di ricerca.

Ecco la definizione fornita dallo stesso Google:

i contenuti duplicati sono blocchi consistenti di testo identici o molto simili presenti su più pagine all’interno del tuo sito o su più URL differenti.

Sostanzialmente, si tratta di una questione di indicizzazione che, però, va saputa gestire.

Chiariamo un dubbio: un contenuto duplicato inconsapevolmente non ti penalizza ma nemmeno ti ottimizza.

Lo diciamo perché esistono alcune pratiche che Google ritiene ingannevoli: succede spesso che i gestori di e-commerce o di siti web pubblichino di proposito i contenuti duplicati tra i vari domini per monitorare il proprio posizionamento nei motori di ricerca e incrementare il traffico generato.

Bisogna fare attenzione perché in questi casi si incorre nella penalizzazione e nella possibile rimozione del sito dai risultati di ricerca.

Perché evitare i contenuti duplicati dal lato SEO

Come ci suggerisce Moz in questo articolo, è sempre consigliabile indicare al motore di ricerca quale versione del nostro sito indicizzare e posizionare per fargli anche capire se indirizzare le metriche relative ai link (autorevolezza, anchor text, analisi profilo link) a una sola pagina o se mantenerle separate tra più versioni.

Se non prestiamo la dovuta attenzione, la presenza di contenuti duplicati può tradursi in perdita di posizionamento e dispersione di autorevolezza. Significa che ogni sito web che rimanda al nostro tramite i backlink potrebbe ritrovarsi, suo malgrado, a dover scegliere quale duplicato mostrare.

Come intervenire sui contenuti esistenti sul nostro sito

A quali elementi del tuo sito multilingue devi prestare attenzione, per evitare di incorrere nella creazione di un contenuto duplicato?

1. La struttura degli URL

I domini rappresentano un fattore SEO potentissimo. I parametri URL (Uniform Resource Locator) sono i primi a spiccare nei report di Google Analytics in quanto a riferimento immediato ai contenuti, il primo posto in cui si ottimizzano i termini di ricerca e i primi che forniscono immediatamente un’idea di dove il contenuto si trovi all’interno dell’alberatura informativa.

Un URL con una buona struttura deve avere:

  • una struttura gerarchica: dominio/pagina-madre/pagina-figlia;
  • lettere minuscole;
  • le parole separate dal segno meno;
  • brevità, concisione, e assenza di spazi o caratteri non ASCII;
  • le keyword di ricerca ma non troppe, in modo da essere chiari sia agli utenti che ai motori di ricerca.

2. La traduzione dei contenuti

Oggi «il contenuto è il re», ma deve essere un «re» originale, autorevole e personalizzato.

Personalizzare il contenuto significa che gli utenti vogliono leggere contenuti localizzati per il loro mercato o, quantomeno, nella loro lingua.

Ogni versione tradotta non soltanto avrà bisogno di contenuti ben localizzati, cioè correttamente adattati al pubblico target, ma sarà anche necessario per ognuna sviluppare la mappatura del customer journey, uno studio specifico delle keyword, da cui scaturiranno un’architettura dei contenuti diversa, testi diversi e una diversa ottimizzazione degli elementi SEO.

Dicevamo, le traduzioni non sono contenuti duplicati, ma bisogna prestare attenzione al modo in cui si realizza. Se la traduzione viene eseguita con l’ausilio di un software, di strumenti webmaster o, persino, di Google Translate senza alcuna revisione, la qualità non sarà ineccepibile.

Le traduzioni eseguite dal computer (traduzione automatica) spesso non sono naturali, vengono identificate velocemente come prive di un taglio personale e persino classificate come spam.

Per evitare che ciò accada, la soluzione migliore è rivolgersi a un’agenzia di traduzione che possa contare su traduttori madrelingua professionisti per assicurare ai tuoi visitatori un’esperienza e una fruizione di contenuti migliori.

Per fare in modo che i visitatori trovino sempre contenuti diversi e aggiornati nelle diverse pagine che compongono il tuo sito, potresti rafforzare la tua SEO, variando le frasi e trovando nuove soluzioni anche nell’articolo che abbiamo scritto sulle keyword da usare nei titoli e nelle descrizioni che compaiono nella SERP.

Cattive pratiche che generano contenuti duplicati

1. Contenuti non tradotti sui domini localizzati

Immaginiamo che tu abbia creato più domini localizzati del tuo e-commerce di smartwatch per rivolgerti a più mercati internazionali, ad esempio .co.uk per il Regno Unito e uno .de per la Germania. Se non hai tradotto e localizzato i vari contenuti, il motore di ricerca li troverà duplicati su tutti i domini. E, nonostante Google sappia da dove stia digitando l’utente e sappia di dovergli mostrare la versione corretta in base al dominio e al suo Paese di riferimento, rischi che, senza il contenuto tradotto, Google possa fallire nel tentativo.

Dunque, la traduzione e la localizzazione professionale dei contenuti restano le chiavi d’accesso per offrire una buona esperienza utente e per dimostrare a Google di aver contestualizzato e rimodulato i contenuti che, in questo modo, risultano autentici.

2. Contenuti estratti da altri siti (content scraping)

L’algoritmo Panda di Google non ama lo scraping dei contenuti. I contenuti creati tramite il web scraping sono generati attraverso un processo automatizzato di estrazione dei dati da un sito web tramite programmi software, i quali riproducono la navigazione umana.

Questa pratica è attuata in genere proprio dagli e-commerce che vendono più versioni dello stesso prodotto e spesso riportano fedelmente le descrizioni dei prodotti prese da qualche altro sito online, in genere quello del produttore, senza effettuare nessuna aggiunta e/o modifica ai contenuti delle descrizioni.

contenuto duplicato

Anche in questo caso, un’agenzia di traduzione e localizzazione può occuparsi di questo servizio linguistico.

3. Contenuti ripubblicati su altri siti (content syndication)

Un’altra insidia è la ripubblicazione dei contenuti su altri siti che potrebbe creare contenuti duplicati.

Per ovviare a questo problema, chiedi al sito che sta diffondendo il tuo contenuto di creare un backlink al tuo sito con un anchor text appropriato.

In alternativa anche contrassegnare i contenuti ripubblicati con il tag link rel="canonical", di cui parleremo più avanti e che indica ai motori di ricerca quale URL della stessa versione considerare “canonico”, ossia principale; o l’uso del meta tag noindex, che spiegheremo nel paragrafo seguente, potrebbero fare al tuo caso.

In ogni caso, può essere interessante per te sapere che Google non considera duplicati i contenuti ripubblicati su LinkedIn o Medium.

Come correggere i contenuti duplicati

Quali soluzioni tecniche puoi adottare in una situazione di contenuto duplicato sul tuo sito multilingue?

1. Inserimento del tag rel="canonical" nel codice sorgente

La soluzione per chiarire la relazione tra pagine simili o molto simili tra loro ma con URL diversi e per gestire il fenomeno dei contenuti duplicati è l’attributo rel="canonical". L’URL canonico, utilissimo per il nostro e-commerce di smartwatch, indica a Google qual è la versione canonica (o principale) da tenere in considerazione: questo implica che verso questa versione andranno convogliati tutti i dati SEO generati anche dalle altre versioni duplicate e che proprio questa sarà quella da mostrare nelle SERP.

Una buona pratica SEO consiste nell’ inserire il tag link canonico nell’header del file HTML all’interno del tag <head> della versione principale: il tag link canonico può essere, infatti, autoreferenziale:

<html>
<head>
<link rel="canonical" href="https://www.bluetoothsmartwatch.it"/>
</head>
</html>

e, analogamente, va inserito allo stesso modo anche nel file HTML delle versioni duplicate.

Attenzione, però, perché come afferma SemRush nel suo articolo, il tag canonico è solo un consiglio che si dà a Google ma non un’imposizione.

2. HTTP o HTTPS, WWW o no, slash finale o no?

Il tag link canonico rappresenta solo uno degli strumenti disponibili nella tua cassetta degli attrezzi.

Inutile ricordare che la coerenza degli URL è fondamentale.

  • Basti pensare che è già sufficiente avere sul proprio sito due versioni HTTP e HTTPS, entrambe attive, con il contenuto identico e visibile sui motori di ricerca per incorrere nella creazione di un contenuto duplicato, senza che quest’ultimo fosse intenzionale, come accade nella maggioranza dei casi.

Nel caso dell’ecommerce, l’HTTPS dovrebbe essere la versione preferita presente nel tuo dominio: da una parte rassicura gli utenti che il tuo sito è sicuro, soprattutto nel momento in cui ci sono informazioni sensibili da fornire e salvare e, d’altra parte, Google la preferisce di gran lunga in modo da poterla posizionare meglio.

  • Quando crei un dominio (WWW o senza WWW), è preferibile che tu scelga il tuo preferito: questa decisione indica al motore di ricerca quale dominio scansionare e indicizzare, quale produce risultati migliori.
  • Un discorso analogo lo si può fare con le versioni con o senza slash finale (trailing slash): lo slash finale alla fine di un URL indica che si tratta di una directory, mentre un URL senza slash finale indica che si tratta di un file specifico. Anche qui è necessario scegliere la versione preferita.

Per risolvere il problema di generazione di contenuto duplicato nei tre casi appena esposti, la soluzione più appropriata è il reindirizzamento permanente Redirect 301, ossia reindirizzare l’URL del contenuto duplicato a quello che abbiamo deciso essere il nostro preferito per non perdere il posizionamento, il traffico e il tracciamento del vecchio URL. Questa operazione si può eseguire accedendo al file .htaccess:

Redirect 301 /bluetoothsmartwatch.it/ https://www.bluetoothsmartwatch.it/

3. Attribuzione del tag Meta NOINDEX

Un’altra via percorribile quando si hanno due pagine con contenuti simili, come ad esempio, una pagina regolare e la sua versione finalizzata alla stampa, sta nell’inserire all’interno del codice sorgente della pagina duplicata:

il tag <meta> con l’attributo robots="noindex"

per bloccare il robot del motore (o crawler o spider) dallo scansionarla.

4. Tag HREFLANG per la gestione di siti localizzati

Quando abbiamo un sito multilingue e vogliamo raggiungere utenti che vivono in Paesi diversi e parlano lingue diverse, non possiamo esimerci dall’inserire nel codice sorgente gli attributi hreflang e rel="alternate" per segnalare a Google che uno stesso contenuto è indirizzato a aree geografiche diverse e lingue diverse.

Ad esempio le diverse versioni (inglese per il Regno Unito e tedesca per la Germania) del nostro e-commerce di smartwatch presenteranno nelle rispettive sezioni <head>  le seguenti stringhe:

<link rel="alternate" hreflang="en-gb" href="https://www.bluetoothsmartwatch.co.uk/">
<link rel="alternate" hreflang="de-de" href="https://www.bluetoothsmartwatch.de/">

Presta attenzione a due aspetti importanti nell’utilizzo dell’attributo HREFLANG:

  1. i codici lingua devono essere necessariamente espressi nel formato ISO 639-1 e i codici area geografica, espressi nel formato ISO 3166-1 Alpha 2.
    È importante ricordare che puoi specificare la lingua senza specificare il Paese, ma non puoi fare il contrario: Google non deduce automaticamente la lingua esatta dal codice del Paese inserito. Inoltre, il codice del Paese segue sempre il codice della lingua;
  1. i link di ritorno devono sempre essere presenti: una volta inserito l’attributo, se la pagina A rimanda alla pagina B, anche la pagina B deve rimandare alla pagina A, altrimenti la segnalazione HREFLANG potrebbe essere ignorata o malinterpretata dal motore di ricerca.

Prima di giungere alle conclusioni, vi lasciamo alcuni strumenti da usare in combinazione per scovare eventuali contenuti duplicati:

  • un metodo semplice è inserire nella barra di ricerca di Google un’intera porzione di testo, anziché la solita keyword o gruppo di keyword;
  • Copyscape;
  • la funzione Compare di Copyscape, che mette a confronto due URL;
  • Siteliner, strumento gratuito che consente di trovare contenuti duplicati all’interno di un sito inserendo semplicemente l’URL.

Conclusioni

  • Aprirsi ai mercati esteri attraverso un sito multilingue è una scelta che coinvolge una localizzazione dei contenuti strategica e ben studiata per evitare di incorrere nella creazione, consapevole o meno, di contenuti duplicati.
  • Bisogna prestare attenzione non solo al processo di traduzione dei contenuti ma anche ad altri elementi più tecnici che concorrono a non indicizzare adeguatamente il tuo sito multilingue in ottica SEO.
  • Offrire un’esperienza utente valida è una commistione di aspetti linguistici e tecnici di cui essere consapevoli se gestiamo un e-commerce o abbiamo un business online.

Glossario

anchor text: o testo ancora, è il testo leggibile sul link che rimanda ad un altro sito web.

backlink: i link di ritorno da altri siti web che rimandano al tuo, incrementandone l’autorevolezza.

conversione: il comportamento o la reazione di un utente indotto a compiere un’azione desiderata dal gestore del sito web, ad es. acquisto prodotto, iscrizione alla newsletter.

Google Panda: algoritmo filtro di Google interessato alla qualità dei contenuti e penalizza quelli che sono poco informativi, scarni e superficiali. In Europa è stato rilasciato ad aprile 2011 e viene continuamente aggiornato. L’ultimo aggiornamento risale a luglio 2015.

lead: potenziale contatto o acquirente interessato al prodotto e/o servizio venduto sul sito web.

SERP (Search Engine Results Page): le pagine dei risultati generati da una richiesta dell’utente cliente attraverso l’immissione di una o più parole chiave.

Approfondimenti

Se ti serve un traduttore per il tuo sito multilingue, contattaci senza impegno

Filomena Capobianco

Traduttrice e localizzatrice.

Profilo LinkedIn 

Qabiria white logo

Crediamo nell’aumento della produttività attraverso l’uso creativo della tecnologia.

Siamo soci di:

logo di PIMEC

Ultime notizie

Contatti

Qabiria Studio SLNE
Carrer Lleida, 3 1-2
08912 Badalona
(Barcelona)
SPAGNA

+34 675 800 826

qabiria

Inviaci un messaggio

Ricevi la newsletter

Vuoi leggere gli articoli e le novità di Qabiria direttamente nella posta?