Le problème du contenu en double et comment le résoudre

Un problème que nous constatons sur presque tous les sites Web est le contenu en double. Les grands sites Web avec des centaines de pages y sont particulièrement exposés. Mais qu'est-ce qui peut être qualifié de contenu dupliqué? Pourquoi le double contenu pose-t-il des problèmes et comment pouvons-nous les éviter? Nous allons couvrir tout cela et plus dans cet article.

Quel est le contenu dupliqué?

Le contenu dupliqué correspond exactement à ce que vous pensez: deux ou plusieurs éléments de contenu identiques, la seule différence étant l'URL.

Google voit chaque URL comme une page séparée. Pour cette raison, les URL suivantes seraient des pages complètement différentes:

Page originale avec des chemises rouges: http://website.com/shirts/red
Même page, mais classée par prix: http://website.com/shirts/red?order=asc

Le problème ici est que nous visons essentiellement la même page avec le même contenu. La seule différence est que le contenu de la dernière URL est dans un ordre différent. Google voit cela comme un contenu en double.

Pourquoi le contenu en double est-il mauvais??

Dupliquer le contenu confond les moteurs de recherche. Pourquoi? Parce qu'ils ont du mal à décider quelle page est la plus pertinente pour une requête de recherche.

Les moteurs de recherche n’afficheront jamais deux éléments de contenu identiques dans les SERP. Ceci est fait pour assurer la plus haute qualité de recherche; voir le même contenu deux fois n'est pas très intéressant pour l'utilisateur.

Un autre problème est le pouvoir de classement des pages en double. Au lieu d'avoir une seule page avec beaucoup d'autorité, vous avez plusieurs pages avec des performances diluées et sous-optimales. Cela pourrait vous coûter beaucoup de trafic organique.

Comment le contenu dupliqué est créé

Dupliquer le contenu peut être créé délibérément ou par accident. Néanmoins, le résultat est le même.

Un exemple de contenu dupliqué délibéré est la version imprimée d'une page. C'est effectivement la même page avec le même contenu, donc quand cette version imprimée est indexée, il y a un problème avec le contenu en double.

Cependant, il existe de nombreuses situations dans lesquelles le contenu dupliqué est créé involontairement. Il peut y avoir plusieurs causes, telles que:

ID de session
Options de tri
Codes d'affiliation
Domaines
…

ID de session

Un identifiant de session est une variable, une chaîne de chiffres et / ou de lettres générés aléatoirement, qui permet de suivre les visiteurs. Ils sont souvent utilisés pour les caddies, par exemple:

http://website.com/?sessionid=5649612

Le problème avec les identifiants de session est évident: ils peuvent créer des centaines, voire des milliers de doublons. Stocker des identifiants de session dans des cookies peut résoudre ce problème, mais si vous comptez sur cette option, n'oubliez pas la loi européenne sur les cookies..

Options de tri

Quand les gens pensent aux options de tri, ils pensent généralement aux catalogues de produits de boutique en ligne, où les utilisateurs peuvent trier par prix, date, etc. Les fonctions de tri se retrouvent souvent aussi sur d'autres sites Web. L'URL suivante utilise une fonction de tri de blog typique:

http://website.com/category?sort=asc

L'URL avec l'option de tri et l'original sont essentiellement la même page. C'est le même contenu, seulement trié d'une manière différente.

Codes d'affiliation

Les codes d'affiliation apparaissent partout sur le Web. Ils sont utilisés pour identifier le référant, qui est à son tour récompensé pour avoir amené un nouveau visiteur. Un code d'affiliation peut ressembler à ceci, par exemple:

http://website.com/product?ref=name

Encore une fois, ce code peut créer un duplicata de la page d'origine.

Domaines

Même quelque chose d'aussi simple qu'un nom de domaine peut parfois être problématique. Jetez un coup d'œil aux URL suivantes:

http://website.com
http://www.website.com

Les moteurs de recherche ont parcouru un long chemin, mais parfois ils se trompent encore. Les deux URL pointent probablement sur la page d'accueil, mais comme elles ont un aspect différent, elles sont parfois considérées comme des pages différentes..

Comment identifier le contenu dupliqué

Nous avons parlé de la création de contenu en double, mais comment identifier les problèmes de contenu en double sur votre site?

Le moyen le plus simple de le faire est via Outils Google pour les webmasters. Connectez-vous à votre compte et accédez à Optimisation> Améliorations HTML. Ici vous trouverez une liste de titres en double (ce qui est probablement du contenu en double).

Outils Google pour les webmasters

Sinon, vous pouvez entrer le site: commande -search dans la barre d’URL pour rechercher des pages d’un domaine spécifique (par exemple, site: webdesign.tutsplus.com). Cette méthode est très utile si vous suspectez qu’une page donnée comporte plusieurs doublons. Utilisez la commande de site et collez quelques phrases de la page suspecte. Si vous recevez un message de Google disant "Pour vous montrer les résultats les plus pertinents, nous avons omis certaines entrées ...", vous avez probablement un contenu en double.

Enfin, vous pouvez aussi utiliser crawlers de site. Des logiciels tels que Xenu et Screaming Frog peuvent être utilisés pour rassembler les informations nécessaires. Analyser les titres de page dans le rapport d'analyse et rechercher les doublons.

Résoudre les problèmes de duplication de contenu

Comme dit le proverbe: «chaque maladie a un remède». Heureusement, il existe plusieurs moyens de remédier aux problèmes de contenu en double:

301 Redirect

Une redirection 301 est un moyen simple d'empêcher l'indexation d'un contenu en double. De cette façon, l'utilisateur et les moteurs de recherche sont redirigés du duplicata vers l'original. En conséquence, tout le jus de lien est envoyé à la page d'origine.

Une redirection 301 est implémentée sur les serveurs Apache en ajoutant des règles au fichier .htaccess de votre serveur. Gardez à l'esprit que cette méthode "supprime" la copie. Si vous ne voulez pas vous débarrasser des pages en double, utilisez la méthode suivante.

Rel = canonique

Il existe un autre moyen d'informer les moteurs de recherche du contenu en double. la rel = "canonique" étiquette. Ce morceau de code devrait être implémenté dans le d'une page web.

Supposons que nous avons la page B qui est une copie de la page A. Si nous voulons en informer les moteurs de recherche, nous placerions le code suivant dans le balisage de la page B:

Ce code indique que la page actuelle est en fait une copie de l'URL mentionnée ci-dessus. Une fois implémenté, la plupart des jus de liens seront transférés vers la page d'origine, améliorant ainsi le pouvoir de classement de cette page. Contrairement à la redirection 301, les pages dupliquées seront toujours accessibles.

Meta Robots Tag

Nous avons déjà discuté de la balise méta robots en détail lors d'un précédent tutoriel. En ajoutant une balise meta robots avec le paramètre «noindex», vous pouvez empêcher l'indexation de la page en double..

Réécriture d'URL

C'est une solution plus avancée. C'est plus difficile à mettre en œuvre si vous avez une compréhension limitée du code, mais cela peut être utile à plusieurs reprises..

Comme mentionné précédemment, le nom de domaine peut souvent causer des problèmes de contenu en double (version www vs non-www). Vous pouvez résoudre ce problème en ajoutant une règle de réécriture d'URL à votre fichier htaccess (autre chose que nous avons déjà traitée dans Webdesigntuts +). Choisissez votre domaine préféré (www ou non-www) et réécrivez automatiquement les URL dans le domaine spécifié..

Un autre problème dont nous avons parlé est l'utilisation de ID de session. La même URL avec un ID de session différent ajouté peut être considérée comme un contenu dupliqué. Une fois encore, le fichier htaccess peut être utilisé pour désactiver ces paramètres. Lire Désactiver les ID de session passés via l'URL par Constantin Bejenaru pour savoir comment faire cela..

Outils Google pour les webmasters

Dans la section précédente, nous avons parlé de la réécriture automatique des URL pour les noms de domaine. Pour ce faire, utilisez Google Webmaster Tools. Connectez-vous simplement à votre compte, allez à Configuration, cliquez sur Paramètres et configurez un domaine préféré.

Domaine préféré de Google Webmaster

Si vous utilisez paramètres d'URL dynamiques, vous pouvez dire à Google comment les gérer. De cette façon, vous pouvez déterminer quels paramètres doivent être ignorés. Cela peut souvent résoudre beaucoup de problèmes de contenu en double. Rendez-vous sur Google Outils pour les webmasters et accédez à Configuration> Paramètres URL. Vous trouverez plus d'informations sur le support Google, mais veillez à n'utiliser cette fonctionnalité que si vous connaissez le fonctionnement des paramètres. Sinon, vous risquez de bloquer des pages par inadvertance..

Ciblage linguistique

Ce problème est lié au contenu en double, mais il y a quelques différences.

Supposons qu'une entreprise qui vend des produits en Amérique du Nord a deux sites Web: company.us et company.ca. Le premier vise les États-Unis, le second le Canada. Sur les deux sites Web, nous trouvons un contenu similaire car les webmasters ne voulaient pas réécrire plusieurs pages de texte..

Il est possible que la version américaine surpasse la version canadienne (même sur Google.ca) car elle a plus d'autorité. Comment pouvons-nous résoudre ce problème de ciblage?

Il y a une solution simple: le rel = "alter" "hreflang =" x " annotation.

Si nous utilisons notre exemple précédent, nous devons ajouter le code suivant dans le section du domaine .us:

Sur le domaine .ca, nous devons placer ce code:

En substance, vous dites à Google qu'il existe une version alternative (ou une copie) dans une autre langue. L'attribut hreflang utilise ISO 639-1 pour identifier la langue. Vous pouvez éventuellement ajouter la région au format ISO 3166-1.

Remarques de clôture

Mieux vaut prévenir que guérir… Des liens internes cohérents peuvent empêcher la création de contenu en double. Si vous avez http://www.website.com comme domaine préféré, ne dirigez pas vos liens internes vers la version non www. Le même conseil s'applique aux liens entrants. Si vous créez un lien vers votre propre site depuis un autre domaine, utilisez une structure de lien cohérente..

Ne créez pas intentionnellement un contenu en double en copiant de gros morceaux de texte provenant d'autres sites Web. Google le découvrira probablement et les conséquences pourraient ne pas être aussi agréables:

Dans les rares cas où Google perçoit qu'un contenu en double peut être affiché avec l'intention de manipuler notre classement et de tromper nos utilisateurs… le classement du site peut en souffrir ou le site peut être entièrement supprimé de l'index de Google..

Conclusion

Le contenu en double est quelque chose que vous voyez sur presque tous les sites. Il peut avoir plusieurs causes, accidentelles ou autres.

Sauf si vous souhaitez empêcher l'accès à partir de la page via une redirection 301, il est préférable d'utiliser l'annotation rel = canonical. Alternativement, vous pouvez utiliser la balise meta robots ou la réécriture automatique des URL. Les outils pour les webmasters de Google offrent également des moyens d'éviter le contenu en double.

Enfin, il est préférable d’être cohérent dans vos liens. Les liens internes et les liens entrants doivent sembler identiques.

Création de sites web