L’impact négatif du contenu dupliqué sur le SEO est l’une des premières leçons apprises par un webmarketeur. Depuis des années, les moteurs de recherchent cherchent à pénaliser le plagiat, le contenu trop souvent répété, et de manière générale à faible valeur ajoutée. Sauf que structurellement, certains sites restent très exposés. notamment les sites de ecommerce qui peuvent avoir différentes pages de produits plus ou moins similaires, ou plusieurs descriptions très proches de deux produits.
La chasse au contenu dupliqué reste donc l’une des tâches importantes du webmarketer. Pour l’identifier et le corriger efficacement, suivez le guide.
Cet article est inspiré de l’article de ContentKing sur le sujet.
Quel est l’impact des contenus dupliqués sur le SEO ?
Une abondance trop marquée de contenu dupliqué peut avoir un effet très négatif en termes de SEO. Les moteurs de recherches sont relativement cléments si votre contenu dupliqué ne dépasse pas les 5-10% du contenu total de votre site, mais vous risquez d’altérer vos performances SEO si vous dépassez la barre des 30%.
Pourquoi les contenus dupliqués sont pénalisant en SEO ?
Le contenu dupliqué est difficile à traiter pour les moteurs de recherche. Lorsqu’il existe plusieurs versions d’un même contenu, le moteur de recherche ne sait pas lequel il doit indexer, et pourquoi devrait-il préférer le contenu A plutôt que le contenu B, puisqu’ils sont relativement identiques ? Finalement, les contenus dupliqués entrent en conflit les uns avec les autres vis-à-vis des moteurs de recherches, ce qui a pour effet d’amoindrir les performances SEO de tous les contenus.
Prenons un exemple concret avec le « Page Authority » : Le Page Authority pourrait être traduit comme la force SEO d’une page donnée. Cette « force » est alimentée par 3 principaux facteurs : l’âge de la page, le nombre de liens pointant vers elle, et la date de sa dernière mise à jour. Si vous possédez plusieurs versions d’une même page, il y a fort à parier que certains liens pointent vers la page A, d’autre vers la page B, etc… De même, il se peut que vous ayez récemment mis à jour votre page A, alors que votre page B n’a pas bougé depuis longtemps. De fait, les moteurs de recherche vont diviser le Page Authority entre le contenu A et B, dans une sorte de moyenne un peu bancale. Au final, ni votre contenu A, ni votre contenu B, n’apparaitront en top des résultats de recherche.
Qu’en pensent les professionnels du SEO ?
On pourrait résumer l’avis des professionnels SEO par un seul mot : vigilance. Si le contenu dupliqué n’est pas, en soit, une source de pénalité sur Google (sauf si vous faites du plagiat d’un autre site, évidemment), Hamlet Batista de RankSense nous rappelle que le SEO passe avant tout par une bonne stratégie de link-building : si les liens qui pointent vers vous sont partagés entre plusieurs contenus dupliqués, vous risquez d’y perdre beaucoup. Bas Van den Beld de Speak with Persuasion pointe du doigt les stratégies de contenu des entreprises qui, trop souvent, ne font pas attention au contenu dupliqué. Pire, certaines entreprises ont tendance à faire volontairement du contenu dupliqué pour donner un peu plus de corps à leurs sites. Si, à ce stade, le contenu dupliqué peut faire peur, Patrick Stox de StoxSEO se veut plus rassurant. En effet, ce dernier estime que 25-30% du web est dupliqué, et met en avant les évolutions de l’algorithme de Google qui, selon lui, est aujourd’hui suffisamment intelligent pour trier et comprendre le contenu dupliqué. Google lui-même accrédite l’analyse de Patrick Stox, en assurant aux utilisateurs qu’ils n’ont pas à craindre une pénalité à cause des duplications, du moment qu’il n’y a aucune intention de plagiat ou de truquage des résultats de recherche.
Contenu dupliqué pour des raisons techniques
La plupart des contenus dupliqués sont dus à des problèmes de configurations de serveurs et de site internet. Lorsque que ces occurrences apparaissent pour des raisons techniques, Google ne vous pénalise pas, mais votre SEO peut en souffrir. Il est donc important d’identifier ces duplications pour les corriger.
Les duplications www / non-www & HTTP / HTTPS
Il est facile de dupliquer par trois ou quatre du contenu, simplement à cause de l’hébergement de votre site. Tous les liens ci-dessous pointent vers la même page, mais de manière différente :
Dans ce cas-là, il est important de spécifier votre méthode préférée pour accéder à votre domaine, en utilisant des URLs canoniques : on appelle cette procédure la canonisation des URLs. Ensuite, vous devez implanter des redirections 301 depuis les ULR non préférées, vers votre URL préférée. Ainsi, les moteurs de recherches comprennent quelle est votre version préférée, et se concentrent uniquement sur celle-ci pour calculer votre rang, renforçant ainsi votre SEO.
Les différentes structures de lien
Google est sensible aux différences majuscule/minuscule des liens, ce qui peut rapidement créer des contenus dupliqués. Par exemple, Google va considérer https://example.com/url-a/ et https://example.com/url-A/ comme deux liens différents, et va assimiler le contenu des pages à de la duplication. De la même manière, la barre oblique « / » peut être présente – ou pas – à la fin d’un lien vers une même page. Les moteurs de recherches peuvent considérer https://example.com/url-A/ et https://example.com/url-A comme deux liens différents.
La encore, définir un lien canonique vers votre page préférée, puis des redirections 301 depuis les contenus non-préférés vers la page principale, redorera le blason de votre SEO.
Les pages d’index
Si vous n’y prêtez pas attention, votre serveur peut d’office configurer plusieurs accès différents vers votre index, comme par exemple :
- https://www.example.com/index.html
- https://www.example.com/index.asp
- https://www.example.com/index.aspx
- https://www.example.com/index.php
De la même manière, vous pouvez configurer un URL canonique et faire des redirections 301 vers ce dernier. Soyez vigilant si vous utilisez l’un de ces liens, et qu’il pointe vers du contenu : il faudra aussi procéder à des redirections 301 dudit contenu, sinon vos utilisateurs pourraient ne plus avoir accès à ces derniers.
Paramètres de filtrage
Les paramètres de filtrages sont un outil majeur pour les utilisateurs, mais peuvent très rapidement devenir un enfer pour les moteurs de recherches, puisqu’ils peuvent générer des possibilités infinies de pages à crawler.
Un exemple d’URL filtré :
https://www.example.com/produits/teeshirt?couleur=blanc
Dans ce cas présent, l’utilisateur n’aura accès qu’aux tee-shirts blanc. Mais si on rajoute une taille à ce tee-shirt, on peut obtenir deux URLs pour un même produit :
https://www.example.com/produits/teeshirt?couleur=blanc&taille=s
https://www.example.com/produits/teeshirt?taille=s&couleur=blanc
Les liens peuvent ainsi se multiplier à un rythme très élevé, à mesure que vous rajouter des éléments de filtrages.
La encore, vous aurez besoin de configurer des URL canoniques pour valoriser au maximum votre SEO. Assurez-vous que toutes les options de filtrage d’un produit finissent par pointer vers une seule et même page.
Les URL canoniques ne dispenseront pas les moteurs de recherche de crawler tous les liens possibles. Heureusement, des outils comme la Google Search Console, ou Bing Webmaster Tools, vous proposent des options pour indiquer quoi faire aux moteurs de recherches.
Taxonomies
Les taxonomies sont des outils de groupement de contenu, utilisés par la plupart des CMS comme WordPress. Ils permettent, par exemple, de subdiviser les articles par tags, sujets, etc… Concrètement, un article de blog est très souvent accessible via différents liens, comme suit :
- https://www.example.com/categorie-a/sujet/
- https://www.example.com/categorie-b/sujet/
- https://www.example.com/categorie-c/sujet/
Assurez-vous de sélectionner une catégorie principale pour votre article, et de canoniser les autres URL vers le lien que vous préférez.
Pages dédiés aux images
Certains CMS peuvent créer des pages séparées pour les images. Cela ne fait que générer des pages quasiment vides, que les moteurs de recherches vont considérer comme contenu dupliqué. Dans ces cas-là, la meilleure solution est de désactiver cette option du CMS, si possible. Si votre CMS ne permet pas cette option, l’idéal est d’ajouter l’attribut « noindex » aux meta description des images. Cet attribut indique au moteur de recherche de ne pas indexer la page, et vous prévient donc d’une dégradation de votre SEO pour contenu dupliqué.
De bonnes images sont essentielles pour attirer l’attention de vos visiteurs, pour en apprendre plus :
Pages de commentaires
Si vous autorisez les commentaires sur certaines parties de votre site, sachez qu’ils peuvent rapidement poser des problèmes de contenu dupliqué. A partir d’un certain nombre de de commentaires, votre CMS peut créer différents liens pour que l’utilisateur puisse accéder à de nouveaux commentaires, sans changer le contenu de la page initiale. Imaginons par exemple qu’une page n’affiche d’office que 20 commentaires, cela pourrait donner le lien suivant :
https://www.example.com/categorie/sujet/
Que se passe-t-il si l’utilisateur souhaite voir l–es commentaires 21-40 ? Il est probable que votre CMS prépare d’office un nouveau lien qui affichera le contenu initial + les commentaires 21-40, ce qui se traduirait comme ci :
https://www.example.com/categorie/sujet/comments-1
Pour éviter les problèmes SEO du à ces duplications logiques, il faut utiliser les liens de pagination pour signaler aux moteurs de recherches qu’ils sont en train de crawler une série de page relatives à un seul et même contenu.
Localisation et langues
Lorsque votre site touche plusieurs publics à travers le monde, certains contenus peuvent facilement s’en retrouver dupliqué, surtout si vous touchez plusieurs pays aux langues similaires. Par exemple, vous pouvez avoir un site dédié au marché Français, puis un autre au marché Belge, ou Suisse. Google comprend facilement qu’il s’agit d’un même contenu dupliqué pour des raisons de localisation, mais si vous souhaitez maximiser votre SEO, il est tout de même conseillé de produire du contenu sensiblement différent, et personnalisé pour chaque localisation.
Résultats de recherche indexables
Beaucoup de sites utilisent des fonctions de recherche on-site. Les pages de résultats peuvent être très nombreuses, aux contenus largement similaires. La encore, la meilleure solution est d’utiliser les meta balises « noindex » sur vos pages de résultats. Soyez aussi vigilants, lorsque vous construisez vos liens, de ne pas les diriger vers des pages de résultats. Vous pouvez aussi vous servir du robots.txt pour indiquer aux moteurs de recherches de ne pas crawler indéfiniment des résultats de recherche.
Un bon balisage de vos métas description peut améliorer votre SEO, pour en savoir plus nous conseillons la lecture de :
Contenu en test
La plupart des CMS vous propose d’éditer du contenu et de le tester, avant de le publier publiquement. Il arrive régulièrement que ces contenus soient accessibles par les moteurs de recherches, voir même par les visiteurs de votre site. Non seulement ces contenus peuvent être considérés comme du contenu dupliqué, mais ils peuvent aussi être lisibles à des personnes qui ne devraient pas y avoir accès. La meilleure façon de vous prémunir de ces erreurs est d’utiliser un système d’authentification http. De manière générale, on vous conseille – si possible – de tester vos nouveaux contenus sur des systèmes privées, avant de les publier.
De la même manière, si vous écrivez pour un blog, soyez vigilants de ne pas les publier avant qu’ils soient terminés : un contenu non terminé n’apporte que peu ou proue de valeur ajoutée à votre site, et risque de détériorer votre SEO. Pensez bien à sauvegarder votre travail non terminé en « brouillon », ainsi les moteurs de recherches n’y auront pas accès, ni les visiteurs de votre site.
Paramètres de tracking et de session
Des paramètres spéciaux sont très souvent utilisés pour tracker les URL partagée. Par exemple, lorsque vous partagez un lien provenant de Twitter, un élément de sourçage est ajouté à l’URL initial. Cela peut provoquer des duplications importantes. Faites attention de ne partager que des URL canonisés, ainsi les différents URL provenant des partages aboutiront seront tous reliés à une seule et même page aux yeux des moteurs de recherche.
Les sessions utilisateurs peuvent générer de multiples URL, mais les contenus visiter par les utilisateurs restent les mêmes, ce qui provoque une nouvelle fois du contenu dupliqué. Comme nous l’avons vu à plusieurs reprises, le meilleur moyen reste de créer des url canoniques pour se prémunir de problèmes SEO à cause des différents liens générés par des paramètres d’analyse.
Version imprimable
Il arrive que certaines pages soient dupliquées, l’une dans une version « web », et l’autre dans une version imprimable. La encore il convient de canoniser la page imprimable vers la page classique.
Contenu dupliqué en raison de copie
Nous avons vu que la plupart des duplications de contenu proviennent de raisons techniques plus ou moins évidentes à identifier, mais certaines le sont aussi à cause de contenu littéralement copiés/collés. Voici les principaux cas à surveiller :
Landing pages des recherches sponsorisées
Lorsque vous utilisez les recherchés payées, notamment via Google AdWords, vous avez besoin de landing page spécifique en fonction des mots clefs pour lesquels vous payez. Ces landing pages sont souvent des copiés/collés des pages classiques, modifiées seulement de quelques mots, comme l’illustre l’image ci-dessous. Ces landings pages sponsorisées deviennent donc des sources de contenu dupliqué.
Dans ces cas-là, l’idéal est encore une fois de prévenir l’indexation des landings pages sponsorisées en utilisant l’attribut « noindex » dont nous avons déjà parlé ci-dessus. De manière générale, nous vous recommandons de ne pas créer de liens vers vos landing pages, et de ne pas non plus inclure ces dernières dans votre sitemap XML.
Les landings pages sont le point d’entré des visiteurs sur votre site. Afin d’optimiser vos landings pages, nous vous conseillons la lecture de :
D’autres sites copiant votre contenu
Les contenus dupliqués peuvent aussi provenir d’autres sites reprenant mots pour mots vos contenus. Cela peut poser problème surtout si votre Domain Authority est inférieur à celui du site qui vous a copié. En effet, les sites bénéficiant d’un Domain Authority fort ont tendance à être crawlé beaucoup plus souvent par les moteurs de recherches. De fait, il y a une bonne probabilité pour que le site copieur soit indexé avant l’auteur original du contenu. Dans ces cas-là, l’auteur original peut être injustement accusé de plagiat. Assurez-vous toujours que les sites qui copient votre contenu vous cite bien et pointe vers vous, en utilisant un URL canonique que vous aurez programmé au préalable.
Si vous êtes dans le cas où vous copiez le contenu d’un site tiers, n’oubliez pas de citer l’auteur original, puis de faire un lien vers son contenu via un URL canonique, ou en intégrant une balise meta robots « noindex ». Gardez à l’esprit que certains propriétaires de sites ne sont pas toujours heureux de vous voir vous approprier leur contenu. Nous vous recommandons alors de toujours demander la permission à l’auteur original, avant de publier sur votre site.
Si le site qui vous copie ne respecte pas ces règles, vous pouvez déposer une requête DMCA à Google, ou entreprendre une action légale pour atteinte au droit d’auteur.
Comment détecter les contenus dupliqués sur mon site ?
L’application ContentKing peut vous permettre de scanner rapidement votre site à la recherche de contenu dupliqué. ContentKing propose une version d’essai gratuite dans laquelle il est possible de vérifier vos meta descriptions, H1 et titres de pages. Si vous possédez un site assez petit, vous pouvez rechercher les contenus dupliqués manuellement, à l’aide de Google. Pour ce faire, il vous suffit de rechercher des expressions exactes entre guillemets. Ainsi, si Google affiche plusieurs liens pour une expression clef, cela signifie sans doute que les contenus de ces liens sont très similaires : à vous de vérifier si vous pouvez optimiser vos contenus, ou si vous êtes victime de plagiat. Enfin, Copyscape est aussi une solution efficace pour vous protéger du plagiat sur le web. Copyscape vous proposera quelques résultats dans sa version gratuite, mais vous devrez payer pour accéder à l’intégralité de la solution.
Conclusion
Les contenus dupliqués sont souvent dus à des mécanismes serveurs, ou à des automatisations de processus sur votre CMS. Si les moteurs de recherches ne vous pénaliseront pas lorsqu’un contenu est dupliqué mécaniquement, votre SEO risque tout de même d’en souffrir. C’est pourquoi il est fortement recommandé de veiller attentivement à la duplication de contenu, notamment via les solutions que nous avons décrites au long de cet article, et plus particulièrement grâce aux URL canoniques qui vous permettront de régler beaucoup de problèmes de duplication. En ce qui concerne le plagiat, il est interdit par la Loi, et fortement pénalisé par Google : si vous êtes un producteur de contenu, évitez autant que faire ce peu le copié/collé, et procédez à une veille régulière afin de vous assurer que vos contenus ne sont pas malicieusement repris par d’autres sites.
Si le sujet du plagiat et du duplicate content vous inétresse, je vous invite fortement à parcourir ces articles :
Félix Maroy a écrit
le :
Merci beaucoup pour cet article.
Je trouve l’outils ContentKing magnifique.
La Fabrique du net a écrit
le :
Nous sommes ravis que l’article vous plaise. ContentKing est en effet un outil très bien conçu et très utile pour améliorer votre référencement naturel.
Merci pour votre retour !