La duplication de contenu est une problématique récurrente pour les rédacteurs web. Mais sait-on réellement ce que c’est et comment y remédier ?
Quels sont les différents types de « contenu dupliqué » ?
Le contenu intégralement dupliqué
Le contenu dupliqué peut apparaître sur votre site ou sur le site de quelqu’un d’autre. Dans les deux cas, l’intégralité du contenu d’une page peut être dupliqué. Cela signifie que votre contenu figure sur deux pages avec des URL distinctes. Cela provient soit d’un problème sur votre site soit d’une malveillance de la part d’un autre webmaster.
Le contenu partiellement dupliqué
Un deuxième cas de duplicate content partiel survient lorsqu’une partie du contenu est reprise. Cette fraction du contenu peut être visible, comme un paragraphe, un extrait de texte ou une image. Mais elle peut aussi faire partie du code, comme une balise meta description ou title. Dans ces cas là le problème se trouve sur votre site.
L’impact du duplicate content sur votre référencement
Google pénalise le duplicate content
Les moteurs de recherches et Google en particulier pénalisent le contenu dupliqué. C’est à dire qu’il ne lui accorde pas une bonne position dans les résultats de recherche. La popularité des pages dupliquées sera diluée. Si vous avez beaucoup de contenu dupliqué vous pourriez même être désindexé de ce moteur.
L’autorité de votre site mise en cause
De plus Google n’est pas capable de détecter qui est le vrai producteur du contenu si vous ne l’indiquez pas sur votre site. De fait, un site ayant plus d’autorité que le votre et qui reprend votre contenu sera valorisé alors que vos positions en souffriront.
Le leitmotiv de Google est « Content is king ». Cela signifie que, selon la firme de Montain View, le seul moyen d’être bien référencé est d’avoir un contenu unique et pertinent.
Comment se débarrasser du contenu dupliqué ?
Il existe diverses manières et outils pour lutter contre le duplicate content.
Eviter le contenu dupliqué sur votre site
Tout d’abord il vous faut trouver le duplicate content sur votre site. Pour cela vous pouvez utiliser Google Webmaster Tools, il vous indique quelles pages ou balises sont dupliquées.
La commande « site: » vous permet de chercher deux pages ayant le même contenu. Pour cela il vous suffit de taper : « site:www.monsite.com”le texte qui risque d’être dupliqué” » dans la recherche de Google.
Une fois que vous avez identifié ou se trouve la duplication vous pouvez mettre en place une balise <link rel=”canonical“ href=”url de la page originale”/>. Cette balise permet d’éviter la duplication aux yeux des moteurs. Ainsi toute la popularité sera reportée sur la page originale.
Pour plus d’informations sur comment lutter contre le contenu dupliqué sur votre site consulter le blog de Florian Karmen et de Sébastien Billard.
Empêcher les autres de copier votre contenu
L’agence Positeo propose un outil de vérification de duplicate content qui crawl le web à la recherche des sites ayant dupliqués votre contenu. Il existe d’autres services en ligne qui proposent la même fonction comme copyscape. Vous pouvez aussi tout simplement copier votre texte dans la barre de recherche Google et voir si il y a d’autres résultats que votre site.
Dans un article très complet sur le duplicate content, Sylvain Richard, de l’agence Axenet, nous explique comment agir contre les copieurs. Il faut savoir que tous les textes, images et vidéos présents sur le net sont soumis au droit d’auteur. Ce qui implique qu’on peut en faire une citation en informant le lecteur de la source. Nous allons résumer les actions que vous pouvez entreprendre contre les copieurs :
- Les contacter par mail ou téléphone et leur demander de retirer le contenu dupliqué
- Signaler la duplication à Google via ce formulaire
- Signaler la duplication à l’hébergeur du copieur
- Garder des preuves de plagiat grâce à des copies d’écran
- Intenter une action en justice pour plagiat via un avocat spécialisé dans le droit d’auteur
Nous espérons que ce billet vous sera utile dans la gestion de vos problèmes de duplication de contenu interne et externe. N’hésitez pas à nous faire part de vos expériences ou astuces en commentaire.
Très bon article !
Je rajouterais une chose dans les moyens de lutter contre le duplicate content, c’est le content spinning. Mais bon les logiciels pour le moment ne parviennent pas à être parfait (le problème du sens du texte qui souvent perd de sa qualité).
Il existe beaucoup d’outils pour vérifier que ses textes ne sont pas dupliqués, un des meilleurs que j’ai pu tester aujourd’hui c’est un script PHP développé par @aymerictwit. C’est un script que l’on peut faire tourner en local, en plus il dispose de nombreux fonctionnalités bien pratiques, je vous laisse découvrir ça : http://goo.gl/XRWkK
Nous avions déjà testé ce script et c’est vrai qu’il fonctionne à merveille ! 😉 Je ne l’ai pas mentionné car l’article s’adresse à des rédacteurs qui n’ont pas forcément de connaissance approfondies en php. Mais il est évident que je le recommande vivement.
Merci pour ce billet hyper instructif! Connaissez-vous un plugin WordPress pour facilement mettre en place la balise <link rel=”canonical“ …. ?
Oui, le plugin de référencement WordPress SEO by Yoast intègre cette fonctionnalité parmi de nombreuses autres.
Merci pour l’info Justin 🙂 , je vais tester ça!
Excellent article ! Bien que de nombreux sites, agences, référenceurs, rédacteurs web… relayent constamment cette information, il y a toujours beaucoup de monde qui l’ignore, pourtant le DC est vraiment nocif pour tous les sites web, même les plus anciens !
Vous dites à un moment dans votre article que Google ne peut savoir qui est le premier à avoir écrit l’original du texte. J’ai lu sur un autre site que Google était capable de dater chaque page que ses robots visitaient. De cette manière ne peut’il pas déduire qui a écrit en premier tel ou tel article ?
Salut,
Dans certains cas cependant, le contenu est délibérément dupliqué entre les domaines afin de manipuler le classement du site par les moteurs de recherche ou d’augmenter le trafic. Ce type de pratique trompeuse peut avoir des effets négatifs sur la navigation de l’internaute qui voit quasiment le même contenu se répéter dans un ensemble de résultats de recherche.