Le duplicate content, ou contenu dupliqué en français, est la bête noire des référenceurs. Dans leur quête du résultat le plus pertinent, les moteurs de recherche traquent le contenu de mauvaise qualité, notamment le contenu dupliqué, et sanctionnent sévèrement les coupables allant jusqu’à la désindexation de certains sites.
Qu’est ce que le duplicate content ?
On distingue deux types de contenu dupliqué : le contenu dupliqué interne et externe.
1. Le contenu dupliqué interne
On parle de duplicate content interne lorsque deux pages de votre site ont le même contenu ou bien quand deux URLs permettent d’accéder à la même page. Si votre site est accessible aux URLs http://site.com, http://site.com/index.php,https://www.site.com, on appellera cela une URL canonique.
Le duplicate content interne peut également surgir lorsqu’il y a un problème de configuration, un problème lié à l’indexation et au crawl des pages. Si deux pages ou plus ont la même balise et autres metadonnées similaires, cela pourra aussi être considéré comme du contenu dupliqué.
2. Le contenu dupliqué externe
Le plagiat
Le duplicate content externe est lui tout simplement du plagiat, une copie de votre contenu d’un autre site. Le plagiat est bien entendu interdit, d’après le code de la propriété intellectuelle, la reproduction partielle ou complète est considérée comme un délit.
Des sites permettent de détecter les copies en ligne, comme Copyscape, un outil de détection de contenu plagié. Google a également mis à disposition un formulaire en ligne, Scraper Report, permettant de dénoncer ce délit auquel il faut ajouter des preuves, notamment des captures d’écrans.
Cependant le contenu dupliqué externe est plus difficile à gérer car vous n’avez pas le contrôle sur ce qui a été copié et les moteurs de recherche ne sont pas toujours à la hauteur pour savoir qui est l’auteur original du texte en question.
La curation
La curation est une technique tout à fait approuvée. Elle permet de construire une communauté qualifiée et d’acquérir de la crédibilité sur son secteur d’activité. C’est une des briques essentielles pour un bon référencement, et cela n’est absolument pas considéré comme du spam ou du contenu dupliqué, mais vous devez simplement veiller à la mettre en oeuvre correctement.
Vous pouvez effectuer votre curation automatiquement avec des outils tels que Sociallymap, et ainsi personnaliser vos publications en rajoutant du contenu additionnel.
Si Google Panda juge votre contenu dupliqué ou ressemblant à du spam, il va alors désindexer vos pages au contenu identique pour n’afficher qu’un seul résultat pertinent dans son moteur de recherche. Autrement dit, si Google Panda se rend compte que vous avez de nombreux copié/collé sur votre site, il vous sanctionnera. Selon Matt Cutts, responsable de Google Web Spam, 25 à 30% du web est du contenu dupliqué et donc considéré comme du Spam par Google Panda.
Comment éviter le duplicate content ?
1. Supprimer du contenu dupliqué interne
Siteliner scanne votre site et vous indique votre pourcentage de contenu dupliqué interne. Cet outil peut aussi vous aider pour comprendre vos contenus et l’architecture de votre site.
Pour résoudre un problème d’URL canonique, il vous suffit d’appliquer la « Redirection 301 » en ajoutant quelques lignes en PHP sur vos pages qui en sont victimes :
Vous pouvez aussi effectuer la redirection dans le fichier .htaccess de votre site internet.
Enfin, si plusieurs pages ont la même balise et autres metadonnées similaires, vous devrez revoir chaque page une à une. Il est possible de détecter les pages à problème avec les outils de Google « Webmaster Tools ».
2. Supprimer du contenu dupliqué externe
La difficulté du contenu dupliqué externe est que vous n’avez pas toujours le contrôle dessus, mais vous devez l’éradiquer pour éviter d’être pénalisé par le négative SEO.
Si vous administrez plusieurs de vos sites, n’utilisez pas le même contenu pour les différents sites. La démarche du copié/collé peut être tentante lorsque vous devez produire de nombreux contenus pour différents sites, mais la manœuvre sera contre-productive.
Surveillez régulièrement vos statistiques dans Google Analytics : la première influence du duplicate content sur votre site internet est une baisse des vues et du référencement, pensez à les vérifier régulièrement.
Parfois reprendre le contenu d’un autre site est inévitable (les communiqués de presse ou citations par exemple), il faut savoir que Google autorise les pages citant une partie de contenu et citant ses sources, vous pouvez également ajouter un lien en dofollow.
Enfin, faites valoir vos droits d’auteur ! Faites un mail au créateur du site pour demander la suppression ou la non-indexation des contenus, ou bien faites appel à l’outil de plainte de Google afin de demander la suppression du contenu.
Leave a Reply