Le duplicate content (contenu dupliqué) est une pénalité appliqué par Google (et a priori par Yahoo) lorsqu’une page possède un contenu identique à une autre.
L’objectif initial est de réprimer la copie et le plagiat d’autres pages.
C’est aussi un moyen pour les moteurs de recherche d’éviter la pollution de leur index.
En effet, si votre site permet d’accéder au même contenu avec plusieurs URL différentes, un moteur n’a aucun intérêt à conserver les différentes versions. Si ce constat se reproduit avec un grand nombre de pages de votre site, c’est tout son classement qui pourra en pâtir.
Lorsqu’une page est identifiée comme copie d’une autre, elle n’apparaît plus dans la liste des résultats de recherche. Elle peut aussi être déclassée des dizaines ou centaines de pages plus loin que sa position normale, ou bien totalement disparaître de l’index..
On pourrait penser qu’il est aisé pour un moteur de connaître la date d’apparition de la page originale et de sa copie puisqu’il conserve les dates d’indexation.
Des tests ont toutefois pu démontrer que le site coupable pouvait être maintenu dans les résultats, et l’original disparaître. Le choix par le moteur se fonde plus sur l’autorité du site que sur la première date ou il a découvert l’une ou l’autre des versions du même contenu.
Les constats de duplicate content les plus fréquents portent sur des plagiats purs et simples (un bel exemple avec l’agence Workinc) ou très souvent sur une erreur de débutants qui consiste à faire pointer deux noms de domaines différents (ou plus) sur le même site. Le moteur considère alors que l’un des deux sites est une copie.