Duplicate content (Webdevelopment)

Wanneer een site veel pagina's bevat die relatief weinig inhoud bevatten en daardoor heel erg op elkaar lijken, noemen we dit duplicate content. Hierdoor loopt men het risico in het duplicate content filter van Google terecht te komen waardoor niet alle pagina's meetellen in de ranking. Daarom is het belangrijk dat elke pagina unieke content bevat.

Ook wanneer er bijvoorbeeld nieuwsartikelen van andere website 1-op-1 overgenomen worden op de eigen website loopt men het risico dat deze extra pagina's gefilterd worden. Daarom adviseren we altijd om artikelen te herschrijven en een bronvermelding te plaatsen.

Oorsprong Duplicate content filter


In het begin van de zoekmachines kon het soms gebeuren dat een en dezelfde pagina met een ander adres meerdere keren in de top 10 terecht kwam. Dat gebeurde in de volgende situaties extra vaak:


1. Affiliate content zoals van Amazon.com

Een van de grootste voorbeelden was de content van Amazon.com. Als affiliate mag je de boekrecensies van Amazon.com overnemen op je eigen site. Dit gebeurde op zeer grote schaal aangezien Amazon.com meer dan een miljoen affiliates heeft. Zo kan het gebeuren dat de omschrijving van Amazon.com van het boek "Harry Potter, Order of the Phoenix" tot wel 100.000 keer gekopieerd wordt en de volledige top 10 vult op het trefwoord "Harry Potter, Order of the Phoenix". Door te bepalen dat Amazon.com de originele eigenaar van de content is kunnen de zoekmachines de overige 99,999 pagina's filteren om zo de top 10 diverser te maken.


2. Gekopieerde nieuwsberichten zoals persberichten

Nieuws wordt veelvuldig gekopieerd en bij persberichten is dit nog een stap extra vaak het geval. Wanneer nieuws speelt wil je niet dat de gehele top 10 op bijvoorbeeld "Lancering Gmail Mobile" hetzelfde artikel toont. De zoekmachines proberen dan te filteren om zo een divers mogelijke top 10 te krijgen.


3. Gekopieerde pagina's voor
zoekmachine optimalisatie / zoekmachine spam

Sommige webmasters willen zo snel als mogelijk en met zo min mogelijk inspanning veel bezoekers trekken. Om te scoren in de zoekmachines heb je content nodig en kopieeren is de snelste manier om content te verkrijgen. Door te bepalen welke content de originele is probeert de zoekmachine de spammer te filteren.


Hoe herkennen zoekmachines dubbele content?


Zoekmachines zijn inmiddels zeer intelligent in het herkennen van dubbele content. Ze gebruiken verschillende strategieen om te filteren en te analyseren.


1. Berekenen door te tellen

Zoekmachines kunnen dubbele content bijvoorbeeld berekenen. Zo kunnen ze het aantal woorden in een alinea tellen evenals het aantal karaktes in een alinea. Wanneer het cijfer dat hier uit rolt hetzelfde is als op een andere pagina dan is er de kans dat de pagina hetzelfde is.


2. Alinea's analiseren

Zoekmachines kunnen tegenwoordig op alinea niveau dubbele content analyseren. Heb je een alinea gekopieerd? Google herkent het! Daarom is het belangrijk om bij quotes zoveel mogelijk eigen content er omheen te schrijven zodat de verhouding dubbele content / eigen content op een pagina zo veel mogelijk richting eigen content gaat.


3. Inhoud van een alinea


Zoekmachines zijn inmiddels zo intelligent dat ze de inhoud kunnen analyseren en zo op basis van die inhoud verbanden kunnen leggen tussen pagina's. Het beste voorbeeld hiervan is de werking van Google News. Google nieuws analiseert artikelen en koppelt gelijkwaardige artikelen. Als er veel dezelfde artikelen verschijnen zal het waarschijnlijk een belangrijk onderwerp zijn en verschijnt het op de beginpagina van Google News.

Deze techniek kan ook gebruikt worden om te bepalen of een pagina hetzelfde is.

Een voorbeeld:

Kartel onderzoek Google overname DoubleClick?

Google is in moeilijk vaarwater terecht gekomen na de start
van een vooronderzoek door de Amerikaanse Federal
Trade Commission (FTC) naar de overname van DoubleClick
door Google. Door de overname ter waarde van 2,3 miljard euro
zou Google een te grote macht krijgen.

Dit artikel gaat over de volgende woorden:

  • Kartel onderzoek
  • Google
  • DoubleClick
  • Amerikaanse Federal Trade Commission
  • FTC
  • 2,3 miljard

Door te zoeken naar alinea's waar deze woorden ook in voorkomen kan een zoekmachine verbanden leggen tussen content. Op deze manier kan bepaald worden of een artikel uniek is of niet. Uit de praktijk weten we dat in een eerste versie van een artikel de term "Federal Trade Commission" niet hadden staan. Daardoor werd niet herkend dat dit artikel gerelateerd was aan andere artikelen. Door dit woord toe te voegen kregen we het voor elkaar wel gekoppeld te worden aan de andere artikelen.


Duplicate content filters, penalties & raters


Er zijn verschillende vormen van het uitsluiten van pagina's in Google. De meest voorkomende vorm is door filtering. In principe gebeurt dit op pagina niveau. Lijkt een pagina wel heel veel op een andere, dan kan de zoekmachine deze ene pagina filteren.

Bij sites die het heel erg bont maken kan de zoekmachine een complete directory filteren. Google heeft in het verleden aangegeven dit toe te passen op 3 niveaus:

  1. Pagina's
  2. Subdirectories van sites (jeroen.com/woordenboek, het woordenboek dan in zijn geheel filteren)
  3. Een geheel domein

Dat laatste kan gedaan worden als bijvoorbeeld meer dan 90% van de site gekopieerd is.

Zoekmachines kunnen ook handmatig penalties uitdelen voor gekopieerde sites. Dit gebeurt echter in zeer hoogst zeldzame gevallen, maar er zijn cases bekend. Zoekmachines zullen in eerste instantie proberen content automatisch te filteren.

Tot slot zijn er ook nog de zogenaamde "Google Raters". Dit zijn medewerkers van Google die een site bezoeken en er een waardering aan geven. Het moge duidelijk zijn dat een site met veel dubbele content een beduidend minder goede rating / beoordeling krijgt dan een site met veel unieke content.


Oorzaken onterechte duplicate content filtering


Er zijn een groot aantal mogelijkheden waardoor je jezelf in de problemen kunt brengen.


1. Dubbele plaatsing pagina's op een site door slechte URL rewriting

Sommige sites herschrijven de urls op hun site door bijvoorbeeld een Modrewrite. Een pagina is dan bijvoorbeeld toegankelijk via nu.nl/pageid=3426754 of via nu.nl/Google_grootste_zoekmachine. Door de pagina twee keer te laten indexeren kun je in de problemen komen met filters.

Dit is eenvoudig op te lossen door consequent de links in een site naar de juiste urls te plaatsen.


2 Dubbele plaatsing pagina's voor printing

Veel sites bieden een versimpelde versie van een pagina aan die beter geschikt is om op een printer uit te draaien. Deze pagina bevat exact dezelfde content als de oorspronkelijke pagina. Bij voorkeur worden deze pagina's door de eigenaar van een site uitgesloten van indexatie door het plaatsen van een robots metatag of door middel van de Robots.txt.


3. Meerdere domeinen met zelfde content


Zeer veel grotere partijen hebben meerdere domeinen in de lucht die allemaal de zelfde site bevatten. De voorkeur heeft het iedere site een andere content te geven en domeinen die geen toegevoegde waarde hebben te laten redirecten met een 301 redirect. Ook kun je de sites met kopieen uitsluiten van indexatie met de robots.txt. Zo voorkom je dat ze geindexeerd worden en je eventueel in de problemen brengen.


4. Te veel navigatie & automatisch gegenereerde content

Het dubbele content kan in sommige gevallen ook geactiveerd worden wanneer HTML pagina's erg veel navigatie bevatten. Wanneer bijvoorbeeld meer dan 70% van een pagina links zijn kan het zijn dat zoekmachines een pagina per abuis filteren.


5. Te korte pagina's

Wanneer je een site hebt met heel veel korte pagina's dan kan het soms een beter idee zijn deze korte pagina's samen te voegen waardoor je toch unieke content krijgt. De beste (maar ook het meest arbeidsintensieve) oplossing is de content op deze pagina's te vergroten.


Hoe bepaalt een zoekmachine de bron van dubbele content


Zoekmachines kunnen verschillende technieken toepassen om te bepalen wie de oorspronkelijke bron is van een stuk content.


1. Publicatie datum:

Google weet welke pagina het oudst is. Zeer waarschijnlijk is de oudste pagina de bron.


2. Pagerank:

Een hoger gewaardeerde site met hoge pagerank zal waarschijnlijk eerder unieke content genereren dan een laag gewaardeerde site. In de praktijk blijkt dat laag gewaardeerde sites eerder content overnemen.


3. Links naar een artikel

Indien veel gelijkwaardige artikelen verwijzingen / hyperlinks plaatsen naar een ander artikel dan is de kans groot dat het artikel waarnaar gelinkt wordt de bron is. Deze zal door de links een hogere ranking krijgen, maar ook herkend worden als de bron.


Content uniek maken


In de media is het over het algemeen genomen de gewoonte om over nieuws te schrijven waar andere partijen exact hetzelfde over te schrijven hebben. Ook zijn de bronnen zaak hetzelfde: ANP, Reuters, AP, AFP, et cetera. Dit zijn goede voorbeelden uit de praktijk van dubbele content waarbij redacties artikelen herschrijven.

Wanneer je voor een eigen site dubbele content wilt voorkomen kun je de volgende onderdelen aanpassen:

  1. Title tags herschrijven
  2. Inleidingen herschrijven
  3. Content herschrijven
  4. Meervoud / enkelvoud omwisselen
  5. Synoniemen gebruiken
  6. Zinsconstructies aan te passen (korter / langer maken)
  7. Teksten en zinnen van volgorde veranderen
  8. Hyperlinks toevoegen
  9. Lengte van een pagina laten verschillen
  10. Eigen content en bronnen toevoegen

Dit alles zorgt dat je in vrij korte tijd een artikel "uniek" kunt maken.

Wanneer je de mogelijkheid biedt dat andere sites je content over kunnen nemen, zorg er dan voor dat er in de content altijd een link staat naar de pagina op je eigen site. Zo kan de zoekmachine de bron van de content herkennen en loop je minder risico's.

Gerelateerde woorden

Meer over Duplicate content (externe links)

  • Official Google Webmaster Central Weblog - Artikel door een medewerker van Google over duplicate content: wat is het, wat vindt Google ervan en wat doe je eraan?
  • Copyscape.com - Deze website bevat een tool waarmee je per pagina kunt checken of de tekst op die pagina al elders op het web voorkomt om zodoende duplicate content te vermijden of op te lossen. Uiteraard geeft de tool alleen een globale indicatie.

Thema & categorieën