Duplicate content

Home   »   Duplicate content

Duplicate content

Spreken we over duplicate content, dan hebben we het over content dat (sterk) overeenkomt met content elders op jouw of andere websites. Duplicate content voegt voor je gebruikers niet alleen niks toe, het zorgt ook voor interne concurrentie. Het gevolg: slechtere SEO performance. In deze blog leg ik uit wat duplicate content is, hoe je het kan detecteren en oplossen zodat je een optimaal SEO resultaat bereikt.

Wat is duplicate content?

Duplicate content kan in verschillende vormen voor komen. Denk hierbij aan:
• Gekopieerde content van andere websites
• Content van jouw website dat gedistribueerd is via andere verkoopplatformen zoals bol.com of amazone
• Dezelfde title tags en meta descriptions op meerdere pagina’s gebruikt
• Verschillende urls die dezelfde content laten zien (vaak veroorzaakt door url parameters)

Later in deze blog ga ik dieper in op de verschillende vormen van duplicate content en geef ik hier een aantal oplossingen voor.

60 procent van het internet is duplicate content
Google: 60% van het internet is duplicate content

Duplicate content en de gevolgen voor SEO

• Interne concurrentie waardoor je positie binnen de zoekresultaten verslechtert
• Minder effectieve linkbuilding. Verschillende pagina’s over hetzelfde onderwerp ontvangen links die je het liefst aan een pagina zou toekennen zodat hij potentiel beter rankt
• Verlies van crawl budget. Google heeft maar beperkt de tijd voor jouw website en zal niet je hele website elke dag opnieuw uitlezen. Handig om dit budget (ook wel crawl budget genoemd) optimaal in te zetten voor de pagina’s die je aan Google wil laten zien.

Duplicate content kan je SEO prestaties dus enorm beïnvloeden. Heb je er last van? Keer de medaille om en zie het als een enorme kans om het bereik van je website te vergroten.

Krijg je een “penalty” van Google?

Heel wat mensen denken nog steeds dat duplicate content een penalty is van Google. Het gaat hier eigenlijk om onvoldoende focus. Wanneer de zoekmachine twijfelt over welke pagina te tonen zal die ze beide
(afwisselend) tonen op een lagere positie. Hierdoor lijkt het dat je content wordt afgestraft. Dit staat uiteraard los van technische items die (exacte) duplicate
content veroorzaken.

De perfecte middelen om dit op te lossen zijn canonical tag, interne links en in sommige gevallen het herschrijven of samenvoegen van content.


Duplicate content tool

Er zijn verschillende manieren om duplicate content op te sporen. De meest eenvoudige manier is om een tool te zoeken die duplicate content detecteert. Vaak kom je dan terecht bij een webcrawler. Naast het gebruik van een webcrawler, is het handig om je website te monitoren met een SEO alert tool. Dit omdat duplicate content ten aller tijde kan ontstaan (ook na je audit). Als laatst adviseer ik je om duidelijke afspraken te maken met je content- en webdev. team. Zorg dat zij begrijpen wat duplicate content is, wat de impact is en hoe je het kan voorkomen. Het is belangrijk dat jij ze verrijkt met de kennis en tools die ze nodig hebben om met 20% van jouw tijd, 80% resultaat te boeken.

Is het wel echt duplicate content?

Soms twijfel je of een pagina wordt gezien als duplicate content (en dat is logisch). Jouw twijfel, kan verschillende oorzaken hebben. Mijn vuistregel is: Doe wat het beste is voor de bezoeker en probeer verkeerde signalen naar de zoekmachine te voorkomen. Soms kan het gewoon niet anders dat je iets dubbel op je website plaatst. Om zoekmachines te vreden te houden, probeer ik niet meer dan 30% “duplicate” te laten zijn. Twijfel je? Gebruik je gezonde verstand of kijk of er een SEO tools is die je hierin kan ondersteunen.

Tip: In de laatste update van Screamingfrog, werd het tabje: “near duplicates” toegevoegd. In dit tabje, kan je het percentage zien dat overeenkomt met een pagina elders op je website. Gelukkig ben ik “veilig” door de test gekomen 😉

near duplicates screamingfrog
Near duplicates sectie in Screamingfrog

Hoe los je duplicate content op?

Tijdens een audit of een SEO optimalisatie proces, is het altijd handig om te kijken of je website duplicate content bevat. Los je dit op, dan zie je vaak een grote prestatie verbetering in de zoekmachines. Je hebt duplicate content in verschillende vormen en maten. Hieronder zet ik uiteen welke duplicate content -vormen er bestaan, hoe je het kan detecteren en (het meest belangrijk) hoe je het oplost.

Duplicate home page

Het kan zijn dat er meerdere versies van je homepage geïndexeerd zijn in google, bijvoorbeeld: index.html, index.php en de directe url naar je homepage.

Te controleren door:
Maak gebruik van de search operators in Google. Opties zouden zijn:

site:naamvandewebsite.nl intitle:de title tag van je homepage

Voorbeeld: site: https://www.seobrein.nl intitle: YellowBlueMarketing – Alles over SEO optimalisatie. Er vanuit gaand dat mijn title tags uniek zijn, zou je potentiel duplicate urls in Google kunnen ontdekken.

Alternatieven:

site:naamvandewebsite.nl inurl:html OR inurl:php OR inurl:asp

site:naamvandewebsite.nl filetype:html OR filetype:php OR filetype:asp

Zorg ervoor dat er maar één homepage in de index verschijnt. Je kan dit oplossen met het redirecten van bijvoorbeeld de .php pagina naar de gewenste homepage url van je website.

Dezelfde (product) content op meerdere websites

Heb je een webshop en exporteer je je content naar bijvoorbeeld bol.com of een affiliate netwerk? Zorg er dan voor dat de tekst uniek is. Anders ga je concurreren met je eigen marketingkanalen.

Te controleren met de volgende search operator:

-site:naamvandewebsite.nl “stukje tekst van de website”

Of met de tool: Copyscape.

Wanneer er meerdere website urls in Google verschijnen met dezelfde tekst, is er werk aan de winkel. Je kan dit oplossen door unieke content per product te schrijven en niet klakkeloos de tekst over te nemen van de leverancier. Zijn er veel pagina’s met duplicate content? Prioritiseer dan op basis van het verkeer wat je per pagina ontvangt.

Content gestolen?

Dat frustreert! Naast dat het onrechtvaardig voelt, is het ook voor je SEO prestaties van belang om dit op te lossen. Zoals in de vorige paragraaf aangegeven, controleer ik dit met een search operator of een betaalde tool genaamd Copyscape. Ontdek ik dat content gestolen is, dan onderneem ik de volgende acties:

• Stuur een vriendelijk e-mailtje naar de website en wijs de eigenaar er op dat dit niet fijn is en het ook niet mag.
• Lost dit niks op? Stuur dan een verzoek in bij Google om de pagina te verwijderen uit de index.
• Ben je echt boos? Neem dan contact op met je juridische adviseur. Vaak valt er een leuk zakcentje te verdienen aan duplicate content.

Tip: Om scrapers voor te zijn, kan je op elke pagina een zelf verwijzende canonical tag plaatsen. Een scraper kan deze niet verwijderen. Daardoor gaat de autoriteit altijd naar jouw unieke pagina toe.

Parameters in je URL

Bevat je website: Faceted navigation, oftewel filters die in je productoverzicht aan te klikken zijn? Tijd om te kijken hoe je dit SEO vriendelijk kan maken. De parameters in de urls zijn namelijk ook zichtbaar voor zoekmachines en veroorzaken duplicate content.

Vaak zie je deze vorm van duplicate content bij een e-commerce website of paginas waar de mogelijkheid bestaat om resultaten te filteren.

Voorbeelden van parameters in je url:

?prijs=
?kleur=
?maat=

Je kan geïndexeerde filters controleren met een search operator. Heb jij bijvoorbeeld de volgende parameter in je url: ?prijs=, vul dan in google de volgende search operator in:

site:www.naamvandewebsite.nl inurl:prijs=

Wil je de zoekmachines voor zijn? Maak dan gebruik van een webcrawler. Crawl je website en bekijk of er parameters in de html documenten voorkomen.

Duplicate content detecteren in Screamingfrog (seo tool)
Screaming frog duplicate content sectie

Oplossing: heb je last van parameters? Zorg er dan voor dat er een canonical tag staat van de parameter url naar de originele url. Zijn de juiste pagina’s geïndexeerd en wil je crawlbudget besparen? Blokkeer dan de parameters in Robots.txt.

UTM tags in je interne linkstructuur

Ik zie af en toe een utm tag op een interne link voorkomen. Niet doen! Wil je kliks meten op basis van interne links, maak dan gebruik van bijvoorbeeld event tracking via Google tag manager.

Je kan je interne links controleren op utm tags door een crawl te maken van je website en de interne links te filteren door middel van de volgende reguliere expressie:

(\?|\&)([^=\n]+)\=([^&\n]+)

Niet bekend met reguliere expressies? Volg dan deze minicursus.

Oplossing: de utm tags van je interne links verwijderen.

Consistent met url gebruik

Een url kan op meerdere manieren bereikt worden. Bijvoorbeeld:
• via http of via https
• met of zonder trailing slash op het einde
• Met en zonder www

Om te controleren of dit goed gaat, dien je twee dingen te doen: check of er verkeerde urls in de interne links staan en check of alle varianten naar een versie geredirect worden.

Je kan deze varianten detecteren door met een webcrawler een crawl te maken van de website en de interne links te filteren op:

Urls die HTTP gebruiken (terwijl het https moet zijn)

https:\/

Urls die eindigen met een trailing slash (terwijl het zonder hoort te zijn)

w{3}\.

Verder is het belangrijk dat één versie beschikbaar wordt. Stel je wilt de urls als volgt indexeren: https://www.jouwwebsite.nl/blog zorg er dan voor dat de niet www-versie redirect naar de www-versie, de url die eindigt met een trailing slash, redirect naar de ulr zonder trailing slash en de http-variant redirect naar de https-variant.

Terugkerende teksten

Je ziet het vaak gebeuren, algemene voorwaarden die op elke pagina worden geplaatst of boilerplates die keer op keer hetzelfde zijn (een boilerplate is een stuk tekst dat onderaan een categorie pagina met een kleine aanpassing hergebruikt wordt).

Je kan dit detecteren door een search operator te gebruiken. Kopieer de tekst van bijvoorbeeld de algemene voorwaarden die op elke pagina terugkomt en vul het volgende in Google in:

site:jouwwebsite.nl “de algemene voorwaarde die elke keer terugkeert”

Oplossing:
Algemene voorwaarden op elke pagina elimineren. Plaats bijvoorbeeld een link naar één pagina.
Boilerplates elimineren. Maak voor elke categorie pagina een unieke tekst.

Geindexeerde staggin of development site

Heb je een testomgeving waar je soms het een en ander in uitprobeert voordat je het live zet? Goed idee ;-)! Zorg alleen dat het niet geïndexeerd wordt door google!

Je kan dit detecteren door door de volgende search operator in Google te gebruiken:

inurl: https://stagin inurl:jouwwebsitenaam

Kom je staggin urls of urls van een development tegen in google? Plaats dan een no index robots meta tag op je development omgeving. Ulrs uit de index? Zorg er dan voor dat je staggin gedeelte alleen beschikbaar is via bijvoorbeeld een wachtwoord. Google kan er dan namelijk niet bij. Scheelt je ook weer crawlbudget. 

Duplicates in Title tag, meta description en Heading tags

Het is belangrijk dat je title tag, meta description en heading tags ook uniek zijn. Je kan dit controleren met een webcrawler. De meeste crawling tools hebben hier een aparte sectie voor. 

Duplicate title tag en meta description gepresenteerd in een webcrawler

Je lost dit op door voor elke pagina een unieke title tag, meta description en heading structuur op te zetten.

Let op: Dit hoeft niet bij een pagina waar een canonical tag naar een andere pagina staat.

Categorie pagina’s

Heb jij een wordpress website of een andere CMS waarbij het mogelijk is om categorieën en tags (ook wel taxonomie genoemd) aan een artikel of product toe te voegen? Dan is het belangrijk om te controleren of de categoriepagina’s unieke content bevatten. Elke categorie pagina dient namelijk uniek te zijn. Vaak worden producten of artikelen onder meerdere categorieën geschaard. Iets waardoor de categoriepagina’s steeds meer ‘duplicate content bevatten’.

Je kan dit detecteren door je categorie pagina’s te extraheren d.m.v. Xpath in een webcrawler.

Oplossing: Zorg dat de belangrijkste categorie geïndexeerd wordt d.m.v. een canonical tag.

Duplicates in Afbeeldingen

Het is belangrijk dat elke afbeelding maar een keer in je website staat en dat ook elke alt tag uniek is. Met de meeste webcrawlers kan je dit controleren in een aparte sectie. 

Lokalisatie

Heb je een website in meerdere talen, of dezelfde taal die beschikbaar is voor meerdere regio’s? Zorg er dan voor dat je Google de juiste signalen geeft voor welke taal/land regio deze website bedoelt is. Je kan dit doen met een hreflang attribuut .

Let op: Deze attribuut is een suggestie, geen eis. Google bepaald uiteindelijk of dit overgenomen wordt.

SEO-fouten voorkomen?

SEO-checklist
Controleer je optimalisatie-stappen met mijn gratis SEO-checklist. Zo voorkom je fouten in Google en Bing.
Download SEO-checklist
Deze bedrijven gingen je voor:
Logo Booking.com
Logo Adidas
Logo Randstad
SEO-checklist
Download SEO-checklist
Deze bedrijven gingen je voor:
Logo Booking.com
Logo Adidas
Logo Randstad
SEO Mastermind SEO-vraag? Stel hem hier