Robots meta tag
Als je aan de slag gaat met het optimaliseren van je website voor SEO, zal je niet ontkomen aan de Robots meta tag. De robots meta tag, ook wel de: index tag genoemd, is uitermate handig om de juiste signalen aan Google en andere zoekmachines door te geven. Op die manier zal je op termijn (hopelijk) beter gevonden worden.
In deze blog leg ik je uit wat robots meta tags zijn, hoe je hem het best kan implementeren en welke alternatieve er voor de robots meta tag bestaan. Er achter komen waarom de no-index tag een belangrijk instrument is voor jouw SEO strategie? Lees dan gauw verder.
De Robots Meta tag, ook wel de no index tag genoemd, is een manier om de zoekmachines aan te geven of je een pagina wel of niet wil indexeren en hoe je dat wilt doen. Een Robots Meta tag wordt vaak gebruikt om dubbele content te voorkomen of website gedeeltes die in ontwikkeling zijn nog niet te laten indexeren. Een zoekmachine zoals Google gaat er standaard vanuit dat ze jouw content mogen crawlen en indexeren. Met verschillende elementen van een Robots Meta tag, kun je dit beperken.
De robots meta tags, kan je verschillende instructies meegeven. Denk bijvoorbeeld aan: het niet indexeren en het niet volgen van de links op de desbetreffende pagina. Een robots meta tag begint altijd als volgt:
<meta name="robots" content="instructie 1, instructie 2"/>
In het voorbeeld hierboven, kan je bijvoorbeeld op de locatie van instructie 1 de volgende meta tags meegeven:
- Noindex: De zoekmachine mag de pagina niet indexeren in zijn zoekresultaten
- Nofollow: De zoekmachine mag de links op deze pagina niet volgen
- Follow: De zoekmachine mag de links op deze pagina volgen, dit om de link autoriteit te delen met de gelinkte pagina’s.
- None: Voegt de elementen noindex en nofollow samen
- Noarchive: Er mogen geen pagina’s gecached worden in de zoekresultaten van de zoekmachine
- Nosnippet: Er mogen geen fragmenten in de zoekresultaten weergeven worden voor deze pagina
- Notranslate: De zoekmachine mag geen vertaalde versie van de pagina weergeven in de zoekresultaten
- Noimageindex: De zoekmachine mag de afbeeldingen van de pagina niet indexeren.
- Unavailable_after [RFC-850 date/time] : De pagina mag v.a. datum x niet meer geïndexeerd worden in de zoekmachine.
- Indexifembedded: Met deze tag, kan je je content laten indexeren wanneer het in een Iframe of andere HTML tags staat. Zelfs als het een noindex tag heeft.
Goed om te weten: je kan zoveel instructies meegeven als je wilt. Voor de meeste blogpost van mijn website doe ik dit als volgt:
<meta name="robots" content="follow, index, max-snippet:-1, max-video-preview:-1, max-image-preview:large"/>
Wat is noindex?
De noindex tag, is een meta tag die er voor zorgt dat een pagina niet in de index wordt geplaatst. Wanneer ik op mijn website een pagina uit de index wil halen, doe ik dat als volgt:
<meta name="robots" content="noindex, nofollow"/>
Mits de pagina nog niet in de index van Google staat, sluit ik hem ook uit in mijn robots.txt bestand. Of een pagina in de index van Google staat, kan je in je indexdekking rapportage controleren.
Tip: Ik zie veel webdevelopers de robots meta no index tag laten staan, nadat ze een website of verbetering opleveren. Op die manier word je website niet zichtbaar in de zoekmachine.
Voorbeeld noindex tag
In de afbeelding hieronder, zie je een voorbeeld van een noindex tag. Als je de no index tag geplaatst hebt, kan je hem zelf ook terug vinden via de broncode van je pagina.
TIP: Ben je benieuwd hoe je een meta tag instelt in Wix? Bekijk dan mijn Wix SEO handleiding.
Indexifembedded – nieuwe robots tag
Vrijdag 21 januari, kondigde Google een nieuwe robots meta tag aan. Genaamd: Indexifembedded. Deze robots tag kan op verschillende momenten handig zijn:
- Je kan je content laten indexeren als het in een Iframe staat. Als voorbeeld:
<iframe src="https://www.seobrein.nl" title="yellowblue marketing seo"></iframe>
- Je kunt embeded content op een “3th party website” laten indexeren, terwijl je het op je eigen website niet wilt indexeren. Van belang is dat je de indexifembedded tag in combinatie met de noindex tag gebruikt.
<meta name="googlebot" value="noindex" />
<meta name="googlebot" value="indexifembedded" />
<!-- OR -->
<meta name="googlebot" value="noindex,indexifembedded" />
Als alternatief kan je het ook in je HTTP header toevoegen.
X-Robots-Tag: googlebot:noindex
X-Robots-Tag: googlebot:indexifembedded
...
OR
…
X-Robots-Tag: googlebot:noindex,indexifembedded
Robots meta tag controleren
Recent een no index tag geplaatst of ga je een SEO audit doen? Controleer dan de pagina’s die niet geïndexeerd kunnen worden door een robots meta tag. Controleer je robots meta tag op de volgende punten:
- Plaats de Robots Meta tag altijd in het <head> gedeelte van je website;
- Je kunt de Robots Meta tag met verschillende elementen combineren. Bijvoorbeeld:
<meta name=”robots” content=”noindex, nofollow”>
Vergeet bij het combineren van de elementen geen komma te gebruiken. Anders zal onder andere Google je Meta tag negeren;
- Als je een pagina voor een specifieke zoekmachine wil uitsluiten, gebruik je in plaats van ‘Robots’ , de naam van de specifieke robot. Als voorbeeld:
<meta name= “googlebot” content =”noindex, nofollow”>
- Het maakt niet uit of je de elementen in hoofdletters of kleine letters schrijft.
- Als je een pagina blokkeert in de robots.txt, heeft het geen zin om een no index te plaatsen op een pagina. Doordat je de zoekmachine blokkeert om je website te laten crawlen (uitlezen van je website door robots), kan hij ook geen wijzigingen, zoals een no index tag, uitlezen en doorvoeren.
- Door het gebruik te maken van een Robot-Meta tag, blijft Google je website gewoon crawlen.
- Gebruik je een no-index in je robots meta tag? Dan zal na verloop van tijd Google de links op de pagina die je uit de index wil halen, ook niet meer volgen ( in vakjargon: het wordt een no-follow link). Let er dus op dat er geen “Orphan pages” ontstaan. Dat zijn pagina’s die geen interne links meer ontvangen. Op die manier, zullen ook de onderliggende pagina’s uit de index verdwijnen.
X-robots-tag HTTP header
<FilesMatch “.(doc|pdf)$”>
Header set X-Robots-Tag “noindex, noarchive, nosnippet”
</FilesMatch>
Als alternatief, is het soms handiger om i.p.v. een meta tag een X-robotst tag te gebruiken. Met deze tag in je Http header, kun je in plaats van op pagina level, de hele website in een keer bereiken. Daarnaast is de X-robots tag uitermate handig om specifieke (niet html) onderdelen van een website uit te sluiten (zoals pdf’s of afbeeldingen).
Tip: Maak gebruik van reguliere expressies in je HTTP header.
FAQ
Meta tag of robots.txt?
Het is vaak lastig te beslissen wanneer je een meta tag gebruikt en wanneer je robots.txt. Zelf doe ik het volgende:
Situatie 1: Wanneer de pagina nog niet geindexeerd is door Google en ik hem niet in de index van google wil hebben. Oplossing: blokkeren in robots.txt en plaatsen no-index tag
Situatie 2: Wanneer de pagina geindexeerd is maar ik hem niet in de index wil hebben. Oplossing: niet uitsluiten in robots.txt en het plaatsen een no-index tag. Zodra je pagina door Google is uitgesloten (dit kan je zien in je indexdekking rapportage). Dan kan je hem ook uitsluiten in je robots.txt
Kan je het effect van de meta tag controleren?
Ja. Nadat je een no-index hebt geplaatst, kan je op twee manieren controleren of de pagina uit de index is gehaald. Manier 1: type in Google: Site:”url van de pagina” en bekijk of je hem nog tegen komt. Manier 2: kijk via de URL inspectie tool in Google search console of hij uit de index is verwijderd.
Canonical tag of no-index tag?
Komen de pagina’s die je uit de index wil halen sterk overeen met elkaar. Bijvoorbeeld een product pagina waarin alleen de kleur van het object anders is? Gebruik dan een: canonical tag. Anders adviseer ik je om een noindex tag te gebruiken.
Waarom pagina op noindex?
Er kunnen twee redenen zijn waarom je een pagina uit de index wil halen: 1. Vanwege bedrijfsgeheimen 2. Omdat het je SEO signalen naar Google of andere zoekmachines verstoord waardoor je minder goed in Google gevonden wordt. Denk bijvoorbeeld aan: duplicate content.