Je kunt zoekmachines – specifiek de zoekmachine processen, zoals crawling en indexatie – op verschillende manieren beïnvloeden.
Hieronder een overzicht van de belangrijkste instructies en de (primaire) invloed op zoekmachine processen, ofwel het SEO effect:
Ik heb bewust het primaire effect van de instructie aangegeven, maar voor bijna elke instructie is er een genuanceerder effect van toepassing.
Zoekmachine instructies
In bovenstaand schema zie je de volgende zoekmachine instructies:
- Robots.txt
- Meta tag robots
- X-Robots-Tag
- rel=prev & rel=next
- Canonical tag – link element
- Canonical tag – HTTP Header
- Nofollow attribuut
Toelichting & voorbeeld
Ik laat gelijk maar even zien voor welke doelen je de zoekmachine instructies kunt gebruiken, inclusief één of meerdere voorbeelden:
1. Robots.txt
Standaard beïnvloedt je met het uitsluiten van URL’s in het robots.txt bestand alleen het proces van crawlen.
Door een Disallow regel toe te voegen aan robots.txt, blokkeer je een zoekmachine volledig van het crawlen van de betreffende URL (of alle URL’s die overeenkomen met de ingestelde regel).
Maar, let op.
Het uitsluiten van URL’s in robots.txt, betekent niet dat de URL niet in de zoekresultaten verschijnt.
Er hoeft maar één link naar de URL te verwijzen en de URL kan in de zoekresultaten verschijnen.
Zie ook deze toelichting: Case: Robots.txt uitsluiting, toch in index zoekmachines
Een belangrijk nadeel van robots.txt is dat de linkwaarde van en naar de uitgesloten pagina’s niet doorgegeven wordt.
Geavanceerd: indexatie beïnvloeden
Een belangrijke nuance op bovenstaand schema:
Ondanks dat robots.txt primair is bedoeld voor het instrueren van (crawling door) zoekmachine robots, kun je er ook een commando in geven om pagina’s uit de index te houden.
Dit doe je met de instructie noindex.
Deze instructie is overigens niet officieel ondersteund door Google (wel door Yahoo en Bing).
En, belangrijker, deze instructie werkt niet altijd vlekkeloos. Altijd even testen dus.
XML Sitemap
Daarnaast kun je het robots.txt bestand ook gebruiken om te verwijzen naar je XML sitemap.
Nadeel hiervan is dat concurrenten of kwaadwillenden je XML sitemap kunnen vinden en scrapen.
Meer informatie
- Helppagina Google over robots.txt
- A Deeper Look At Robots.txt (Searchengineland.com)
2. Meta tag robots
De Robots meta tag plaats je per pagina in de HEAD van je HTML.
Wanneer je een pagina volledig uit de zoekmachine resultaten wilt houden of verwijderen, dan gebruik je de instructie noindex in de robots meta tag.
Een belangrijk voordeel is dat je een pagina wel kunt uitsluiten van indexatie, maar nog steeds linkwaarde kunt laten doorgeven.
En je kunt er nog meer mee.
Alle mogelijke instructies
Met de meta robots tag kun je de volgende instructies geven:
- noindex: verwijderd een pagina uit de index / zoekresultaten + verwijderd ‘Cache’ link in zoekresultaten
- nofollow: volgt (crawlt) alle links op de pagina niet
- none: hetzelfde als noindex,nofollow
- noarchive: verwijderd ‘Cache’ link in zoekresultaten
- nosnippet: laat geen snippet zien voor deze pagina in de zoekresultaten
- notranslate: biedt geen mogelijkheid tot vertaling in zoekresultaten aan
- noimageindex: verwijder afbeeldingen van deze pagina uit de index / zoekresultaten
- unavailable_after: verwijder deze pagina uit de index / zoekresultaten vanaf opgegeven datum (in RFC 850 formaat)
Standaard geef je de instructie aan alle zoekmachine robots, maar je kunt ook specifieke crawlers een instructie geven (zoals googlebot, googlebot-news, etc.)
Daarnaast kun je ook meerdere instructies geven, bijvoorbeeld verschillende instructies voor verschillende robots.
Meer informatie
3. X-Robots-Tag
De X-Robots-Tag werkt precies hetzelfde als de Robots meta tag, maar het verschil is dat je dit instelt op server niveau.
De X-Robots-Tag waarde geef je mee in de HTTP Header.
Een belangrijk voordeel is dat deze methode zeer schaalbaar is, in tegenstelling tot de Robots meta tag.
Je kunt dus exact dezelfde instructies geven met de X-Robots-tag als met de meta tag Robots. Dat overzicht heb je hierboven al 🙂
Meer informatie
4. rel=prev & rel=next
Wanneer je paginering hebt – content verdeeld over meerdere pagina’s – dan kun je de link elementen rel=”prev” en rel=”next” gebruiken.
Dit zorgt ervoor dat Google (en andere zoekmachines) alle verschillende gepagineerde pagina’s als één geheel gaat zien.
En dat voorkomt belangrijke problemen als duplicate content of linkwaarde verspilling.
Nuance: invloed op crawling
Zoals in bovenstaand schema te zien is, hebben rel=”prev” en rel=”next” primair invloed op het proces van indexatie (het oplossen van duplicate content, samenvoegen van linkwaarde en tonen van de juiste pagina in de zoekresultaten).
Echter, het implementeren van rel=”prev” en rel=”next” blijkt ook invloed te hebben op het proces van crawlen, zoals m’n eerder gepubliceerde case aantoont (Hoe Googlebot Omgaat Met Rel=???Prev??? & Rel=???Next???).
Lees ook m’n handleiding “SEO voor paginering“
Meer informatie
5. Canonical tag – link element
De canonical tag is in het leven geroepen om duplicate content op te lossen. Je plaats dit link element in de HEAD van je HTML pagina.
Wanneer je duplicate content niet kunt voorkomen, bijvoorbeeld bij sortering van producten op een pagina, gebruik dan de canonical tag.
Google voegt alle linkwaarde e.d. samen op de URL/pagina waarnaar je verwijst met de canonical tag.
Nuance: invloed op crawling
Ook deze instructie heeft primair invloed op het proces van indexatie (duplicate content oplossen, linkwaarde samenvoegen, etc.)
Google blijft de URL’s, die de canonical tag bevatten, nog steeds crawlen en indexeren.
Ze moeten namelijk periodiek blijven checken of de canonical tag er nog (correct) op staat.
Maar deze URL’s worden wel iets minder gecrawld, dus er is een kleine invloed op het crawlproces.
Meer informatie
6. Canonical tag – HTTP Header
De canonical instructie kan ook op server niveau gegeven worden.
Net als de X-Robots-Tag geef je de canonical waarde mee met de HTTP header.
En de werking is exact hetzelfde als het canonical link element.
De canonical HTTP header kent ook het voordeel dat het schaalbaarder te implementeren is.
Meer informatie
7. Nofollow attribuut
Naast alle bovenstaande instructies op server of pagina niveau kun je op link niveau ook instructies geven.
De belangrijkste instructie is het nofollow attribuut (rel=”nofollow”).
Deze instructie zorgt ervoor dat Google (en andere zoekmachines) individuele links niet meer volgt / crawlt.
Een belangrijk voordeel is dat je Google hiermee helpt in de prioriteit van crawlen.
Nuance: invloed op indexatie / ranking
Door het toevoegen van rel=”nofollow” wordt de link niet meer meegeteld in het algoritme van Google (en andere zoekmachines)
Dat betekent dus dat de linkwaarde niet doorgegeven wordt.
Dit zou dus ook tot gevolg kunnen hebben dat er verschuivingen optreden in de zoekresultaten.
Meer informatie
- Helppagina Google over rel=”nofollow”
- Google Video: ‘Should internal links use rel=”nofollow”?‘ (antwoord = nee)
Trackbacks/Pingbacks