Wat is een Webcrawler?

Zodra je een nieuwe pagina aanmaakt en publiceert, betekent het niet dat deze ook gelijk online staat en vindbaar is. De pagina moet namelijk eerst “goedgekeurd” worden door de zogeheten webcrawlers. Een webcrawler, ook wel spider of bot is een automatisch programma dat de zoekmachines doorzoekt om nieuwe en bijgewerkte inhoud op websites na te gaan. Het proces van doorzoeken staat bekend als webcrawling.

Hoe gaan webcrawlers te werk

Een webcrawler komt eens in de zoveel tijd op je website langs om deze te checken voordat de pagina’s geïndexeerd worden. De crawler volgt de geplaatste links en analyseert de inhoud van je pagina op basis van verschillende factoren.

URL discovery

Een crawler begint zijn check met de URL’s van een website. Nieuwe pagina’s worden in een zogeheten Crawl Queue geplaatst om vervolgens één voor één gecrawld te worden.

HTML-inhoud

De webcrawler gaat vervolgens door met het lezen van de HTML-inhoud van je pagina. Hij verzamelt informatie over de inhoud en opmaak van je pagina; elementen, paragrafen, afbeeldingen, tabellen etc. Op deze manier krijgt de crawler een beeld van de structuur en inhoud van je pagina.

Om de crawler te helpen met het begrijpen van je pagina, optimaliseer je deze. Je verbetert de paginastructuur en plaatst het zoekwoord op verschillende plekken in je tekst. Gezien een bot geen afbeeldingen kan ‘zien’, en alleen code kan lezen, is het van belang om je afbeeldingen van beschrijvingen te voorzien. Dit doe je door beschrijvende alt-tags toe te voegen en je afbeeldingen van een logische bestandsnaam te voorzien.

Indexering

Na de crawlsessie slaat de bot jouw gegevens op in de index van de zoekmachine. Bij een aansluitende zoekopdracht zorgt het algoritme van Google ervoor dat jouw pagina tevoorschijn komt in de zoekresultaten. Is je pagina niet geïndexeerd, dan zal deze ook niet in de zoekresultaten tevoorschijn komen. Ga daarom goed na of je pagina geïndexeerd. Dit kun je via Google Search Console doen. Zie afbeelding hieronder.

Onze tip

Via Google Search Console kun je handmatig een indexatie aanvragen door een verzoek in te dienen. Doe dit direct na het publiceren van je nieuwe pagina/blog. Plaats de URL van je nieuwe pagina in de zoekbalk bovenin Google Search Console (zie afbeelding hieronder) en klik vervolgens op de button ‘Indexatie aanvragen’. Check een week later of de pagina is geïndexeerd. Zo niet, dan kan het zijn dat er een aantal problemen zijn die je eerst moet oplossen. Deze worden dan ook direct weergegeven.

Terugkerend bezoek

Een crawler komt vaker dan één keer langs. Telkens als jij een pagina van nieuwe content voorziet, zal de crawler langs moeten komen om deze te checken. De precieze frequentie en ‘diepte’ van de crawlsessie hangt af van het Google crawl budget of een vergelijkbaar beleid bij andere zoekmachines.

Soorten webcrawlers

Er zijn verschillende soorten crawlers op te noemen. Elk met zijn eigen doel en werking. Hieronder benoemen we de meest bekende.

Googlebot: De Google crawler

Dit is de officiële crawler van Google. De Googlebot bepaalt in essentie wat er in de index komt, en zorgt zo voor een goed doorzoekbare, relevante en schone zoekmachine. De Googlebot heeft crawlers voor zowel de desktop versies van websites als de mobiele versie.

De Googlebot gaat allereerst op URL discovery om nieuwe pagina’s te identificeren. De nieuwe pagina’s plaatst de bot vervolgens in een Crawl Queue, zodat deze gecrawld kunnen worden. Na het crawlen wordt de pagina verwerkt en klaargezet voor indexering.

Bingbot: De crawler van Bing

Bingbot is de officiële crawler die verantwoordelijk is voor de webcrawling van Microsoft Bing. Net zoals Googlebot, is het doel van de Bingbot om een doorzoekbaar en relevant index op te bouwen. Hiervoor heeft de Bingbot ook zowel desktop als mobiele versies van de crawler.

Bingbot vs. Googlebot

Los van het feit dat beide crawlers veel overeenkomsten hebben, zijn er ook verschillen te benoemen. De grootste daarvan is dat het algoritme anders werkt. Eenzelfde zoekopdracht zal in beide zoekmachines verschillende resultaten tonen. Kijk er daarom niet van op als je pagina in Google hoger rankt dan in Bing.

Een ander verschil is de manier waarop beide bots nieuwe content ontdekken. De Googlebot slaat zijn eerdere crawlsessies en de uitkomsten daarvan niet op, maar doorloopt telkens alle sitemaps en links opnieuw om zo nieuwe pagina’s te ontdekken, De Bingbot heeft daarentegen een “geheugen” van eerder gecrawlde websites en doorloopt een voorfilteringsproces.

ChatGPT crawler en AI crawlers

Crawlers worden ook ingezet bij AI-tools De huidige AI-tools zijn opgebouwd aan de hand van taalmodellen, ook wel Large Language Models. Om deze taalmodellen te trainen en voeden worden crawlers ingezet. Deze worden dus niet, zoals bij Google en Bing, ingezet om content na te gaan en te indexeren.

Het zogeheten Google crawl budget

Het budget refereert aan de hoeveelheid URL’s die de bots van Google op je websites kunnen crawlen per sessie. Dit budget is niet oneindig, simpelweg omdat Google geen oneindige middelen heeft om haar crawlers continu te laten werken. Is het crawlbudget op? Dan zal de crawler je overige pagina’s niet nagaan. Je loopt dan de kans dat je nieuwe, en nog ongeïndexeerde pagina’s, niet geïndexeerd worden.

Een manier om dit te voorkomen is door ervoor te zorgen dat je nieuwe pagina niet ver verwijderd is van je homepage; hoe dieper een pagina, hoe kleiner de kans dat deze gecrawld wordt.

Het beheren van je crawlbudget

Een klein budget zal voor kleine websites geen probleem zijn. Heb je echter een grote website waarin vaak nieuwe content geplaatst wordt, dan wil je je crawl budget zo goed mogelijk beheren. Dit kan je bijvoorbeeld ook doen door irrelevante pagina’s uit te sluiten voor de crawlsessie. Dit kan je doen door middel van een robots.txt bestand. In dit bestand geef je aan welke pagina’s niet gecrawld hoeven te worden. Op deze manier kun je je budget gebruiken voor de belangrijke pagina’s.

Conclusie: waarom webcrawlers zo belangrijk zijn

Een webcrawler is essentieel voor de indexatie van je nieuwe pagina’s. Als een pagina niet correct gecrawld wordt, dan zal deze waarschijnlijk ook niet hoog eindigen in de zoekresultaten. Met een goed geoptimaliseerde pagina zullen de bots tevreden zijn. Een verhoogde tevredenheid zou op zijn beurt weer kunnen leiden tot een hogere ranking.

Inhoudsopgave