Wat is een webcrawler?

Inhoudsopgave

Zodra je een nieuwe pagina aanmaakt en publiceert, betekent het niet dat deze ook gelijk online staat en vindbaar is. De pagina moet namelijk eerst “goedgekeurd” worden door de zogeheten webcrawlers. Een webcrawler, ook wel spider of bot is een automatisch programma dat de zoekmachines doorzoekt om nieuwe en bijgewerkte inhoud op websites na te gaan. Het proces van doorzoeken staat bekend als webcrawling.


 


Hoe gaan webcrawlers te werk


Een webcrawler komt eens in de zoveel tijd op je website langs om deze te checken voordat de pagina’s geïndexeerd worden. De crawler volgt de geplaatste links en analyseert de inhoud van je pagina op basis van verschillende factoren.


URL discovery


Een crawler begint zijn check met de URL’s van een website. Nieuwe pagina’s worden in een zogeheten Crawl Queue geplaatst om vervolgens één voor één gecrawld te worden.


HTML-inhoud


De webcrawler gaat vervolgens door met het lezen van de HTML-inhoud van je pagina. Hij verzamelt informatie over de inhoud en opmaak van je pagina; elementen, paragrafen, afbeeldingen, tabellen etc. Op deze manier krijgt de crawler een beeld van de structuur en inhoud van je pagina.


Om de crawler te helpen met het begrijpen van je pagina, optimaliseer je deze. Je verbetert de paginastructuur en plaatst het zoekwoord op verschillende plekken in je tekst. Gezien een bot geen afbeeldingen kan ‘zien’, en alleen code kan lezen, is het van belang om je afbeeldingen van beschrijvingen te voorzien. Dit doe je door beschrijvende alt-tags toe te voegen en je afbeeldingen van een logische bestandsnaam te voorzien.


Indexering


Na de crawlsessie slaat de bot jouw gegevens op in de index van de zoekmachine. Bij een aansluitende zoekopdracht zorgt het algoritme van Google ervoor dat jouw pagina tevoorschijn komt in de zoekresultaten. Is je pagina niet geïndexeerd, dan zal deze ook niet in de zoekresultaten tevoorschijn komen. Ga daarom goed na of je pagina geïndexeerd. Dit kun je via Google Search Console doen. Zie afbeelding hieronder.


Onze tip


Via Google Search Console kun je handmatig een indexatie aanvragen door een verzoek in te dienen. Doe dit direct na het publiceren van je nieuwe pagina/blog. Plaats de URL van je nieuwe pagina in de zoekbalk bovenin Google Search Console (zie afbeelding hieronder) en klik vervolgens op de button ‘Indexatie aanvragen’. Check een week later of de pagina is geïndexeerd. Zo niet, dan kan het zijn dat er een aantal problemen zijn die je eerst moet oplossen. Deze worden dan ook direct weergegeven.


Terugkerend bezoek


Een crawler komt vaker dan één keer langs. Telkens als jij een pagina van nieuwe content voorziet, zal de crawler langs moeten komen om deze te checken. De precieze frequentie en ‘diepte’ van de crawlsessie hangt af van het Google crawl budget of een vergelijkbaar beleid bij andere zoekmachines.


 


Soorten webcrawlers


Er zijn verschillende soorten crawlers op te noemen. Elk met zijn eigen doel en werking. Hieronder benoemen we de meest bekende.


Googlebot: De Google crawler


Dit is de officiële crawler van Google. De Googlebot bepaalt in essentie wat er in de index komt, en zorgt zo voor een goed doorzoekbare, relevante en schone zoekmachine. De Googlebot heeft crawlers voor zowel de desktop versies van websites als de mobiele versie.


De Googlebot gaat allereerst op URL discovery om nieuwe pagina’s te identificeren. De nieuwe pagina’s plaatst de bot vervolgens in een Crawl Queue, zodat deze gecrawld kunnen worden. Na het crawlen wordt de pagina verwerkt en klaargezet voor indexering.


Bingbot: De crawler van Bing


Bingbot is de officiële crawler die verantwoordelijk is voor de webcrawling van Microsoft Bing. Net zoals Googlebot, is het doel van de Bingbot om een doorzoekbaar en relevant index op te bouwen. Hiervoor heeft de Bingbot ook zowel desktop als mobiele versies van de crawler.


Bingbot vs. Googlebot


Los van het feit dat beide crawlers veel overeenkomsten hebben, zijn er ook verschillen te benoemen. De grootste daarvan is dat het algoritme anders werkt. Eenzelfde zoekopdracht zal in beide zoekmachines verschillende resultaten tonen. Kijk er daarom niet van op als je pagina in Google hoger rankt dan in Bing.


Een ander verschil is de manier waarop beide bots nieuwe content ontdekken. De Googlebot slaat zijn eerdere crawlsessies en de uitkomsten daarvan niet op, maar doorloopt telkens alle sitemaps en links opnieuw om zo nieuwe pagina’s te ontdekken, De Bingbot heeft daarentegen een “geheugen” van eerder gecrawlde websites en doorloopt een voorfilteringsproces.


ChatGPT crawler en AI crawlers


Crawlers worden ook ingezet bij AI-tools De huidige AI-tools zijn opgebouwd aan de hand van taalmodellen, ook wel Large Language Models. Om deze taalmodellen te trainen en voeden worden crawlers ingezet. Deze worden dus niet, zoals bij Google en Bing, ingezet om content na te gaan en te indexeren.


 


 


Het zogeheten Google crawl budget


Het budget refereert aan de hoeveelheid URL’s die de bots van Google op je websites kunnen crawlen per sessie. Dit budget is niet oneindig, simpelweg omdat Google geen oneindige middelen heeft om haar crawlers continu te laten werken. Is het crawlbudget op? Dan zal de crawler je overige pagina’s niet nagaan. Je loopt dan de kans dat je nieuwe, en nog ongeïndexeerde pagina’s, niet geïndexeerd worden.


Een manier om dit te voorkomen is door ervoor te zorgen dat je nieuwe pagina niet ver verwijderd is van je homepage; hoe dieper een pagina, hoe kleiner de kans dat deze gecrawld wordt.


Het beheren van je crawlbudget


Een klein budget zal voor kleine websites geen probleem zijn. Heb je echter een grote website waarin vaak nieuwe content geplaatst wordt, dan wil je je crawl budget zo goed mogelijk beheren. Dit kan je bijvoorbeeld ook doen door irrelevante pagina’s uit te sluiten voor de crawlsessie. Dit kan je doen door middel van een robots.txt bestand. In dit bestand geef je aan welke pagina’s niet gecrawld hoeven te worden. Op deze manier kun je je budget gebruiken voor de belangrijke pagina’s.


Conclusie: waarom webcrawlers zo belangrijk zijn


Een webcrawler is essentieel voor de indexatie van je nieuwe pagina’s. Als een pagina niet correct gecrawld wordt, dan zal deze waarschijnlijk ook niet hoog eindigen in de zoekresultaten. Met een goed geoptimaliseerde pagina zullen de bots tevreden zijn. Een verhoogde tevredenheid zou op zijn beurt weer kunnen leiden tot een hogere ranking.


Recente blog artikelen

28 maart
5 minuten
24 maart
5 minuten
17 maart
5 minuten

Zet de eerste stap in de juiste richting

Wil je weten hoe je sneller je resultaat bereikt? Vul het formulier in en we nemen zo snel mogelijk contact op.


"*" geeft vereiste velden aan

Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.

Ontvang het laatste nieuws van Go Online!

Wij versturen maximaal 1 keer per kwartaal een e-mail.