Crawlers 101: wat zijn het en waarom zijn ze belangrijk?

Grote kans dat je de termen crawler, zoekbot of spider wel eens voorbij hebt horen komen. Wellicht schrikken deze termen je wat af, gezien de technische aard ervan. Maar wist je het internet zonder het bestaan van deze enge technische termen niet mogelijk zou zijn? We laten je daarom graag kennis maken met het hoe, wat en waarom van crawlers.

Wat is een crawler?

Een crawler is een stuk software waarmee alle pagina's op het internet kunnen worden doorzocht. Het is een continu en geautomatiseerd proces waarbij links worden gevolgd om alle publiekelijk toegankelijke pagina's te bezoeken en te indexeren. Crawler, zoekbot en spider zijn synoniemen voor dezelfde term. Googlebot is een crawler die wordt gebruikt door Google, de grootste zoekmachine.

Tip: je kunt zelf met gratis tools je website crawlen, bijvoorbeeld met Screaming Frog.

Hoe vaak komt een crawler langs?

Er is geen vast aantal keren dat een crawler op een website komt, en er kan geen directe invloed worden uitgeoefend op de frequentie. Computerprogramma's bepalen welke sites worden gecrawld, hoe vaak ze worden gecrawld en hoeveel pagina's van elke site worden opgehaald.

Wat is een crawlbudget?

Crawlbudget is de tijd en het aantal verzoeken dat een zoekmachine besteedt aan het crawlen van een website. Het is afhankelijk van verschillende factoren, zoals de grootte van de website, de kwaliteit van de content en de snelheid van de website. Het is belangrijk om het crawlbudget te optimaliseren om ervoor te zorgen dat belangrijke pagina's op de website worden gecrawld en geïndexeerd.

Hoe Google Search Console je kan helpen

Hoewel we er dus geen directe invloed op kunnen uitoefenen, geeft Google Search Console ons wel hele relevante informatie over het crawlen van een website.

Indexeringsstatus

Binnen het rapport indexeringsstatus is te zien hoeveel pagina’s van jouw website zijn opgenomen in de index. Zit er een groot verschil tussen jouw totale aantal URL’s en het aantal geïndexeerde URL’s en sluit je niks uit van indexatie? Dan is het zaak uit te zoeken waar dit door komt.

Geblokkeerde bronnen

Kijk je naar je geblokkeerde bronnen, is het belangrijk om te controleren of hier ook daadwerkelijk alleen pagina’s staan waarvan je ook niet wilt dat ze door een zoekbot worden bezocht. Staan hier voor jou wel belangrijke pagina’s tussen, kun je zien waar de blokkade vandaan komt en nagaan hoe dit het beste opgelost kan worden.

Crawlstatistieken

Laat de grafieken in het rapport crawlstatistieken je zeker niet direct afschrikken. Je kunt er namelijk bijzonder relevante informatie uithalen. Zo kun je onder andere zien hoeveel pagina’s er gemiddeld per dag worden gecrawld. Wanneer je dit afzet tegen het totale aantal pagina’s waaruit je website bestaat, weet je al gauw hoelang het kan duren voordat alle pagina’s gecrawld en geïndexeerd worden.

Hoe kan je de crawler helpen?

Om het de crawler zo gemakkelijk mogelijk te maken en ervoor te zorgen dat alleen belangrijke pagina's worden gecrawld, zijn er verschillende maatregelen die genomen kunnen worden.

Het is bijvoorbeeld mogelijk om het robots.txt-bestand te gebruiken om pagina's of mappen uit te sluiten van het crawlen.
Een sitemap kan dienen als een inhoudsopgave van de website.
Het gebruik van meta tags op pagina-niveau kan ook helpen om de crawler te sturen.

Voor de termen crawlers, zoekbots of spiders hoef je nu in ieder geval niet meer bang te zijn. Door slim met je crawlbudget om te gaan, kan het je voor je website zelfs veel opleveren. Vind je het stiekem toch nog steeds maar rare wezens en besteed je het liever uit? Neem dan geheel vrijblijvend contact met ons op. We denken graag met je mee!

Dit blog is geschreven door de specialisten van Orangedotcom.

Inmiddels is Orangedotcom onderdeel van iO. Meer weten? Neem gerust contact op!

Contact