Wat is een crawler? Crawlen is het proces dat door webcrawlers van zoekmachines (bots of spiders) wordt gebruikt om een pagina te bezoeken en te downloaden en om de links te extraheren om extra pagina’s te ontdekken. Pagina’s die bekend zijn bij de zoekmachine worden periodiek gecrawld om te bepalen of er wijzigingen zijn aangebracht in de inhoud van de pagina sinds de laatste keer dat deze is gecrawld. Als een zoekmachine wijzigingen aan een pagina detecteert na het crawlen van een pagina, zal deze de index bijwerken als reactie op deze gedetecteerde wijzigingen.

Hoe werkt webcrawling?

Zoekmachines gebruiken hun eigen webcrawlers om webpagina’s te ontdekken en te openen. Alle commerciële crawlers van zoekmachines beginnen met het crawlen van een website door het robots.txt-bestand te downloaden, dat regels bevat over welke pagina’s zoekmachines wel of niet op de website moeten crawlen. Het robots.txt-bestand kan ook informatie over sitemaps bevatten ; dit bevat lijsten met URL’s die de site door een crawler van een zoekmachine wil laten crawlen. Zoekmachine crawlers gebruiken een aantal algoritmen en regels om te bepalen hoe vaak een pagina opnieuw moet worden gecrawld en hoeveel pagina’s op een site moeten worden geïndexeerd. Een pagina die regelmatig verandert, kan bijvoorbeeld vaker worden gecrawld dan een pagina die zelden wordt gewijzigd.

Zoekmachine crawlen

Links van pagina’s crawlen en extraheren

Zoekmachines proberen normaal gesproken elke URL die ze tegenkomen te crawlen en te indexeren. Als de URL echter een niet-tekstbestand is, zoals een afbeeldings-, video- of audiobestand, kunnen zoekmachines doorgaans de inhoud van het bestand niet lezen, behalve de bijbehorende bestandsnaam en metadata. Hoewel een zoekmachine mogelijk maar een beperkte hoeveelheid informatie over niet-tekstbestandstypen kan extraheren, kunnen ze nog steeds worden geïndexeerd, in zoekresultaten worden gerangschikt en verkeer ontvangen. Crawlers ontdekken nieuwe pagina’s door bestaande pagina’s die ze al kennen opnieuw te crawlen en vervolgens de links naar andere pagina’s te extraheren om nieuwe URL’s te vinden. Deze nieuwe URL’s worden toegevoegd aan de crawl-wachtrij, zodat ze op een later tijdstip kunnen worden gedownload. Door dit proces van het volgen van links kunnen zoekmachines elke openbaar beschikbare webpagina op internet ontdekken die is gelinkt vanaf ten minste één andere pagina.

Sitemaps

Een andere manier waarop zoekmachines nieuwe pagina’s kunnen ontdekken, is door sitemaps te crawlen. Sitemaps bevatten reeksen URL’s en kunnen door een website worden gemaakt om zoekmachines een lijst met te crawlen pagina’s te bieden. Deze kunnen zoekmachines helpen inhoud te vinden die diep in een website verborgen is en kunnen webmasters de mogelijkheid bieden om de gebieden van site-indexering en frequentie beter te controleren en te begrijpen.