|
Wat is een crawler? Crawlen is het proces dat door webcrawlers van zoekmachines (bots of spiders) wordt gebruikt om een pagina te bezoeken en te downloaden en om de links te extraheren om extra pagina’s te ontdekken. Pagina’s die bekend zijn bij de zoekmachine worden periodiek gecrawld om te bepalen of er wijzigingen zijn aangebracht in de inhoud van de pagina sinds de laatste keer dat deze is gecrawld. Als een zoekmachine wijzigingen aan een pagina detecteert na het crawlen van een pagina, zal deze de index bijwerken als reactie op deze gedetecteerde wijzigingen. Hoe werkt webcrawling?Zoekmachines gebruiken hun eigen webcrawlers om webpagina’s te ontdekken en te openen. Alle commerciële crawlers van zoekmachines beginnen met het crawlen van een website door het robots.txt-bestand te downloaden, dat regels bevat over welke pagina’s zoekmachines wel of niet op de website moeten crawlen. Het robots.txt-bestand kan ook informatie over sitemaps bevatten ; dit bevat lijsten met URL’s die de site door een crawler van een zoekmachine wil laten crawlen. Zoekmachine crawlers gebruiken een aantal algoritmen en regels om te bepalen hoe vaak een pagina opnieuw moet worden gecrawld en hoeveel pagina’s op een site moeten worden geïndexeerd. Een pagina die regelmatig verandert, kan bijvoorbeeld vaker worden gecrawld dan een pagina die zelden wordt gewijzigd. Links van pagina’s crawlen en extraherenZoekmachines proberen normaal gesproken elke URL die ze tegenkomen te crawlen en te indexeren. Als de URL echter een niet-tekstbestand is, zoals een afbeeldings-, video- of audiobestand, kunnen zoekmachines doorgaans de inhoud van het bestand niet lezen, behalve de bijbehorende bestandsnaam en metadata. Hoewel een zoekmachine mogelijk maar een beperkte hoeveelheid informatie over niet-tekstbestandstypen kan extraheren, kunnen ze nog steeds worden geïndexeerd, in zoekresultaten worden gerangschikt en verkeer ontvangen. Crawlers ontdekken nieuwe pagina’s door bestaande pagina’s die ze al kennen opnieuw te crawlen en vervolgens de links naar andere pagina’s te extraheren om nieuwe URL’s te vinden. Deze nieuwe URL’s worden toegevoegd aan de crawl-wachtrij, zodat ze op een later tijdstip kunnen worden gedownload. Door dit proces van het volgen van links kunnen zoekmachines elke openbaar beschikbare webpagina op internet ontdekken die is gelinkt vanaf ten minste één andere pagina. SitemapsEen andere manier waarop zoekmachines nieuwe pagina’s kunnen ontdekken, is door sitemaps te crawlen. Sitemaps bevatten reeksen URL’s en kunnen door een website worden gemaakt om zoekmachines een lijst met te crawlen pagina’s te bieden. Deze kunnen zoekmachines helpen inhoud te vinden die diep in een website verborgen is en kunnen webmasters de mogelijkheid bieden om de gebieden van site-indexering en frequentie beter te controleren en te begrijpen. |
Veelgestelde vragen
Wat is een webcrawler en hoe werkt het?▼
Een webcrawler is een bot of spider die door zoekmachines gebruikt wordt om webpagina's te bezoeken, downloaden en analyseren. De crawler extraheert links om nieuwe pagina's te ontdekken en bepaalt of pagina's zijn gewijzigd sinds de laatste crawl.
Wat is het robots.txt-bestand en welke rol speelt het?▼
Het robots.txt-bestand bevat regels die aangeven welke pagina's zoekmachines wel of niet mogen crawlen. Alle commerciële zoekmachinecrawlers downloaden dit bestand eerst voordat zij een website gaan crawlen.
Hoe ontdekken zoekmachines nieuwe pagina's?▼
Zoekmachines ontdekken nieuwe pagina's door bestaande pagina's te crawlen, links te extraheren en deze nieuwe URL's aan de crawl-wachtrij toe te voegen. Sitemaps bieden een ander middel om pagina's ontdekt te krijgen.
Hoe vaak worden pagina's door crawlers opnieuw bezocht?▼
De crawlfrequentie hangt af van algoritmen en regels die bepalen hoe vaak een pagina opnieuw moet worden gecrawld. Pagina's die regelmatig veranderen worden vaker gecrawld dan pagina's die zelden worden gewijzigd.
Kunnen zoekmachines afbeeldingen, video's en audiobestanden crawlen?▼
Zoekmachines kunnen de inhoud van niet-tekstbestanden niet volledig lezen, maar kunnen de bestandsnaam en metadata wel extraheren. Deze bestanden kunnen nog steeds worden geïndexeerd en in zoekresultaten verschijnen.
