Laden...

Zoekmachine crawlen

Diagram van zoekmachine crawlen proces: hoe webcrawlers pagina's bezoeken, links extraheren en nieuwe URL's ontdekken

Wat is een crawler? Crawlen is het proces dat door webcrawlers van zoekmachines (bots of spiders) wordt gebruikt om een ​​pagina te bezoeken en te downloaden en om de links te extraheren om extra pagina’s te ontdekken. Pagina’s die bekend zijn bij de zoekmachine worden periodiek gecrawld om te bepalen of er wijzigingen zijn aangebracht in de inhoud van de pagina sinds de laatste keer dat deze is gecrawld. Als een zoekmachine wijzigingen aan een pagina detecteert na het crawlen van een pagina, zal deze de index bijwerken als reactie op deze gedetecteerde wijzigingen. 

Hoe werkt webcrawling?

Zoekmachines gebruiken hun eigen webcrawlers om webpagina’s te ontdekken en te openen. Alle commerciële crawlers van zoekmachines beginnen met het crawlen van een website door het robots.txt-bestand te downloaden, dat regels bevat over welke pagina’s zoekmachines wel of niet op de website moeten crawlen. Het robots.txt-bestand kan ook informatie over sitemaps bevatten ; dit bevat lijsten met URL’s die de site door een crawler van een zoekmachine wil laten crawlen. Zoekmachine crawlers gebruiken een aantal algoritmen en regels om te bepalen hoe vaak een pagina opnieuw moet worden gecrawld en hoeveel pagina’s op een site moeten worden geïndexeerd. Een pagina die regelmatig verandert, kan bijvoorbeeld vaker worden gecrawld dan een pagina die zelden wordt gewijzigd.

Zoekmachine crawlen

Links van pagina’s crawlen en extraheren

Zoekmachines proberen normaal gesproken elke URL die ze tegenkomen te crawlen en te indexeren. Als de URL echter een niet-tekstbestand is, zoals een afbeeldings-, video- of audiobestand, kunnen zoekmachines doorgaans de inhoud van het bestand niet lezen, behalve de bijbehorende bestandsnaam en metadata. Hoewel een zoekmachine mogelijk maar een beperkte hoeveelheid informatie over niet-tekstbestandstypen kan extraheren, kunnen ze nog steeds worden geïndexeerd, in zoekresultaten worden gerangschikt en verkeer ontvangen. Crawlers ontdekken nieuwe pagina’s door bestaande pagina’s die ze al kennen opnieuw te crawlen en vervolgens de links naar andere pagina’s te extraheren om nieuwe URL’s te vinden. Deze nieuwe URL’s worden toegevoegd aan de crawl-wachtrij, zodat ze op een later tijdstip kunnen worden gedownload. Door dit proces van het volgen van links kunnen zoekmachines elke openbaar beschikbare webpagina op internet ontdekken die is gelinkt vanaf ten minste één andere pagina.

Sitemaps

Een andere manier waarop zoekmachines nieuwe pagina’s kunnen ontdekken, is door sitemaps te crawlen. Sitemaps bevatten reeksen URL’s en kunnen door een website worden gemaakt om zoekmachines een lijst met te crawlen pagina’s te bieden. Deze kunnen zoekmachines helpen inhoud te vinden die diep in een website verborgen is en kunnen webmasters de mogelijkheid bieden om de gebieden van site-indexering en frequentie beter te controleren en te begrijpen.

Veelgestelde vragen

Wat is een webcrawler en hoe werkt het?

Een webcrawler is een bot of spider die door zoekmachines gebruikt wordt om webpagina's te bezoeken, downloaden en analyseren. De crawler extraheert links om nieuwe pagina's te ontdekken en bepaalt of pagina's zijn gewijzigd sinds de laatste crawl.

Wat is het robots.txt-bestand en welke rol speelt het?

Het robots.txt-bestand bevat regels die aangeven welke pagina's zoekmachines wel of niet mogen crawlen. Alle commerciële zoekmachinecrawlers downloaden dit bestand eerst voordat zij een website gaan crawlen.

Hoe ontdekken zoekmachines nieuwe pagina's?

Zoekmachines ontdekken nieuwe pagina's door bestaande pagina's te crawlen, links te extraheren en deze nieuwe URL's aan de crawl-wachtrij toe te voegen. Sitemaps bieden een ander middel om pagina's ontdekt te krijgen.

Hoe vaak worden pagina's door crawlers opnieuw bezocht?

De crawlfrequentie hangt af van algoritmen en regels die bepalen hoe vaak een pagina opnieuw moet worden gecrawld. Pagina's die regelmatig veranderen worden vaker gecrawld dan pagina's die zelden worden gewijzigd.

Kunnen zoekmachines afbeeldingen, video's en audiobestanden crawlen?

Zoekmachines kunnen de inhoud van niet-tekstbestanden niet volledig lezen, maar kunnen de bestandsnaam en metadata wel extraheren. Deze bestanden kunnen nog steeds worden geïndexeerd en in zoekresultaten verschijnen.

Tags:

Gerelateerde artikelen die u mogelijk interesseren

Visuele illustratie van waarom je een app laat ontwikkelen voor je bedrijf in het digitale tijdperk

In het huidige digitale tijdperk is het hebben van een mobiele applicatie voor je bedrijf bijna een noodzaak geworden. Het

...
Grafisch overzicht van online marketing strategieën om bedrijven naar een hoger niveau te tillen

Wil je online succesvol worden? Dan is online marketing essentieel. Dit kan een online marketing bedrijf voor je doen, die

...
Illustratie over waarom online marketing belangrijk is voor bedrijfsgroei en klantbereik

Je hebt een fantastisch bedrijf dat de mooiste producten of diensten levert aan je klanten. Maar hoe bereik je die

...
Visuele gids met de 4 stappen voor verkopen via Bol.com: registratie, verificatie, producten toevoegen en optimaliseren

Als je hoger wilt scoren in Google of in een van de andere zoekmachines, dan ben je op zoek naar

...
Visuele gids met de 4 stappen voor verkopen via Bol.com: registratie, verificatie, producten toevoegen en optimaliseren

Ben je op zoek naar SEO in Nijmegen zodat je meer klanten binnenhaalt en hoger in de lokale zoekresultaten staat?

...
Visuele gids met de 4 stappen voor verkopen via Bol.com: registratie, verificatie, producten toevoegen en optimaliseren

Wat zijn apps? Een app, wat is dat nou precies? Het staat op je telefoon, maar weet je eigenlijk waar

...
Visuele gids met de 4 stappen voor verkopen via Bol.com: registratie, verificatie, producten toevoegen en optimaliseren

WordPress is een gratis open source Content Management Systeem gebaseerd op MySQL en PHP. Het is een tool geschreven in

...