Laden...

Zoekmachine crawlen

Wat is een crawler? Crawlen is het proces dat door webcrawlers van zoekmachines (bots of spiders) wordt gebruikt om een ​​pagina te bezoeken en te downloaden en om de links te extraheren om extra pagina’s te ontdekken. Pagina’s die bekend zijn bij de zoekmachine worden periodiek gecrawld om te bepalen of er wijzigingen zijn aangebracht in de inhoud van de pagina sinds de laatste keer dat deze is gecrawld. Als een zoekmachine wijzigingen aan een pagina detecteert na het crawlen van een pagina, zal deze de index bijwerken als reactie op deze gedetecteerde wijzigingen. 

Hoe werkt webcrawling?

Zoekmachines gebruiken hun eigen webcrawlers om webpagina’s te ontdekken en te openen. Alle commerciële crawlers van zoekmachines beginnen met het crawlen van een website door het robots.txt-bestand te downloaden, dat regels bevat over welke pagina’s zoekmachines wel of niet op de website moeten crawlen. Het robots.txt-bestand kan ook informatie over sitemaps bevatten ; dit bevat lijsten met URL’s die de site door een crawler van een zoekmachine wil laten crawlen. Zoekmachine crawlers gebruiken een aantal algoritmen en regels om te bepalen hoe vaak een pagina opnieuw moet worden gecrawld en hoeveel pagina’s op een site moeten worden geïndexeerd. Een pagina die regelmatig verandert, kan bijvoorbeeld vaker worden gecrawld dan een pagina die zelden wordt gewijzigd.

Zoekmachine crawlen

Links van pagina’s crawlen en extraheren

Zoekmachines proberen normaal gesproken elke URL die ze tegenkomen te crawlen en te indexeren. Als de URL echter een niet-tekstbestand is, zoals een afbeeldings-, video- of audiobestand, kunnen zoekmachines doorgaans de inhoud van het bestand niet lezen, behalve de bijbehorende bestandsnaam en metadata. Hoewel een zoekmachine mogelijk maar een beperkte hoeveelheid informatie over niet-tekstbestandstypen kan extraheren, kunnen ze nog steeds worden geïndexeerd, in zoekresultaten worden gerangschikt en verkeer ontvangen. Crawlers ontdekken nieuwe pagina’s door bestaande pagina’s die ze al kennen opnieuw te crawlen en vervolgens de links naar andere pagina’s te extraheren om nieuwe URL’s te vinden. Deze nieuwe URL’s worden toegevoegd aan de crawl-wachtrij, zodat ze op een later tijdstip kunnen worden gedownload. Door dit proces van het volgen van links kunnen zoekmachines elke openbaar beschikbare webpagina op internet ontdekken die is gelinkt vanaf ten minste één andere pagina.

Sitemaps

Een andere manier waarop zoekmachines nieuwe pagina’s kunnen ontdekken, is door sitemaps te crawlen. Sitemaps bevatten reeksen URL’s en kunnen door een website worden gemaakt om zoekmachines een lijst met te crawlen pagina’s te bieden. Deze kunnen zoekmachines helpen inhoud te vinden die diep in een website verborgen is en kunnen webmasters de mogelijkheid bieden om de gebieden van site-indexering en frequentie beter te controleren en te begrijpen.

Tags:

Gerelateerde artikelen die u mogelijk interesseren

In het huidige digitale tijdperk is het hebben van een mobiele applicatie voor je bedrijf bijna een noodzaak geworden. Het

...

Wil je online succesvol worden? Dan is online marketing essentieel. Dit kan een online marketing bedrijf voor je doen, die

...

Je hebt een fantastisch bedrijf dat de mooiste producten of diensten levert aan je klanten. Maar hoe bereik je die

...

Als je hoger wilt scoren in Google of in een van de andere zoekmachines, dan ben je op zoek naar

...

Ben je op zoek naar SEO in Nijmegen zodat je meer klanten binnenhaalt en hoger in de lokale zoekresultaten staat?

...

Wat zijn apps? Een app, wat is dat nou precies? Het staat op je telefoon, maar weet je eigenlijk waar

...

WordPress is een gratis open source Content Management Systeem gebaseerd op MySQL en PHP. Het is een tool geschreven in

...