Quelques Moteurs : Filespump - BeeMP3 - Dilandau - 911tabs - 123people - Buscatube

Terme : Crawler

Toujours dans l’optique de démystifier un peu les termes barbares du petit monde du search, voici une petite explication de ce qu’est le terme « crawler » pour ceux qui ne le sauraient pas.

Le terme francophone qui exprime le mieux ce qu’est le crawler (contraction de web-crawler en fait) est : robot d’indexation.

Ces robots d’indexation explorent sans cesse Internet afin de récupérer tout ce qui est ajouté par les internautes. Cela va de la simple page web créée, aux nouvelles vidéos sur une plateforme, aux images, aux documents types PDF, Excel, … bref tout ce qui possède une nouvelle adresse URL est indexable (plus difficilement pour certains types de pages ou certains types de fichiers mais possible pour tous).

Les principaux robots d’indexation sont ceux appartenant aux divers moteurs de recherche, certains ont même de petits noms. C’est le cas de Googlebot (chez Google), Scooter (chez Altavista), AskJeeves (Ask.com), TwengaBot chez Twenga ou encore Slurp qui est celui de Yahoo!

Mais certains d’entre eux sont aussi du côté obscur de la force, notamment les bots qui analysent les pages à la recherche d’adresses mails à récupérer. Liste d’adresses qui sont ensuite revendues à divers spammeurs dans le monde pour vous envoyer des courriers tout pourrit.

Le webmaster d’un site peux influencer sur le crawler via un fichier robots.txt, les balises meta robots, un sitemap, la fréquence des mises à jour… mais nous y reviendront plus tard 😉


© Copyright 2007-2014, All Rights Reserved - Sitemap - Privacy PolicyremonterTop