Comment-referencer.info

Comment fonctionnent les moteurs de recherche?

On peut considérer que trois étapes constituent le fonctionnement d’un moteur de recherche.

 

La collecte d’informations

La collecte d’informations se fait au moyen de logiciels automatisés que l’on appelle des robots d’indexation, spiders ou crawlers.

 

Ces robots ont différentes missions :

  1. parcourir Internet jour et nuit pour collecter toutes les ressources qu’ils réussissent à trouver sur une page Web (le code HTML, les fichiers PDF, les images,…
  2. détecter les liens internes et externes de cette page et se rendre sur les pages de destination de ces liens afin d’en identifier de nouvelles
  3. vérifier si la page a déjà été indexée. Si tel est le cas, regarder si la version qu’il vient de trouver est plus récente que celle dont il dispose. Si oui, il va détruire l’ancienne version pour la remplacer par la nouvelle. Sinon, il gardera l’ancienne. La fréquence de visite du robot dépend de l'actualisation de la page. Au plus celle-ci change, au plus le robot repassera pour indexer son contenu
Quelques spiders connus :
  1. GoogleBot de Google
  2. Yahoo ! Slurp de Yahoo
  3. MSNBot de MSN
Notons que les webmasters ont la possibilité d’ajouter le fichier robots.txt qui permet de spécifier certaines règles aux spiders comme par exemple leur interdire d’indexer certaines pages.
 

L’indexation des données collectées

Lorsque le spider a terminé de collecter ces données, il les envoie au moteur d’indexation, qui va s’occuper de les enregistrer dans une immense base de données que l’on nomme l’index

Dans le passé, il y avait différents systèmes d’indexation des données :

  1. L’indexation unique des Meta Tags ou balises meta
  2. L’indexation unique du titre des pages
  3. L’indexation du code intégral

Actuellement, seul le troisième système est encore utilisé, du moins par les moteurs Yahoo, Google et MSN.

Le moteur d’indexation constitue également un index inversé : celui-ci reprend un ensemble de mots-clefs pouvant être introduits par les internautes ainsi que leurs liens vers les documents présents dans l’index. Cet index inversé a été constitué dans le but d’accélérer le processus de recherche dans la base de données. Imaginons le temps qu’il faudrait pour faire une requête dans l’intégralité des 5 millions de documents, sans les trier à la base.

Le traitement des requêtes

Le traitement des requêtes permet de localiser l’information dans la base de données à partir des mots-clefs introduits par l’utilisateur de l’outil. Ainsi, le moteur classe les résultats en fonction de la pertinence avec les mots-clefs fournis par l'internaute. Le but étant bien entendu de faire correspondre au mieux les résultats à leurs attentes.
 
Nous avons 2 invités en ligne