MOTEURS DE RECHERCHE
Article modifié le
Un moteur de recherche est une application informatique qui permet de retrouver, dans un ordinateur personnel ou sur le Web (World Wide Web), des documents (textes, images, vidéos…) apportant des renseignements susceptibles de répondre à une requête formulée généralement à l’aide de mots-clés. Les moteurs commerciaux du Web ont connu rapidement le succès en généralisant la gratuité de leur utilisation en échange de l’affichage de publicités.
En effet, l'invention du Web, dispositif de publication de documents permettant leur consultation via Internet, a rapidement généré une masse considérable d’informations. Pour recenser les documents ainsi publiés, ce sont d'abord des répertoires de sites qui ont été élaborés. Ces premiers annuaires inventoriaient les sites Web en y associant une courte description et les classaient par catégories de sujets, ce qui requérait un traitement manuel. Face à la multiplication des publications en ligne, ce procédé a rapidement atteint ses limites. Les moteurs de recherche, en automatisant le repérage de l'information, se sont peu à peu rendus indispensables. À partir de quelques mots-clés, ils permettent de découvrir des ressources ou de trouver des informations sur toutes sortes de sujets. Leurs performances ne cessent de progresser : ils traitent désormais des milliards de documents, leur ergonomie et leur simplicité d'utilisation les mettent à la portée de tous. Les moteurs les plus connus sont des moteurs commerciaux (Google, Bing de Microsoft, Yahoo!, Baidu en Chine ou encore Yandex en Russie) qui tirent leurs revenus de la publicité. Ces services suscitent régulièrement des controverses liées aux enjeux économiques et culturels mais aussi politiques et éthiques qu'ils recouvrent.
Fonctionnement des moteurs de recherche Web
Alors qu'un navigateur Web permet de consulter un site ou une page dont on connaît l'adresse sur Internet, un moteur de recherche est conçu pour faire une recherche à partir de quelques mots clés et obtenir, en résultats, une liste de liens vers des documents susceptibles d'être pertinents. Si, depuis la fin des années 1990, les moteurs se sont diversifiés quant à la nature des documents qu'ils permettent de retrouver (pages Web, images, vidéos, fichiers son), leur principe général de fonctionnement reste globalement toujours le même.
Un moteur de recherche repère les pages Web et les caractérise par des descriptions, le tout de manière entièrement automatique. Plutôt que de naviguer dans les catégories prédéfinies d'un annuaire, l'internaute formule une requête dans une barre de recherche à partir de mots clés. La qualité globale d'un moteur de recherche dépend de ses fonctions de collecte, d'indexation et de classement des documents, ainsi que de son interface d'interrogation.
Le repérage et la collecte des pages Web
La collecte des pages repose sur le principe du Web qui associe à chaque document publié une adresse URL (uniform resource locator). Elle est réalisée par un « robot », un programme informatique (appelé spider ou crawler en anglais) qui, à partir d'une liste initiale d'adresses, visite les pages Web correspondantes et y collecte les adresses mentionnées dans les liens. De proche en proche, cette technique permet de découvrir de nouvelles ressources en ligne. Le procédé détaillé de la collecte des adresses diffère d'un moteur à l'autre, selon l'ensemble d'adresses de départ qui sert à l'initier, les techniques de suivi des liens et la fréquence de mise à jour de la base d'adresses du moteur. C'est pourquoi les différents moteurs de recherche n'ont pas la même portée et ne couvrent pas les mêmes ressources. Les moteurs copient sur leurs propres serveurs (cache) les pages rencontrées afin de disposer d'une version stabilisée pour l'indexer.[...]
La suite de cet article est accessible aux abonnés
- Des contenus variés, complets et fiables
- Accessible sur tous les écrans
- Pas de publicité
Déjà abonné ? Se connecter
Écrit par
- Brigitte SIMONNOT : professeure des Universités émérite, Université de Lorraine, Nancy
Médias
Autres références
-
BIBLIOTHÈQUES NUMÉRIQUES
- Écrit par Yannick MAIGNIEN
- 5 198 mots
- 1 média
...compression graphique et d'image – MPEG –, encapsulant des métadonnées complexes, va dans le sens de cette intégration des documents textuels scannérisés. Actuellement, si l'OCR reste parfois approximative, elle s'avère suffisante pour des moteurs de recherchestatistique qui localiseront ensuite... -
CONSOMMATION - Comportement du consommateur
- Écrit par Bernard DUBOIS et Marc VANHUELE
- 9 030 mots
- 1 média
...emprise. Mais, dans tous les cas, savoir qui sont les consommateurs ayant considéré qu’ils ont un besoin plus ou moins urgent est évidemment très utile. Les moteurs de recherche sur Internet ont révolutionné le marketing parce que c’est là que les consommateurs signalent de plus en plus souvent leurs besoins.... -
INTERNET - Les applications
- Écrit par Danièle DROMARD et Dominique SERET
- 5 030 mots
Les moteurs de recherche ( Google, Yahoo!, AltaVista...) sont des serveurs spécialisés dans la recherche d'informations sur le Web. Leurs banques de données textuelles sont alimentées en permanence par des programmes automatiques d'indexation qui regroupent par thèmes les informations recueillies.... -
MÉDECINE ET INTERNET
- Écrit par Philippe MARREL , Elisabeth PARIZEL et René WALLSTEIN
- 5 396 mots
- 3 médias
...les recherches. En ce qui concerne Internet, véritable bibliothèque planétaire – on parlerait plutôt de base de données aujourd’hui –, c’est le rôle des moteurs de recherche d’établir le catalogue et d’attribuer les mots clés. Pour cela, le moteur passe systématiquement en revue les millions de sites de...