MOTEURS DE RECHERCHE
Article modifié le
Histoire des moteurs
Si les moteurs se sont développés avec Internet, ils ont bénéficié de travaux de recherche bien antérieurs. La recherche d'information informatisée (information retrieval) est devenue un domaine d'investigation scientifique important après la Seconde Guerre mondiale. Dans les années 1960, sont apparus les premiers logiciels dédiés, comme SMART (system for the mechanical analysis and retrieval of text) qui a été développé à l'université Cornell (New York) par Gerard Salton et son équipe.
Les précurseurs
Avec la mise en place d'Internet au cours des années 1980, la question s'est posée de concevoir des dispositifs pour repérer les documents accessibles en ligne. Les systèmes de recherche d'information antérieurs travaillaient sur des bases de documents stockés localement et non distribués sur de multiples ordinateurs. Avant que le Web ne s'impose comme dispositif principal de publication en ligne, d'autres initiatives ont vu le jour. En 1990, Adam Emtage, un étudiant de l'université McGill à Montréal, met au point Archie, un logiciel qui permettait de repérer des fichiers disséminés sur des serveurs FTP (file transfer protocol) connectés à Internet. En 1991, des scientifiques de l'université du Minnesota développent Gopher. Ce dispositif de publication, souvent présenté comme une alternative au Web, permet de donner accès à des documents en ligne via des menus de navigation organisés sous forme hiérarchique. Pour faire des recherches sur les serveurs Gopher, deux chercheurs de l'université du Nevada développent l'année suivante Veronica, un moteur qui indexe les documents publiés via Gopher et permet de faire des recherches simples. Cette application n'autorise pas encore la recherche dans le texte intégral des documents puisqu'elle ne traite que les noms des fichiers et les courts textes des menus Gopher qui les présentent.
Premiers moteurs
Après la mise au point du Web, il faut attendre l'année 1993 pour voir naître différentes applications de repérage de l’information spécifiques à ce dispositif de publication. En juin, Matthew Gray met au point au Massachusetts Institute of Technology (MIT) un logiciel pour mesurer la taille du Web : WWW Wanderer est le premier robot de collecte automatique de documents sur le Web, et Wandex le premier index associé. Aliweb (Archie-like indexing of the Web) voit le jour en novembre de cette même année. Créé par Martijn Koster, un jeune informaticien travaillant pour une société britannique, ce moteur permet des recherches simples sur le Web. Toutefois, pour découvrir les ressources en ligne, le procédé d'Aliweb nécessite que les administrateurs de sites placent sur leur serveur Web une description des pages disponibles, un simple fichier texte le plus souvent réalisé manuellement. Les administrateurs doivent aussi enregistrer leur site via un formulaire auprès d'Aliweb pour que ce dernier intègre automatiquement à sa base d'indexation les documents signalés. En 1994, Brian Pinkerton, étudiant de l'université de Washington (Seattle, États-Unis), élabore WebCrawler, l'une des premières applications à collecter automatiquement les pages, à en indexer le contenu intégral et à fournir une interface d'interrogation. À cette époque, son index inventorie quatre mille pages, bien loin des milliards de documents traités désormais par les moteurs.
Moteurs commerciaux
D'abord réservé aux universités et aux laboratoires de recherche, le Web s'ouvre au grand public et aux entreprises à partir de 1994. Le nombre de sites se multiplie tout comme le nombre des utilisateurs d'Internet, le réseau des réseaux. Les moteurs de recherche sortent des universités et des laboratoires où ils ont été créés pour être gérés par des entreprises commerciales. Le premier moteur commercial à voir le jour est[...]
La suite de cet article est accessible aux abonnés
- Des contenus variés, complets et fiables
- Accessible sur tous les écrans
- Pas de publicité
Déjà abonné ? Se connecter
Écrit par
- Brigitte SIMONNOT : professeure des Universités émérite, Université de Lorraine, Nancy
Médias
Autres références
-
BIBLIOTHÈQUES NUMÉRIQUES
- Écrit par Yannick MAIGNIEN
- 5 198 mots
- 1 média
...compression graphique et d'image – MPEG –, encapsulant des métadonnées complexes, va dans le sens de cette intégration des documents textuels scannérisés. Actuellement, si l'OCR reste parfois approximative, elle s'avère suffisante pour des moteurs de recherchestatistique qui localiseront ensuite... -
CONSOMMATION - Comportement du consommateur
- Écrit par Bernard DUBOIS et Marc VANHUELE
- 9 030 mots
- 1 média
...emprise. Mais, dans tous les cas, savoir qui sont les consommateurs ayant considéré qu’ils ont un besoin plus ou moins urgent est évidemment très utile. Les moteurs de recherche sur Internet ont révolutionné le marketing parce que c’est là que les consommateurs signalent de plus en plus souvent leurs besoins.... -
INTERNET - Les applications
- Écrit par Danièle DROMARD et Dominique SERET
- 5 030 mots
Les moteurs de recherche ( Google, Yahoo!, AltaVista...) sont des serveurs spécialisés dans la recherche d'informations sur le Web. Leurs banques de données textuelles sont alimentées en permanence par des programmes automatiques d'indexation qui regroupent par thèmes les informations recueillies.... -
MÉDECINE ET INTERNET
- Écrit par Philippe MARREL , Elisabeth PARIZEL et René WALLSTEIN
- 5 396 mots
- 3 médias
...les recherches. En ce qui concerne Internet, véritable bibliothèque planétaire – on parlerait plutôt de base de données aujourd’hui –, c’est le rôle des moteurs de recherche d’établir le catalogue et d’attribuer les mots clés. Pour cela, le moteur passe systématiquement en revue les millions de sites de...