Abonnez-vous à Universalis pour 1 euro

INDEXATION

Indexation et intelligence artificielle

L'indexation est une pratique ancienne indispensable pour retrouver rapidement les documents voulus. Jusqu'à une époque récente, elle semblait réservée à l'intelligence humaine. Car indexer ne consiste pas à créer des index (tâche facilement automatisable) mais à affecter aux documents des indices, des marques significatives de leur contenu, à la suite d'une série d'opérations mentales complexes et encore mal connues.

Pourtant, l'indexation est atteinte à son tour par l'irrésistible progression des « machines à penser ».

Genèse des recherches en indexation automatique

Plusieurs facteurs ont incité les chercheurs en informatique documentaire à tenter de concurrencer l'indexation humaine. D'abord, les contraintes et les insuffisances inhérentes à celle-ci : elle est coûteuse (il faut entre un quart d'heure et une heure pour indexer un document) ; elle est tributaire de la subjectivité de l'indexeur (deux analystes différents indexent rarement un document de manière rigoureusement identique).

À l'inverse, les coûts de traitement informatique ne cessent de baisser, et la machine est exempte de subjectivité.

Un autre avantage de l'indexation automatique est de pouvoir analyser par le même procédé les textes des auteurs et les requêtes de l'utilisateur, alors que dans un système traditionnel celui-ci doit s'adapter aux termes choisis par l'indexeur.

Encore faut-il que l'ordinateur puisse produire des formules d'indexation acceptables – sinon comparables à celles de l'indexeur. Or les dernières recherches en traitement informatique des langues (traduction automatique) et en sémantique (analyse conceptuelle, réseaux sémantiques, analyseur automatique de texte) ont mis à la disposition des concepteurs des outils efficaces, du moins pour les documents textuels, qui sont encore les plus nombreux.

Fonction documentaire du texte et mots vides

On a observé depuis longtemps un trait remarquable des documents textuels : non seulement ils nous livrent des informations, mais ils nous renseignent aussi sur le sujet traité puisqu'il est impossible de parler d'un sujet sans le nommer. Autrement dit, un texte quelconque comporte, en plus de sa fonction principale d'information, une fonction accessoire d'auto-indexation.

Comme, en outre, un ordinateur peut facilement isoler et reconnaître les mots d'un texte, le problème revient à sélectionner les mots les plus significatifs. Cela, certes, n'est pas une mince affaire. Mais une autre caractéristique remarquable, commune à toutes les langues, permet une première sélection à peu de frais : l'élimination des mots vides.

Une phrase est composée approximativement pour moitié de termes lexicaux (les mots du dictionnaire), qui ont un sens en eux-mêmes, indépendamment du contexte, et de termes grammaticaux (prépositions, conjonctions, pronoms, adjectifs numéraux, etc.), qui n'ont pas de signification en dehors de leur contexte. La seconde catégorie étant en nombre limité (quelques centaines), il est facile d'en dresser la liste et de les faire éliminer automatiquement. Par exemple, dans la phrase « agiter la bouteille avant de s'en servir », un programme de sélection des mots significatifs retiendra « agiter », « bouteille », « servir ». Un texte contenant cette phrase pourra donc être repéré à l'interrogation par l'un de ces termes ou par une combinaison de ceux-ci.

La recherche en texte intégral

Cet exemple montre à la fois l'ingéniosité du procédé et la médiocrité du résultat. Les défauts de cette sélection rudimentaire sont évidents :

– tous les mots non vides sont retenus sur le même plan, qu'ils soient ou non représentatifs du sujet principal du document ;

– un mot variable, par exemple un verbe, apparaît[...]

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

  • : (formerly) director of central library services and Goldsmith'Librarian, University of London, England.
  • : agrégé de l'Université, docteur en linguistique

Classification

Médias

Maison des sciences de l'homme - crédits : C. Mouly

Maison des sciences de l'homme

SYNTOL - crédits : Encyclopædia Universalis France

SYNTOL

Algèbre de Boole - crédits : Planeta Actimedia S.A.© Encyclopædia Universalis France pour la version française.

Algèbre de Boole

Autres références

  • BIBLIOTHÈQUES NUMÉRIQUES

    • Écrit par
    • 5 199 mots
    • 1 média
    Les bibliothèques trouvent ici une confirmation de leur vocation première : à savoir décrire et signaler les collections,indexer leur contenu, tenir des bases d'autorité concernant une discipline ou un auteur, classer les documents dans des systèmes normés (Décimal, Dewey) et encyclopédiques....
  • HUMANITÉS NUMÉRIQUES

    • Écrit par
    • 5 372 mots
    • 2 médias
    ...souvent considéré comme le père du domaine des humanités numériques (Jones, 2018). Dès 1949, il a lancé en partenariat avec la société IBM un projet de création d’index autour de l’œuvre de saint Thomas d’Aquin, appelé l’Index thomisticus. Plus récemment, il a été souligné, à juste titre, que...
  • MOTEURS DE RECHERCHE

    • Écrit par
    • 4 699 mots
    • 2 médias
    Lespages Web collectées sont analysées par un logiciel qui procède à leur indexation. L'indexation consiste à caractériser les pages par des mots clés pour permettre de les retrouver. Dans le cas des moteurs de recherche, l'extraction de mots ou de groupes de mots à partir des documents est automatisée....
  • MOYEN ÂGE - La pensée médiévale

    • Écrit par
    • 22 217 mots
    ...Saint-Cher, les dominicains de Saint-Jacques mettent en chantier une grande Concordance de la Bible(achevée vers 1240), véritable ouvrage de référence, où chaque mot est indexé du nom du livre dans lequel il est employé, d'un numéro de chapitre, enfin d'une lettre (de A à G) y notant sa place relative....