Abonnez-vous à Universalis pour 1 euro

TRAITEMENT AUTOMATIQUE DES LANGUES

L’évaluation des systèmes de traitement automatique des langues

Un point important pour le traitement automatique des langues, comme pour tout domaine scientifique expérimental, est celui de l’évaluation – un aspect qui n’était pas si important de prime abord, lorsque les enjeux commerciaux étaient encore faibles et où il était hors de question (ou hors de portée) de traiter la langue « courante ». Dès lors, la validation d’un système a longtemps, consisté à montrer que celui-ci pouvait traiter certains phénomènes linguistiques particuliers considérés comme importants et(ou) particulièrement complexes.

À partir des années 2000, la donne a changé : les systèmes ont maintenant des contraintes opérationnelles. Il n’y a donc pas de sens à les évaluer au moyen de tests connus à l’avance, avec un vocabulaire limité et prédéfini. C’est au contraire la capacité des systèmes à faire face à l’imprévu, c’est-à-dire à des phrases complexes, à des phénomènes linguistiques en interaction, à des mots et des expressions non connus à l’avance, qui revêt une importance cruciale.

Des mesures classiques ont donc été définies. Si le système doit « reconnaître » ou annoter (ce qui est en fait la même tâche) des noms de lieux, on peut évaluer ce qui a été reconnu à tort comme un nom de lieu, et ce qui a été oublié par le système (en plus de ce qui a été reconnu correctement, bien évidemment). Il faut donc disposer de deux mesures différentes pour caractériser un système ; on parle alors de précision et de rappel :

– la précision correspond au pourcentage d’éléments pertinents identifiés par le système parmi tous les éléments identifiés ;

– le rappel correspond au pourcentage d’éléments pertinents identifiés par le système parmi tous les éléments à identifier.

Prenons, par exemple, le cas d’un fonds documentaire composé de 100 documents, dont 8 sont pertinents par rapport à la requête d’un utilisateur. Le système propose 12 documents, dont 6 sont pertinents. La précision est alors de 0,5 (6 documents sont pertinents parmi les douze proposés, donc 6/12 = 0,5). Le rappel est de 0,75 (6 documents pertinents ont été retrouvés parmi les 8 qui étaient à retrouver, donc 6/8 = 0,75). Le « bruit », qui est le complémentaire de la précision, concerne ici les 6 documents proposés à tort ; le « silence » correspond aux documents qui auraient dû être identifiés, mais ne l’ont pas été (ici, 2 documents « oubliés »).

Pour obtenir une seule mesure et pouvoir comparer plusieurs systèmes entre eux, ou plusieurs versions d’un même système, on calcule la F-mesure, qui est en fait la « moyenne harmonique » de la précision et du rappel. Si l’on donne le même poids à la précision et au rappel :

F-mesure = 2 × (précision × rappel) précision + rappel

La moyenne harmonique permet de privilégier les systèmes ayant un rappel et une précision homogènes par opposition à une simple moyenne qui, elle, ne permettrait pas de privilégier ainsi l’homogénéité des résultats entre précision et rappel.

Ces mesures, quelque peu techniques, sont essentielles. Elles permettent de comparer des systèmes sur une base objective et donnent des résultats rapides, stables et reproductibles. De nombreuses propositions visant à les améliorer – l’évaluation et les mesures d’évaluation constituent, rappelons-le, un domaine de recherche en soi au sein du TAL – ont été formulées mais elles les ont souvent rendues plus complexes, sans bénéfice clair.

Notons enfin l’importance croissante des campagnes d’évaluation. Une campagne d’évaluation vise à évaluer par comparaison, de façon contrôlée et en temps limité, des systèmes autour d’une tâche commune. En pratique, des données sont fournies, et un descriptif très précis et très normé du résultat recherché est défini. L’évaluation est faite en comparant les résultats fournis par les systèmes à des[...]

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

Classification

Médias

Texte analysé par un analyseur morphosyntaxique - crédits : Encyclopædia Universalis France

Texte analysé par un analyseur morphosyntaxique

Analyse syntaxique d’une même phrase dans quatre langues différentes - crédits : Encyclopædia Universalis France

Analyse syntaxique d’une même phrase dans quatre langues différentes

Analyse sémantique des prédicats et de leurs arguments selon la théorie Frame Semantics - crédits : Encyclopædia Universalis France

Analyse sémantique des prédicats et de leurs arguments selon la théorie Frame Semantics

Autres références

  • LANGAGE ACQUISITION DU

    • Écrit par
    • 4 950 mots
    • 3 médias
    ...s’ajoutent des indications concernant les gestes et les regards ainsi que les phénomènes d’interaction avec l’entourage. L’informatique permet le stockage, le traitement automatique et le transfert des données, entraînant un véritable changement d’échelle dans les pratiques de recherche. L’étude des productions...
  • COGNITIVES SCIENCES

    • Écrit par
    • 19 262 mots
    • 4 médias
    ...scinder en une branche théorique proche de la logique appliquée et une branche d'ingénierie informatique, divisée à son tour en spécialités telles que le traitement automatique des langues (T.A.L.), la vision artificielle, les images de synthèse, la reconnaissance vocale, et différentes techniques de ...
  • DICTIONNAIRE

    • Écrit par
    • 7 965 mots
    • 1 média
    Les progrès de l'informatique éditoriale et destraitements automatiques de la langue et des textes ont bouleversé le travail des dictionnaristes autant que leurs produits dans les dernières années du xxe siècle. Ces transformations, plus profondes encore que celles entraînées par l'imprimerie,...
  • HARRIS ZELLIG SABBETAI (1909-1992)

    • Écrit par
    • 1 063 mots

    La recherche de Zellig Sabbetai Harris est intimement liée aux travaux de l'école américaine d'analyse distributionnelle qui a élaboré son programme pour la linguistique dans les années 1930 et 1940, sous l'impulsion de E. Sapir et L. Bloomfield. Ce dernier avait proposé d'abstraire...

  • Afficher les 12 références