- 1. Pourquoi l’analyse de la langue par ordinateur est-elle difficile ?
- 2. Les domaines de recherche en traitement automatique des langues
- 3. L’évaluation des systèmes de traitement automatique des langues
- 4. Les grands domaines d’application du traitement automatique des langues
- 5. Conclusion
- 6. Bibliographie
TRAITEMENT AUTOMATIQUE DES LANGUES
L’évaluation des systèmes de traitement automatique des langues
Un point important pour le traitement automatique des langues, comme pour tout domaine scientifique expérimental, est celui de l’évaluation – un aspect qui n’était pas si important de prime abord, lorsque les enjeux commerciaux étaient encore faibles et où il était hors de question (ou hors de portée) de traiter la langue « courante ». Dès lors, la validation d’un système a longtemps, consisté à montrer que celui-ci pouvait traiter certains phénomènes linguistiques particuliers considérés comme importants et(ou) particulièrement complexes.
À partir des années 2000, la donne a changé : les systèmes ont maintenant des contraintes opérationnelles. Il n’y a donc pas de sens à les évaluer au moyen de tests connus à l’avance, avec un vocabulaire limité et prédéfini. C’est au contraire la capacité des systèmes à faire face à l’imprévu, c’est-à-dire à des phrases complexes, à des phénomènes linguistiques en interaction, à des mots et des expressions non connus à l’avance, qui revêt une importance cruciale.
Des mesures classiques ont donc été définies. Si le système doit « reconnaître » ou annoter (ce qui est en fait la même tâche) des noms de lieux, on peut évaluer ce qui a été reconnu à tort comme un nom de lieu, et ce qui a été oublié par le système (en plus de ce qui a été reconnu correctement, bien évidemment). Il faut donc disposer de deux mesures différentes pour caractériser un système ; on parle alors de précision et de rappel :
– la précision correspond au pourcentage d’éléments pertinents identifiés par le système parmi tous les éléments identifiés ;
– le rappel correspond au pourcentage d’éléments pertinents identifiés par le système parmi tous les éléments à identifier.
Prenons, par exemple, le cas d’un fonds documentaire composé de 100 documents, dont 8 sont pertinents par rapport à la requête d’un utilisateur. Le système propose 12 documents, dont 6 sont pertinents. La précision est alors de 0,5 (6 documents sont pertinents parmi les douze proposés, donc 6/12 = 0,5). Le rappel est de 0,75 (6 documents pertinents ont été retrouvés parmi les 8 qui étaient à retrouver, donc 6/8 = 0,75). Le « bruit », qui est le complémentaire de la précision, concerne ici les 6 documents proposés à tort ; le « silence » correspond aux documents qui auraient dû être identifiés, mais ne l’ont pas été (ici, 2 documents « oubliés »).
Pour obtenir une seule mesure et pouvoir comparer plusieurs systèmes entre eux, ou plusieurs versions d’un même système, on calcule la F-mesure, qui est en fait la « moyenne harmonique » de la précision et du rappel. Si l’on donne le même poids à la précision et au rappel :
La moyenne harmonique permet de privilégier les systèmes ayant un rappel et une précision homogènes par opposition à une simple moyenne qui, elle, ne permettrait pas de privilégier ainsi l’homogénéité des résultats entre précision et rappel.
Ces mesures, quelque peu techniques, sont essentielles. Elles permettent de comparer des systèmes sur une base objective et donnent des résultats rapides, stables et reproductibles. De nombreuses propositions visant à les améliorer – l’évaluation et les mesures d’évaluation constituent, rappelons-le, un domaine de recherche en soi au sein du TAL – ont été formulées mais elles les ont souvent rendues plus complexes, sans bénéfice clair.
Notons enfin l’importance croissante des campagnes d’évaluation. Une campagne d’évaluation vise à évaluer par comparaison, de façon contrôlée et en temps limité, des systèmes autour d’une tâche commune. En pratique, des données sont fournies, et un descriptif très précis et très normé du résultat recherché est défini. L’évaluation est faite en comparant les résultats fournis par les systèmes à des[...]
La suite de cet article est accessible aux abonnés
- Des contenus variés, complets et fiables
- Accessible sur tous les écrans
- Pas de publicité
Déjà abonné ? Se connecter
Écrit par
- Thierry POIBEAU : directeur de recherche au CNRS
Classification
Médias
Autres références
-
LANGAGE ACQUISITION DU
- Écrit par Michèle KAIL
- 4 950 mots
- 3 médias
...s’ajoutent des indications concernant les gestes et les regards ainsi que les phénomènes d’interaction avec l’entourage. L’informatique permet le stockage, le traitement automatique et le transfert des données, entraînant un véritable changement d’échelle dans les pratiques de recherche. L’étude des productions... -
COGNITIVES SCIENCES
- Écrit par Daniel ANDLER
- 19 262 mots
- 4 médias
...scinder en une branche théorique proche de la logique appliquée et une branche d'ingénierie informatique, divisée à son tour en spécialités telles que le traitement automatique des langues (T.A.L.), la vision artificielle, les images de synthèse, la reconnaissance vocale, et différentes techniques de ... -
DICTIONNAIRE
- Écrit par Bernard QUEMADA
- 7 965 mots
- 1 média
Les progrès de l'informatique éditoriale et destraitements automatiques de la langue et des textes ont bouleversé le travail des dictionnaristes autant que leurs produits dans les dernières années du xxe siècle. Ces transformations, plus profondes encore que celles entraînées par l'imprimerie,... -
HARRIS ZELLIG SABBETAI (1909-1992)
- Écrit par Morris SALKOFF
- 1 063 mots
La recherche de Zellig Sabbetai Harris est intimement liée aux travaux de l'école américaine d'analyse distributionnelle qui a élaboré son programme pour la linguistique dans les années 1930 et 1940, sous l'impulsion de E. Sapir et L. Bloomfield. Ce dernier avait proposé d'abstraire...
- Afficher les 12 références