Abonnez-vous à Universalis pour 1 euro

TRAITEMENT AUTOMATIQUE DES LANGUES

Conclusion

Nous avons essayé de donner une image aussi complète et aussi diversifiée que possible du très vaste domaine du traitement automatique des langues, sans pouvoir détailler la richesse de ce domaine né au début des années 1950, avec l’apparition des premiers ordinateurs.

Le domaine du TAL est aujourd’hui très peu « linguistique » et les techniques d’analyse sont avant tout informatiques. Elles reposent essentiellement sur l’analyse statistique de gros corpus par des « réseaux de neurones », comme on l’a vu. Au-delà des aspects pratiques et des performances observées, l’approche statistique semble intéressante dans la mesure où elle souligne la force de certains éléments connus, mais trop souvent sous-estimés en linguistique. On peut ainsi citer la nature fondamentalement statistique des langues – du lexique, bien entendu (très peu de mots très fréquents, beaucoup de mots rares), mais aussi de la grammaire – ou le caractère continu de la sémantique (au sens où les mots sont plus ou moins proches sémantiquement les uns des autres). Les statistiques ne s’opposent donc pas au sémantique, elles permettent au contraire de rendre compte de manière très souple du sens, qu’il s’agisse d’un mot, d’une phrase ou d’un texte.

Le développement de ces techniques soulève aussi des questions éthiques importantes. Les outils nécessitent de gigantesques masses de données pour leur mise au point, ce qui laisse de fait de nombreuses langues de côté. L’apprentissage de modèles de traitement à partir de données brutes tend aussi à augmenter les biais (discrimination, sous-représentation des minorités…) dans les applications mises au point. Enfin, ces technologies ont désormais un véritable impact sur le monde du travail. Par exemple, les traducteurs commencent dans certains cadres à être directement concurrencés par la traduction automatique. De nouveaux métiers apparaissent comme celui de « post-éditeur », qui consiste à corriger une traduction automatique pour la rendre directement diffusable dans un cadre professionnel ou grand public. L’impact plus global sur le monde du travail est réel et devra être étudié de près dans les années à venir.

— Thierry POIBEAU

La suite de cet article est accessible aux abonnés

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

Classification

Médias

Texte analysé par un analyseur morphosyntaxique - crédits : Encyclopædia Universalis France

Texte analysé par un analyseur morphosyntaxique

Analyse syntaxique d’une même phrase dans quatre langues différentes - crédits : Encyclopædia Universalis France

Analyse syntaxique d’une même phrase dans quatre langues différentes

Analyse sémantique des prédicats et de leurs arguments selon la théorie Frame Semantics - crédits : Encyclopædia Universalis France

Analyse sémantique des prédicats et de leurs arguments selon la théorie Frame Semantics

Autres références

  • LANGAGE ACQUISITION DU

    • Écrit par
    • 4 950 mots
    • 3 médias
    ...s’ajoutent des indications concernant les gestes et les regards ainsi que les phénomènes d’interaction avec l’entourage. L’informatique permet le stockage, le traitement automatique et le transfert des données, entraînant un véritable changement d’échelle dans les pratiques de recherche. L’étude des productions...
  • COGNITIVES SCIENCES

    • Écrit par
    • 19 262 mots
    • 4 médias
    ...scinder en une branche théorique proche de la logique appliquée et une branche d'ingénierie informatique, divisée à son tour en spécialités telles que le traitement automatique des langues (T.A.L.), la vision artificielle, les images de synthèse, la reconnaissance vocale, et différentes techniques de ...
  • DICTIONNAIRE

    • Écrit par
    • 7 965 mots
    • 1 média
    Les progrès de l'informatique éditoriale et destraitements automatiques de la langue et des textes ont bouleversé le travail des dictionnaristes autant que leurs produits dans les dernières années du xxe siècle. Ces transformations, plus profondes encore que celles entraînées par l'imprimerie,...
  • HARRIS ZELLIG SABBETAI (1909-1992)

    • Écrit par
    • 1 063 mots

    La recherche de Zellig Sabbetai Harris est intimement liée aux travaux de l'école américaine d'analyse distributionnelle qui a élaboré son programme pour la linguistique dans les années 1930 et 1940, sous l'impulsion de E. Sapir et L. Bloomfield. Ce dernier avait proposé d'abstraire...

  • Afficher les 12 références