Le déferlement d’outils d’intelligence artificielle auquel on assiste depuis quelques années repose sur la capacité à manipuler le langage naturel. L’objectif : créer des interactions homme-machine intuitives et automatiser diverses tâches grâce au langage. Pour obtenir des résultats pertinents sur un modèle de NLP, il est indispensable de l’entraîner sur une langue spécifique afin d’en saisir toute la complexité. Or, les principaux modèles existants aujourd’hui adoptent des approches multilingues, et donc nécessairement génériques.
Les initiatives CamemBERT et FlauBERT visent précisément à pallier cette lacune en créant un modèle de langage spécifiquement conçu pour le français. On fait le point sur le traitement du langage naturel dans la langue de Molière.
Les applications du traitement automatique du langage naturel
Le NLP transforme la manière dont nous interagissons avec les machines et offre un éventail d’applications très large : des assistants vocaux (Siri, Alexa, Google Assistant, etc.) aux outils de génération de texte (ChatGPT, Mistral AI…) en passant par les Chatbots et l’analyse d’informations. Ces applications ont un potentiel de transformation important dans de nombreux secteurs :
- Santé & Recherche médicale :
L’IA va rendre de grands services aux médecins et aux chercheurs grâce au développement du TALN : analyse des dossiers patients pour assister les professionnels de santé dans la prise de décision, analyse des publications scientifiques, etc.
- Finance & Économie :
Analyse des rapports financiers et des signaux faibles (comme des discussions sur les réseaux sociaux) pour anticiper les mouvements de marché.
- Marketing & Commerce :
Analyse des sentiments (sentiment analysis) à travers les interactions avec les clients (mails, appels, avis…) pour s’adapter aux besoins du marché et personnaliser l’expérience client.
- Éducation :
L’IA frappe à la porte des écoles, avec des outils d’aide à la rédaction et à la correction, de détection du plagiat, d’apprentissage personnalisé, d’amélioration de l’accessibilité ou encore d’analyse des données éducatives pour identifier les tendances, etc.
BERT : le modèle de NLP conçu par Google
BERT (Bidirectional Encoder Representations from Transformers) est un modèle de traitement du langage naturel développé par Google en 2018. La particularité de BERT réside dans son analyse du contexte bidirectionnel, c’est-à-dire qu’il examine les mots précédents et suivants chaque mot pour comprendre le sens de la phrase. Cette approche diffère des modèles antérieurs qui analysaient le texte dans une seule direction, limitant leur compréhension du contexte.
BERT a largement amélioré les performances dans de nombreuses tâches de TALN, mais il présente des limites lorsqu’il s’agit de langues autres que l’anglais. Pour saisir les nuances et spécificités linguistiques de notre langue, il était nécessaire d’entraîner le modèle sur un corpus spécifique.
CamemBERT, FlauBERT : la modélisation de la langue française à un niveau avancé
Fruit d’une collaboration entre des chercheurs de l’INRIA, de Facebook AI Research, de la Sorbonne et du CNRS, CamemBERT vise à surmonter les limitations de BERT pour le français, en proposant un modèle pré-entraîné spécifiquement adapté aux subtilités de la langue française : polysémie, nuances syntaxiques et morphologiques, diversité stylistique…
BERT a largement amélioré les performances dans de nombreuses tâches de TALN, mais il présente des limites lorsqu’il s’agit de langues autres que l’anglais.
Le modèle a bénéficié d’un entraînement sur un vaste ensemble de textes en français issus de multiples sources :
- Wikipedia en français
- Archives du web en français
- Corpus littéraire
- Des transcriptions de débats parlementaires
- Textes juridiques et législatifs
- Articles de presse
Le modèle CamemBERT a démontré d’excellents résultats pour relever les défis posés par le traitement automatique du français. Le modèle a démontré une amélioration significative des performances et établi un nouvel état de l’art dans le TALN en français. Avec 22 millions de téléchargements depuis sa publication en 2019, CamemBERT est le modèle de traitement automatique de langage naturel le plus utilisé pour les entreprises françaises.
Quelques semaines après la mise au point du modèle CamemBERT, c’est le modèle FlauBERT (French Language Understanding Evaluation Benchmark) qui a vu le jour. Suivant une configuration similaire, FlauBERT intègre en plus un référentiel francophone d’évaluation permettant de comparer les performances de différents modèles, et fournit des outils pour l’analyse sémantique fine et la modélisation de langue à un niveau avancé.
À l’heure ou l’intelligence artificielle générative se déploie dans toutes les organisations, y compris dans le secteur public, les projets visant à adapter ces outils à la langue française sont synonyme d’efficacité accrue. Ces initiatives préfigurent la tendance des modèles de langage restreints (Small Language Models ou SLM), qui permettent aux organisations d’intégrer des jeux de données spécifiques dans les modèles d’IA afin de configurer des outils toujours plus pertinents en fonction des objectifs poursuivis.