Extraction et analyse de concepts médicaux dans un corpus de spécialité en orthophonie - Archive ouverte HAL Access content directly
Conference Poster Year : 2022

Extraction et analyse de concepts médicaux dans un corpus de spécialité en orthophonie

(1) , (1) , (1) , (1) , (2) , (1)
1
2

Abstract

L'émergence de gros modèles de langue pré-entraînés tels que BERT (Devlin et al., 2019) a développé la définition et l'application de stratégies d'apprentissage par transfert (transfer learning), en particulier par le biais de la notion d'affinage (fine-tuning). Bien que ce développement facilite l'apprentissage de modèles pour des domaines spécialisés à partir de modèles plus généraux, cet apprentissage souffre toujours de l'absence de données annotées en quantités suffisantes. Dans cet article, nous nous focalisons plus spécifiquement sur le domaine de la santé et sur la tâche de reconnaissance d'entités nommées en français. Nous explorons plus précisément deux voies pour faciliter l'adaptation aux domaines spécialisés. La première reprend l'idée, explorée initialement par Gururangan et al. (2020), qu'utiliser un corpus non annoté du domaine cible et l'utiliser afin de poursuivre l'entraînement d'un modèle pré-entraîné sur sa tâche de modélisation du langage permet de spécialiser ce modèle pour ce domaine et d'améliorer les résultats de l'affinage sur la tâche finale visée. Cette approche a été appliquée en particulier par Copara et al. (2020) pour la reconnaissance d'entités nommées médicales en français. La seconde voie exploite quant à elle les connaissances existant pour le domaine cible, connaissances qui sont particulièrement riches dans le cas du domaine médical et de la santé. Plus précisément, parmi les nombreux travaux réalisés pour utiliser conjointement les modèles de langue neuronaux et des connaissances données a priori (Yin et al., 2022; Wei et al., 2021; Yang et al., 2022), se distinguent les approches que l'on peut qualifier de précoces, visant à injecter les connaissances directement au sein des modèles, soit lors de leur construction, soit a posteriori, des approches dites tardives dans lesquelles modèles de langue et connaissances sont fusionnés au niveau des résultats liés à la tâche. Nous nous situons dans cette seconde perspective en nous distinguant néanmoins des approches de type auto-apprentissage (Gao et al., 2021) dans lesquelles les connaissances sont utilisées pour réaliser une forme d'augmentation de données. De plus, nous appliquons les techniques étudiées à un corpus d'orthophonie, OrthoCorpus (2019), afin d'analyser les extractions d'entités nommées sur des cas concrets, du point de vue de l'intérêt clinique de la démarche et de sa faisabilité pour les experts du domaine. D'un point de vue disciplinaire, cela permet en effet de questionner le classement conceptuel en santé dans un sous-domaine spécifique au carrefour des sciences biomédicales et des sciences humaines et sociales. L'examen des formes et du statut des candidats-termes nous renseigne sur la langue de spécialité (L'Homme, 2011). Plus précisément, au travers des contributions de cet article, nous montrons, pour la reconnaissance d'entités nommées dans le domaine de la santé, que : - l'utilisation de corpus spécialisés pour l'adaptation de modèles de langue pré-entraînés peut être intéressante, même pour des corpus que l'on peut qualifier de petits vis-à-vis des expéri- mentations de Gururangan et al. (2020) ; - différents modèles neuronaux et une approche à base de connaissances présentent des profils complémentaires qu'une combinaison tardive permet de valoriser.
Fichier principal
Vignette du fichier
JJ_LIFT_TAL_2022_paper_2221-1_v5.pdf (183.62 Ko) Télécharger le fichier
Origin : Files produced by the author(s)

Dates and versions

cea-03892389 , version 1 (09-12-2022)

Identifiers

  • HAL Id : cea-03892389 , version 1

Cite

Tiphaine Le Clercq de Lannoy, Romaric Besancon, Olivier Ferret, Julien Tourille, Frédérique Brin-Henry, et al.. Extraction et analyse de concepts médicaux dans un corpus de spécialité en orthophonie. Leonor Becerra; Benoît Favre; Claire Gardent; Yannick Parmentier. LIFT TAL 2022 - Journées Jointes des Groupements de Recherche « Linguistique Informatique, Formelle et de Terrain » et « Traitement Automatique des Langues », Nov 2022, Marseille, France. CNRS, pp.99-108, 2022, LIFT-TAL 2022, Actes des journées jointes des Groupements de Recherche Linguistique Informatique, Formelle et de Terrain (LIFT) et Traitement Automatique des Langues (TAL). ⟨cea-03892389⟩
0 View
0 Download

Share

Gmail Facebook Twitter LinkedIn More