Réordonnancer des thésaurus distributionnels en combinant différents critères - CEA - Commissariat à l’énergie atomique et aux énergies alternatives Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2015

Reorganize distributional thesaurus by combining different criteria

Réordonnancer des thésaurus distributionnels en combinant différents critères

Résumé

In this article, we propose a method for improving distributional thesauri based on a bootstrapping mechanism: a set of positive and negative examples of semantically similar words are selected in an unsupervised way and used for training a supervised classifier. This classifier is then applied for reranking the semantic neighbors of the thesaurus used for example selection. We show how the relations between the mono-terms of similar nominal compounds can be used for performing this selection and how to associate this criterion, either by early fusion or late fusion, with an already tested criterion based on the symmetry of semantic relations. We evaluate the interest of the proposed procedure for a large set of English nouns with various frequencies. This article is an extended version of (Ferret, 2013 ; Ferret, 2015a).
Dans cet article, nous proposons une méthode pour améliorer les thésaurus distributionnels grâce à un mécanisme d’amorçage : un ensemble d’exemples positifs et négatifs de mots sémantiquement similaires sont sélectionnés de façon non supervisée et utilisés pour entraîner un classifieur supervisé. Celui-ci est ensuite appliqué pour réordonner les voisins sémantiques du thésaurus utilisé pour la sélection des exemples. Nous montrons comment les relations entre les constituants de noms composés similaires peuvent être utilisées pour réaliser une telle sélection et comment conjuguer ce critère, soit de façon précoce, soit de façon tardive, à un critère déjà expérimenté touchant à la symétrie des relations sémantiques. Nous évaluons l’intérêt de ces propositions sur un large ensemble de noms en anglais couvrant un vaste spectre de fréquences. Cet article est une version étendue de (Ferret, 2013 ; Ferret, 2015a).
Fichier non déposé

Dates et versions

cea-01847291 , version 1 (23-07-2018)

Identifiants

  • HAL Id : cea-01847291 , version 1

Citer

Olivier Ferret. Réordonnancer des thésaurus distributionnels en combinant différents critères. Revue TAL : traitement automatique des langues, 2015, 56 (2), pp.21-49. ⟨cea-01847291⟩
100 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More