Regroupement sémantique de relations pour l'extraction d'information non supervisée

Most studies in unsupervised information extraction concentrate on the relation extraction and few work has been proposed on the organization of the extracted relations. We present in this paper a two-step clustering procedure to group semantically equivalent relations : a first step clusters relations with similar expressions while a second step groups these first clusters into larger semantic clusters, using different semantic similarities. Our experiments show the stability of distributional similarities over WordNet-based similarities for semantic clustering. We also demonstrate that the use of a multi-level clustering not only reduces the calculations from all relation pairs to basic clusters pairs, but it also improves the clustering results.

Beaucoup des recherches menées en extraction d’information non supervisée se concentrent sur l’extraction des relations et peu de travaux proposent des méthodes pour organiser les relations extraites. Nous présentons dans cet article une méthode de clustering en deux étapes pou rregrouper des relations sémantiquement équivalentes : la première étape regroupe des relations proches par leur expression tandis que la seconde fusionne les premiers clusters obtenus sur la base d’une mesure de similarité sémantique. Nos expériences montrent en particulier que le smesures distributionnelles permettent d’obtenir pour cette tâche de meilleurs résultats que les mesures utilisant WordNet. Nous montrons également qu’un clustering à deux niveaux permet non seulement de limiter le nombre de similarités sémantiques à calculer mais aussi d’améliorer la qualité des résultats du clustering

Mots clés

Unsupervised Information Extraction Semantic Similarity Relation Clustering

Extraction d’Information Non Supervisée Similarité Sémantique Clustering

Domaines

Recherche d'information [cs.IR] Traitement du texte et du document

Fichier principal

taln-2013-EIWW.pdf (1.23 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Olivier Ferret : Connectez-vous pour contacter le contributeur

https://cea.hal.science/cea-01858474

Soumis le : vendredi 27 septembre 2019-16:10:17

Dernière modification le : mercredi 3 avril 2024-11:14:12

Archivage à long terme le : lundi 10 février 2020-13:42:24

Dates et versions

cea-01858474 , version 1 (27-09-2019)

Identifiants

HAL Id : cea-01858474 , version 1

Citer

Wei Wang, Romaric Besançon, Olivier Ferret, Brigitte Grau. Regroupement sémantique de relations pour l'extraction d'information non supervisée. 20ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2013), Jun 2013, Les Sables d Olonne, France. pp.353-366. ⟨cea-01858474⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CEA CNRS LIMSI DRT LIST SORBONNE-UNIVERSITE LISN GS-SPORT-HUMAN-MOVEMENT

109 Consultations

51 Téléchargements