Une approche linguistique pour la détection des dialectes arabes - CEA - Commissariat à l’énergie atomique et aux énergies alternatives Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Une approche linguistique pour la détection des dialectes arabes

Résumé

A linguistic approach for the detection of Arabic dialects. In this work, we present the automatic identification process of the dialectal origin of the Arabic language in text written in Arabic characters and in Latin characters (Arabizi). We describe the annotation process of the constructed resources and the transliteration system. We compare two systems : the linguistic one is based on dictionary lookup, the statistical one is based on machine learning (ngrams). the evaluation of those systems shows that the linguistic approach obtains good results, without relying on a training corpus
Dans cet article, nous présentons un processus d'identification automatique de l'origine dialectale pour la langue arabe de textes écrits en caractères arabes ou en écriture latine (arabizi). Nous décrivons le processus d'annotation des ressources construites et du système de translittération adopté. Deux approches d'identification de la langue sont comparées : la première est linguistique et exploite des dictionnaires, la seconde est statistique et repose sur des méthodes traditionnelles d'apprentissage automatique (n-grammes). L'évaluation de ces approches montre que la méthode linguistique donne des résultats satisfaisants, sans être dépendante des corpus d'apprentissage..
Fichier principal
Vignette du fichier
DetectionDialectesArabes_SaadaneNouvelSeffihFluhr_2017.pdf (205.35 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02012244 , version 1 (08-02-2019)

Identifiants

  • HAL Id : hal-02012244 , version 1

Citer

Houda Saadane, Damien Nouvel, Hosni Seffih, Christian Fluhr. Une approche linguistique pour la détection des dialectes arabes. 2017-06-26, 2017, Orléans, France. ⟨hal-02012244⟩
169 Consultations
319 Téléchargements

Partager

Gmail Facebook X LinkedIn More