Multi-modal Fusion for Continuous Emotion Recognition by Using Auto-Encoders

Salam Hamieh; Vincent Heiries; Hussein Al Osman; Christelle Godin

doi:10.1145/3475957.3484455

Communication Dans Un Congrès Année : 2021

Multi-modal Fusion for Continuous Emotion Recognition by Using Auto-Encoders

(1) , (1) , (2) , (1)

1
2

Salam Hamieh

Fonction : Auteur correspondant
PersonId : 1122569

Connectez-vous pour contacter l'auteur

Département Systèmes

Vincent Heiries

Fonction : Auteur
PersonId : 948855

Département Systèmes

Hussein Al Osman

Fonction : Auteur

Université d'Ottawa [Ontario]

Christelle Godin

Fonction : Auteur
PersonId : 859057

Département Systèmes

Résumé

Human stress detection is of great importance for monitoring mental health. The Multimodal Sentiment Analysis Challenge (MuSe) 2021 focuses on emotion, physiological-emotion, and stress recognition as well as sentiment classification by exploiting several modalities. In this paper, we present our solution for the Muse-Stress sub-challenge. The target of this sub-challenge is continuous prediction of arousal and valence for people under stressful conditions where text transcripts and audio and video recordings are provided. To this end, we utilize bidirectional Long Short-Term Memory (LSTM) and Gated Recurrent Unit networks (GRU) to explore high-level and low-level features from different modalities. We employ Concordance Correlation Coefficient (CCC) as a loss function and evaluation metric for our model. To improve the unimodal predictions, we add difficulty indicators of the data obtained by using Auto-Encoders. Finally, we perform late fusion on our unimodal predictions in addition to the difficulty indicators to obtain our final predictions. With this approach, we achieve CCC of 0.4278 and 0.5951 for arousal and valence respectively, our submission to MuSe 2021 ranks in the top three for arousal and fourth for valence.

Mots clés

Affective Computing Emotion Estimation Long Short-Term Memory Gated Recurrent Unit Auto-encoders Multi-modality Audio Video Stress

Domaines

Informatique

Fichier principal

Hamieh et al. - 2021 - Multi-modal Fusion for Continuous Emotion Recognit.pdf (1.28 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Contributeur MAP CEA : Connectez-vous pour contacter le contributeur

https://cea.hal.science/cea-03517175

Soumis le : vendredi 7 janvier 2022-16:12:27

Dernière modification le : mercredi 3 avril 2024-11:14:11

Archivage à long terme le : vendredi 8 avril 2022-19:45:33

Dates et versions

cea-03517175 , version 1 (07-01-2022)

Licence

Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales

Identifiants

HAL Id : cea-03517175 , version 1
DOI : 10.1145/3475957.3484455

Citer

Salam Hamieh, Vincent Heiries, Hussein Al Osman, Christelle Godin. Multi-modal Fusion for Continuous Emotion Recognition by Using Auto-Encoders. MM '21: ACM Multimedia Conference, Oct 2021, Virtual Event China, France. pp.21-27, ⟨10.1145/3475957.3484455⟩. ⟨cea-03517175⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CEA DRT LETI CEA-GRE

91 Consultations

93 Téléchargements

Multi-modal Fusion for Continuous Emotion Recognition by Using Auto-Encoders

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Altmetric

Partager