La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Reconnaissance automatique des émotions à partir du signal acoustique

Attabi, Yazid (2008). Reconnaissance automatique des émotions à partir du signal acoustique. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (45MB) | Prévisualisation
[img]
Prévisualisation
PDF
Télécharger (198kB) | Prévisualisation
[img]
Prévisualisation
PDF
Télécharger (6MB) | Prévisualisation

Résumé

Nous nous intéressons à la détection automatique des appels problématiques dans un contexte réel de centres d'appels téléphoniques. Nous utilisons l'information sur l'état émotionnel du locuteur, véhiculée par le signal acoustique, pour détecter les problèmes de compréhension entre un locuteur et un système de dialogue humain-machine. Notre contribution se situe à deux niveaux. Au premier niveau, nous avons développé un système de reconnaissance automatique des émotions (RAE) basé sur les traits de type MFCC, avec la célérité et l'accélération, extraits au niveau d'une trame, analysés à l'échelle d'un énoncé, et modélisés par un mélange de gaussiennes. Nous avons optimisé les performances de ce système en ajustant trois types de paramètres : le nombre de mélanges de gaussiennes, l'utilisation de coefficients MFCC d'ordre supérieur (20 versus 13 coefficients) et l'utilisation d'un modèle du monde (UBM) pour l'entraînement des modèles GMM. Le système a été entraîné et testé pour reconnaître les classes des émotions du corpus de données LDC Emotional Prosody (LDC). D'après les résultats obtenus, nous avons apporté une amélioration de l'ordre de 11% par rapport aux meilleurs résultats de l'état de l'art utilisant le même corpus de données pour l'expérience neutre vs tristesse alors que nous avons reproduit les meilleures performances pour l'expérience neutre vs colère et pour rexpérience avec 15 classes d'émotions.

Notre seconde contribution est l'expérimentation d'un nouveau modèle de système de RAE basé sur l'information prosodique à long terme obtenue par une approximation des courbes de l'énergie et de la fréquence fondamentale par des coefficients de polynômes de Legendre sur une échelle d'analyse appelée pseudosyllabe. Afin de mesurer l'efficacité de ce type de trait à long terme et de l'unité d'analyse, nous avons réalisé une comparaison de performance entre ce système et un système exploitant l'information prosodique à court terme (niveau de trame) sur l'échelle d'un énoncé. Les taux de reconnaissance obtenus avec"un système basé sur la pseudosyllabe et les coefficients de polynômes de Legendre et expérimenté avec le corpus LDC, sont nettement supérieurs à ceux d'un système basé sur Vénoncé et l'information à court terme. Le gain relatif réalisé est de l'ordre de 6% pour la reconnaissance des émotions neutre vs colère, tandis que ce gain est de l'ordre 91% pour neutre vs tristesse. Enfin, nous avons obtenu une amélioration de l'ordre de 41% pour la détection de 15 classes d'émotions.

Résumé traduit

This research concems the automatic identification of problematic dialogs in a context of real telephone calls centers. Information on the speaker emotional state conveyed by the acoustic signal is used to detect human-machine communication problems.

Our contribution lies at two levels. At the first level, an automatic emotion recognition System based on MFCC with speed and acceleration features extracted for each frame, analyzed on utterance level and modeled by a Gaussian mixture is developed. In order to maximize the performance of our System, we have tuned three types of parameters: the number of Gaussian mixtures, the use of the UBM model to train emotion classes models and the extension of the feature vector dimension to the higher order MFCC coefficients (from 13 to 20 coefficients). The System has been trained and tested using the LDC Emotional Prosody(LDC)corpus. The results show that we obtain a relative improvement of about 11 % compared to the best results of the state of the art using the same corpus to recognize neutral vs. sadness emotions. We have also achieved the best performance for the recognition of neutral vs. anger emotions and for the experience with fifteen emotion classes.

Our second contribution is the experimentation of a new model of Automatic Emotional Recognizer system based on long-term prosodic information based on approximation of the energy and the fundamental frequency curves by Legendre polynomials coefficients computed at pseudo-syllable level. To evaluate the efficiency of this type of long-term feature with this analysis unit, we compare the performance of this system to that of a System operating on short term information (at frame level), analyzed on the utterance level. The accuracy achieved with a system based on the pseudo-syllable and Legendre polynomials coefficients and trained and tested using LDC "corpus is much higher than the one obtained with a System based on the utterance and the short term information. The relative gain obtained is about 6% for the recognition of neutral vs. anger emotions. We also improved the accuracy by 91% for neutral vs. sadness experience and, finally, the relative gain is 41% for the experience with 15 emotions.

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: La page 5 est manquante dans le document principal, on la retrouve dans un fichier à part. "Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en génie". Bibliogr : f. [113]-129.
Mots-clés libres: Traitement automatique de la parole. Polynômes de Legendre. automatique, détection des dialogues problématiques, dialogue, emotion, énoncé, gmm, map, mfcc, LDC Emotional Prosody, parole, polynôme de Legendre, problematique, prosodie, pseudosyllabe, reconnaissance, signal
Directeur de mémoire/thèse:
Directeur de thèse
Dumouchel, Pierre
Programme: Maîtrise en ingénierie > Génie
Date de dépôt: 04 août 2010 13:10
Dernière modification: 01 déc. 2016 20:59
URI: http://espace.etsmtl.ca/id/eprint/168

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...