Attabi, Yazid (2015). Reconnaissance automatique des émotions spontanées à partir du signal de parole. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (1MB) | Prévisualisation |
Résumé
La reconnaissance automatique des émotions (RAE) à partir de la parole est une tâche difficile particulièrement lorsqu'il s’agit de classer des expressions spontanées issues du monde réel. Les émotions spontanées sont souvent subtiles, parfois mixtes, de courtes durées, caractérisées par une grande variabilité intraclasse en plus d’avoir une distribution de classes sévèrement biaisée. C’est dans ce contexte que s’inscrit notre objectif de proposer une méthodologie capable d'améliorer les performances des systèmes de RAE actuels.
La méthodologie proposée est motivée par les connaissances a priori sur les modèles théoriques des émotions en psychologie. L’idée est d’intégrer les concepts du modèle d’émotion dimensionnel dans la conception de classificateurs d’émotions discrètes. Deux concepts ont été dégagés du modèle dimensionnel : l’existence d’un espace dimensionnel dans lequel les émotions catégoriques peuvent être projetées et l’existence d’une relation de proximité entre ces catégories d’émotion relativement à chacune de ces dimensions. Le premier concept s’est traduit par l’extraction de traits de haut niveau destinés à jouer un rôle similaire à celui incarné par les dimensions du modèle théorique. Le second a motivé l’adoption d’une approche basée sur la similarité pour la représentation et la classification des émotions. Nous avons montré que les scores de vraisemblances générés par les modèles GMM constituent de puissants traits de similarité pour la RAE et répond bien à la contrainte relative à la taille limitée des énoncés.
Nous avons proposé une première méthode de classification, intitulée le plus proche patron de similarité pondéré. Cette méthode est bâtie autour d’un nouveau vecteur caractérisant un énoncé à travers la description de son patron de classes voisines. Les classes au sein d’un patron sont ordonnées selon leurs degrés de proximité estimés sur la base des scores de vraisemblance. Contrairement à la règle de décision Bayes, les rangs de tous les scores influencent la décision de classification. Deux types de modèles ont été proposés et expérimentés : linéaire et non linéaire.
Nous avons proposé également les modèles d'ancrage comme méthode de classification des émotions mais aussi comme outils d’aide à l’analyse du contenu émotionnel utile en psychologie. Les énoncés sont projetés dans un espace continu où chaque dimension est engendrée par un modèle de classe d’émotion qui mesure le degré de similarité d’un énoncé avec cette classe. Nous avons montré qu’il était possible d’appliquer avec succès les modèles d’ancrage aussi bien dans un contexte d’un problème multi-classe que celui d’une classification binaire- à travers une extension de l’espace d’ancrage avec de nouveaux modèles externes. Nous avons analysé et comparé les performances des modèles d’ancrage basés sur la distance euclidienne et cosinus en se basant sur les propriétés géométriques de leurs frontières de décision. Par ailleurs, nous avons montré que les modèles d’ancrage peuvent servir aussi comme méthode puissante de combinaison de classificateurs moyennant une normalisation des scores plus adaptée au contexte de fusion. Leurs bonnes performances et leurs propriétés intéressantes (ex., insensibilité à la distribution biaisée des classes) font des modèles d’ancrage des solutions très adéquates au problème de RAE comparés à d’autres systèmes plus complexes.
Enfin, sur le plan des descripteurs acoustiques, de nouveaux traits plus discriminatifs ont été proposés. La combinaison de ces traits au moyen des modèles d’ancrage a permis de dépasser les résultats de l’état de l’art quand testés sur FAU AIBO Emotion, un corpus d’émotions spontanées commun à la communauté de recherche en RAE.
Titre traduit
Automatic emotion recognition in spontaneous speech
Résumé traduit
Automatic emotions recognition (AER) from speech is a challenging task especially when dealing with real-life affective expressions. Spontaneous emotions are often subtle, sometimes mixed, of short periods, with large intra-class variability, in addition to have a skewed class distribution. It is in this context that our objective to propose a methodology capable of improving the performance of current AER systems is inscribed.
The proposed methodology is motivated by prior knowledge on theoretical models of emotion in psychology. The idea is to integrate the concepts of dimensional emotion model in the design of discrete emotions classifiers. Two concepts were identified from the dimensional model: the existence of a dimensional space in which categorical emotions can be projected and the existence of a similarity relationship between these categories of emotion with respect to each of these dimensions. The first concept leads to the extraction of high-level features that are intended to play a role similar to that played by the dimensions of the theoretical model. The second concept has motivated the adoption of a similarity-based approach for emotions representation and classification. We have shown that the likelihood scores generated by GMM models are powerful similarity-based features for AER task and responds well to the issue of the short duration length of utterances.
We have proposed a first method of classification, entitled weighted ordered class-nearest neighbors. This method is built around a new feature vector describing an utterance by its pattern of neighboring emotion classes. The classes inside the pattern are ordered according to their proximities and estimated on the likelihood scores basis. Unlike the Bayes decision rule, the ranks of all scores influence the classification decision. Two types of models have been proposed and tested: linear and nonlinear.
We also proposed anchor models as emotion classification method but which can be also used as a tool for emotional content analysis in psychology studies. The utterances are projected in a continuous space where each dimension is spanned by an emotion class model that measures the similarity level of an utterance with respect to this class. We have shown that it is also possible to successfully apply anchor models for multi-class problem context as for a binary classification one by expanding the anchor space with new external models. We analyzed and compared Euclidean- and cosine-based anchor models performances based on geometric properties of their decision boundaries. Furthermore, we showed that the Anchor models can also be used as a powerful method of combining classifiers subject to scores normalization more suited for the fusion context. Their performances and their properties (e.g., insensitivity to skewed class distribution) make of anchor models very suitable solutions for AER task compared to more complex systems.
Finally, in terms of acoustic descriptors, new and more discriminative features have been proposed. The results achieved by fusion of these features using the anchor models outperformed the state-of-the-art when tested on FAU Emotions AIBO, a benchmark spontaneous emotion corpus for the AER research community.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Thèse présentée à l'École de technologie supérieure comme exigence partielle à l'obtention du doctorat en génie". Bibliographie : pages 217-243. |
Mots-clés libres: | Émotions Classification. Classification automatique. Systèmes de classeurs. Traitement automatique de la parole. Langage et émotions. ancrage, émotion, modèle, reconnaissance, similarité, patron de voisinage pondéré, modèles de référence, combinaison de classificateurs, AMCC, Spectrum multitaper |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Dumouchel, Pierre |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 20 janv. 2016 19:17 |
Dernière modification: | 14 mars 2017 01:08 |
URI: | https://espace.etsmtl.ca/id/eprint/1611 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |