Teixeira, Thomas (2020). Reconnaissance multi-dimensionnelle de l’émotion par apprentissage profond de caractéristiques spatio-temporelles sur séquences vidéo. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (6MB) | Prévisualisation |
Résumé
L’informatique affective et la reconnaissance d’émotions ont connu un intérêt croissant dans plusieurs domaines de recherche durant ces dernières décennies. En particulier, les expressions faciales représentent un des moyens les plus efficaces pour le relevé des éléments caractéristiques du comportement humain et décrire un état émotionnel. Néanmoins, même pour l’homme, identifier les expressions faciales est une tâche complexe, et les systèmes automatiques de reconnaissance d’expressions faciales (REF) basés sur l’image ont souvent souffert du manque de données pour l’entraînement de modèles d’apprentissage profond de caractéristiques. Avec la transition progressive des systèmes vers l’analyse de séquences vidéo, récoltées en conditions naturelles, et avec des modèles plus complexes de représentation de l’émotion tels que le modèle dimensionnel du circumplex (caractérisant l’émotion selon deux axes de valeurs : la valence et l’excitation), les systèmes REF sont capables d’apprendre des caractéristiques du visage plus précises et plus discriminantes.
Par ailleurs, la plupart des modèles présentés actuellement, basés sur les réseaux de neurones à convolutions (CNNs) et combinés avec des réseaux de neurones récurrents (RNNs) ont été proposés pour reconnaître l’émotion mais souvent repose sur des modèles de représentation de l’affect en catégorie d’émotions. Et encore peu d’études font cas de modèle 3D-CNN pour la reconnaissance d’émotions basée sur des modèles de représentation multi-dimensionnels. De plus encore peu de modèles 3D-CNN pré-entraînés pour des tâches de reconnaissance d’expression faciales sont actuellement disponible. Ce qui au vue de la quantité de données disponibles rend complexe le développement de modèles 3D CNN.
Dans ce mémoire, nous proposons de développer deux types d’approches faisant actuellement référence pour la représentation de caractéristiques spatio-temporelle du visage et la régression des valeurs de valence et excitation (arousal) de l’émotion. D’une part nous nous sommes intéressés à une architecture en cascade de type CNN-LSTM. D’autres part, une architecture 3D-CNN, pour laquelle nous appliquons le principe d’inflation des poids de modèles 2D-CNN proposé par Carreira & Zisserman (2017) afin d’opérer le transfert d’apprentissage si essentiel à notre application. Le transfert d’apprentissage nous permet en effet ,de manière préliminaire, de spécialiser nos modèles à des applications se rapprochant le plus possible de notre application finale, et ainsi obtenir une meilleure convergence lors de l’apprentissage.
En premier lieu, notre étude fait une description des différentes étapes importantes pour la conception de modèles d’apprentissage automatiques (pré-traitement, transfert d’apprentissage, post-traitement). Nous détaillons ensuite les étapes de développement de chacune des architectures, et les variables inhérentes à leur conception. La conception de modèles i3D (inflated-3D CNN) se montre notamment très flexible quant à l’initialisation des paramètres des modèles et nous a permis de développer une nouvelle technique d’apprentissage. Grâce à l’inflation des poids, il est notamment possible de faire la distinction entre les poids initiaux 2D et les poids étendus, différenciant ainsi les poids associés au domaine spatial de ceux associés au domaine temporel. Enfin la dernière partie, détaille les résultats expérimentaux de nos différentes approches expérimentales validant plusieurs hypothèses de la littérature quant aux modèles à convolutions.
Titre traduit
Multi-dimensional emotion recognition with deep learning of spatio-temporal features on video sequences
Résumé traduit
Affect computing and emotion recognition have shown an increased interest in several research areas for the past decades. Notably, facial expressions are one of the most powerful ways for depicting specific patterns in human behavior and describing human emotional state. Nevertheless, even for human, identifying facial expressions is difficult, and automatic facial expression recognition (FER) systems based on images have often suffered from a lack of various and cross-cultures training data. With the slight shift to video sequences with in-the-wild settings and more complex emotion representation such as dimensional models, deep FER systems has the ability to learn more accurate and discriminative features.
Furthermore, most models, based on Convolutional Neural Networks (CNNs) and combined with Recurrent Neural Networks (RNNs), have been proposed for recognizing emotions but often lied on short video sequences for categorical model predictions. And still, few studies are interested in 3D-CNN models for recognizing emotion and based on multi-dimensional representation. Moreover, few pre-trained 3D-CNN models are currently available for FER tasks. Which make the development of 3D-CNN more complex, regarding the amount of available data.
Furthermore, most models, based on Convolutional Neural Networks (CNNs) and combined with Recurrent Neural Networks (RNNs), have been proposed for recognizing emotions but often lied on short video sequences for categorical model predictions. And still, few studies are interested in 3D-CNN models for recognizing emotion and based on multi-dimensional representation. Moreover, few pre-trained 3D-CNN models are currently available for FER tasks. Which make the development of 3D-CNN more complex, regarding the amount of available data.
Firstly, our study describe the different main stages for the design of deep FER models (preprocessing, transfer learning, post-processing). Then, we detail, the development steps of each architecture, and the related variables for our approach. The design of i3D models showed particularly flexible regarding the initialization of model parameters and allowed us to develop a new fine tuning method of deep architecture. Thanks to the weight inflation method, it is possible to make distinction between initial 2D weights and extended weights, thus differenciating weights associated to the spatial domain from weights associated to the temporal domain. Finally, the last part, details the experimental results of our different approaches validating several assumptions from the litterature regarding convolutional models.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire en génie électrique. Comprend des références bibliographiques (pages 111-121). |
Mots-clés libres: | informatique affective, reconnaissance d’émotions, expressions faciales, apprentissage profond, modèle du circumplex pour la représentation de l’émotion, réseaux de neurones à convolutions, 3D-CNN, transfert d’apprentissage |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Lameiras Koerich, Alessandro |
Codirecteur: | Codirecteur Granger, Éric |
Programme: | Maîtrise en ingénierie > Génie électrique |
Date de dépôt: | 15 déc. 2020 15:24 |
Dernière modification: | 15 déc. 2020 15:24 |
URI: | https://espace.etsmtl.ca/id/eprint/2625 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |