Ayral, Théo (2021). Spatio-temporal facial expression recognition with 3D convolutional neural networks. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (7MB) | Prévisualisation |
Résumé
In this thesis, focus is set on spatiotemporal 3D convolutional neural networks (3D CNNs) for facial expression recognition (FER) in videos. Over the last decade, deep learning has emerged as a state-of-the-art paradigm for FER and spatiotemporal recognition. The transition of research focus toward deep learning was also a regression from spatiotemporal to spatial methods. Models are increasingly dependent on the quantity of training data, favouring 2D-image datasets over videos which are more difficult to collect, label and process.
Different approaches to spatiotemporal FER are evaluated, leveraging pretrained deep-learning models. The 3D-convolution paradigm for video classification is analyzed, questioning the relevance of considering spatial and temporal dimensions of video data as forming a unified 3D volume. To cope with the computational requirements and scarcity of data, clip sampling is commonly adopted for training 3D CNNs. To increase performance within this framework, a new method is developed. The proposed temporal stochastic softmax is based on a weighted clip-sampling mechanism. This method allows the model to focus on the most relevant clips, for efficient training and accurate recognition. Experiments are carried out on several video classification tasks, focusing on facial expression recognition, and discussions are provided concerning the relevance of such weighted temporal sampling and pooling mechanisms in addressing common issues such as occlusion, inaccurate trimming and coarse annotation of videos, and uneven distribution of discriminant cues across time. In addition, the study explores visual attention mechanisms, as a way to implement more complex weighting behaviors for masking or highlighting regions of the input videos. The different attentional behaviors that can be developed with 3D CNNs are analyzed, and their relevance is discussed in the context of spatiotemporal recognition and FER specifically. Experiments notably demonstrate the benefits of guiding attention with contextual representations, summarizing the global information of the video. The study discusses the relative importance of temporal frames in a video, to address the heterogeneous distribution of relevant cues in time. The proposed methods increase the performance of 3D CNNs on all benchmarks, providing better ways to learn from data. Such methods for efficient spatiotemporal recognition should become more and more important as larger datasets become available in the future, allowing richer training of 3D CNNs.
Titre traduit
Réseaux de neurones convolutifs 3D pour la reconnaissance spatio-temporelle d’expressions faciales
Résumé traduit
Notre étude concerne les réseaux de neurones convolutifs 3D(3D ConvolutionalNeuralNetworks, 3D-CNNs) pour la reconnaissance d’expressions faciales (Facial Expression Recognition, FER) dans les vidéos. Au cours des dernières années, l’apprentissage profond s’est imposé comme un principe majeur pour le développement de systèmes automatiques pour la FER. La transition de l’effort de recherche vers les systèmes d’apprentissage profond s’accompagne aussi d’une régression vers les méthodes spatiales, les modèles étant de plus en plus dépendants de la quantité de données d’entraînement, ce qui favorise les bases de données d’images 2D par rapport aux vidéos qui sont plus difficiles à collecter, annoter et analyser.
Dans ce mémoire, différentes approches pour la FER spatio-temporelle sont évaluées, utilisant des modèles d’apprentissage profond pré-entraînés. L’étude se concentre notamment sur le principe de convolutions 3D pour la classification de vidéos, questionnant la pertinence d’un traitement unifié des dimensions spatiales et temporelle, considérant les vidéos comme des volumes de données 3D. Pour limiter le coût de calculs et la consommation de mémoire, et pour gérer la relative rareté des données annotées, l’entraînement des réseaux 3D est généralement réalisé avec des clips vidéos très courts, extraits depuis les vidéos d’entraînement. Une nouvelle méthode est proposée pour l’amélioration des performances des modèles 3D. Le softmax stochastique temporel ainsi développé est basé sur une pondération temporelle du mécanisme de sélection des clips d’entraînement. Cette méthode permet au modèle de se concentrer sur les clips les plus pertinents, résultant dans l’amélioration de l’efficacité de l’entraînement et des performances de classification. Des expériences sont réalisées sur différentes tâches de classification vidéo, principalement en FER, montrant la pertinence d’une telle pondération des mécanismes d’échantillonnage et d’agrégation temporels pour répondre aux problèmes habituels tels que l’occlusion, le découpage imprécis et l’annotation grossière des vidéos, et la distribution inégale de l’information pertinente dans les vidéos au cours du temps. De plus, l’étude se porte sur les mécanismes d’attention visuelle, pour opérer des pondérations plus complexes inhibant ou renforçant certaines régions de vidéo. Les différents types d’attention qui peuvent être développés pour les 3D-CNNs sont analysés, clarifiant leur pertinence pour la reconnaissance spatio-temporelle et la FER en particulier. Les expériences montrent notamment l’intérêt d’une représentation contextuelle, intégrant le contenu global de la vidéo, pour guider l’attention sur certaines positions. À travers ces thèmes, l’étude porte sur l’importance relative des frames temporelles dans une vidéo, pour répondre à la distribution inégale de l’information pertinente dans le temps.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | “Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in automated manufacturing engineering”. Comprend des références bibliographiques (pages 141-158). |
Mots-clés libres: | informatique affective, reconnaissance d’expressions faciales, reconnaissance spatio-temporelle, apprentissage profond, 3D CNNs, attention visuelle |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Granger, Éric |
Codirecteur: | Codirecteur Pedersoli, Marco Bacon, Simon |
Programme: | Maîtrise en ingénierie > Génie de la production automatisée |
Date de dépôt: | 18 mars 2022 13:20 |
Dernière modification: | 18 mars 2022 13:20 |
URI: | https://espace.etsmtl.ca/id/eprint/2929 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |