Aminbeidokhti, Masih (2020). Deep audio and video emotion detection. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (2MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (335kB) | Prévisualisation |
Résumé
Human beings rely on two capacities for successful social interactions Cowie et al. (2001). The first is more obvious and explicitly conveys messages which may be about anything or nothing and the other is more subtl and transmits implicit messages about the speakers themselves. In the last few years with the advancement of technology, interpretation of the first channel becomes more feasible. For instance, speech processing systems can easily convert a voice to text or computer vision systems can detect a face in an image. The second channel is still not as well understood. One of the key elements for exploiting the second one is interpreting human emotion. To solve the problem, earlier works in emotion recognition have relied on handcrafted features by incorporating domain knowledge into the underlying system. However, in the last few years, deep neural networks have proven to be effective models for tackling a variety of tasks.
In this dissertation, we explore the effects of applying deep learning methods to the emotion recognition task. We demonstrate these methods by learning rich representations achieve superior accuracy over traditional techniques. Moreover, we demonstrate our methods are not bound to emotion recognition task and other classes of tasks such as multi-label classification can get benefit from our approaches.
The first part of this work focuses only on the task of video-based emotion recognition using only visual inputs. We show that by exploiting information from the spatial and temporal aspects of input data we can get promising results. In the second part, we move our attention to multimodal data. Particularly we focus on how to fuse multimodal data. We introduce a new architecture that incorporates the best features from early and late fusion architecture.
Titre traduit
Détection d’émotions audio et vidéo profondes
Résumé traduit
Les êtres humains utilisent principalement deux méthodes de communication pour réussir leurs interactions sociales Cowie et al. (2001). La première, la plus évidente, la parole permet de transmettre explicitement les messages pour une grande variété de situations, l’autre, l’emotion humaine, est plus subtile et transmet des messages implicites sur les personnes eux-mêmes. Au cours des dernières années, avec l’avancement de la technologie, l’interprétation du premier canal est devenue de plus en plus facile. Par exemple, les systèmes de traitement de la parole peuvent facilement convertir la parole en texte ou les systèmes de vision par ordinateur peuvent détecter un visage dans une image. Le deuxième canal de communication n’est pas encore aussi bien maîtrisé. L’un des éléments clés de l’exploitation de la communication implicite est l’interprétation de l’émotion humaine, qui une tâche assez difficile, même pour les humains. Pour résoudre ce problème, les travaux antérieurs sur la reconnaissance des émotions se sont appuyés sur des caractéristiques faites à la main en incorporant la connaissance du domaine dans le système sous-jacent. Cependant, au cours des dernières années, les réseaux neuronaux profonds se sont avérés être des modèles efficaces pour s’attaquer à une variété de tâches.
Dans cette thèse, nous explorons les effets de l’application de méthodes d’apprentissages profonds à la tâche de la reconnaissance des émotions. Nous démontrons ces méthodes en montrant que les représentations obtenus sont plus riches et atteignent une précision supérieure à celle des techniques traditionnelles. De plus, nous démontrons que nos méthodes ne sont pas liées aux tâches de reconnaissance des émotions et que d’autres catégories de tâches telles que la classification multi-étiquettes peuvent aussi bénéficier de nos approches.
La première partie de ce travail se concentre uniquement sur la tâche de la reconnaissance des émotions par la vidéo en utilisant uniquement des entrées visuelles. Nous montrons qu’en exploitant l’information des aspects spatiaux et temporels des données d’entrée, nous pouvons obtenir des résultats prometteurs. Dans la deuxième partie, nous portons notre attention sur les données multimodales. Nous nous concentrons en particulier sur la manière de fusionner les données multimodales. Nous introduisons ensuite une nouvelle architecture qui incorpore les meilleures caractéristiques des architectures de fusion précoce et tardive.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment for a master’s degree with thesis in information technology engineering". Comprend des références bibliographiques (pages 47-53) |
Mots-clés libres: | informatique affective, reconnaissance des émotions, mécanismes d’attention, réseaux neuronaux convolutionnels, fusion multimodale |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Cardinal, Patrick |
Codirecteur: | Codirecteur Pedersoli, Marco |
Programme: | Maîtrise en ingénierie > Génie des technologies de l'information |
Date de dépôt: | 07 janv. 2021 18:55 |
Dernière modification: | 07 janv. 2021 18:55 |
URI: | https://espace.etsmtl.ca/id/eprint/2586 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |