Deep regression models for spatio-temporal expression recognition in videos

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Rajasekhar, Gnana Praveen (2023). Deep regression models for spatio-temporal expression recognition in videos. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of RAJASEKHAR_Gnana_Praveen.pdf]

Prévisualisation

PDF
Télécharger (7MB) | Prévisualisation

Résumé

Automatic expression recognition (ER) is a challenging problem in the field of affective computing, playing an important role in human behavior understanding in, e.g., human-computer interaction, sociable robots, and driver assistance. ER can be formulated as the problem of classification or regression of expressions. Though regression of expressions plays a crucial role in many healthcare applications, such as estimating pain and fatigue levels, it remains relatively less explored compared to the classification of expressions. Fatigue detection is widely used in applications such as autonomous driving and employee engagement. Similarly, automatic pain assessment has an important potential diagnostic value for infants, young children, and people with communicative or neurological impairments. Fatigue is synchronous with pain, where high fatigue is associated with high pain, which can be found with the correlation of Visual Analog Scores (VASs) of fatigue and pain. Often pain expressions happen over a shorter period of time, while fatigue happens over a longer duration.

Some of the major challenges in dealing with regression of expressions are subtle variations across individuals, ambiguity across the contiguous frames pertinent to the intensities of expressions, identity bias, and sensor capture conditions. Moreover, most deep learning (DL) models demand a huge amount of data with annotations, which requires a lot of human support with domain expertise. Therefore, leveraging DL models for the regression of expressions with limited annotations remains to be a major bottleneck. Although audio-visual fusion is expected to outperform the unimodal performance, failing to efficiently leverage the complementary relationship across the audio and visual modalities often results in poor performance. This Thesis focus on the development of DL models for two problems: (1) weakly supervised domain adaptation (WSDA) for estimating the levels of pain and fatigue and (2) audio-visual (A-V) fusion for dimensional emotion recognition.

As a first contribution, a detailed review of weakly supervised learning (WSL) approaches is presented for facial behavior analysis. To provide a comprehensive review, action units (AUs), which is defined by the fundamental actions of individual facial movements or a group of facial movements, are also included along with expressions for both classification and regression. In particular, a taxonomy of methods in the literature for different WSL scenarios has been provided, along with their respective strengths and limitations. A review of widely used public datasets, experimental protocols, and experimental results is also provided for the evaluation of these state-of-the-art methods. Finally, our critical analysis of these methods provides insight into the potential research directions to leverage weakly-labeled data for facial behavior analysis. This review concludes that although WSL methods are promising in handling the weak labels of facial expressions in real-world scenarios, they are not effectively explored in the literature, and there is much room for advancing the state-of-the-art facial ER performance given data with weak annotations.

As a second contribution, a novel DL model for WSDA with ordinal regression (WSDA-OR) is proposed to estimate the levels of pain and fatigue from videos. DA has been widely explored to alleviate the problem of domain shifts that typically occur between video data captured across various source (laboratory) and target (operational) domains. In this work, WSDA is leveraged to adapt a DL model to different persons and capture conditions when the videos are weakly annotated. Contrary to prior state-of-the-art WSL models for estimating pain intensity in videos, the proposed model enforces the ordinal relationship among the pain intensity levels of the target sequences along with the temporal coherence of multiple consecutive frames. In particular, it learns discriminant and domain-invariant feature representations by integrating multiple-instance learning with deep adversarial DA, where soft Gaussian labels are used to efficiently represent weak ordinal sequence-level labels from the target domain. Experimental results on UNBC-McMaster, BIOVID, and Fatigue (private) datasets indicate that our proposed approach can significantly improve performance over state-of-the-art models, allowing us to achieve a greater pain localization accuracy.

As a third contribution, a joint cross-attention model is proposed for A-V fusion in dimensional ER based on facial and vocal modalities. Most state-of-the-art methods for A-V fusion rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complementary nature of A-V modalities. In this work, the complementary relationship across A-V modalities is effectively explored to extract the salient features, allowing for accurate prediction of continuous values of valence and arousal. Experimental results on RECOLA and Affwild2 indicate that our joint cross-attentional A-V fusion model provides a cost-effective solution that can outperform state-of-the-art approaches.

The work described in this Thesis indicates that efficiently adapting DL models with weakly labeled videos shows significant improvement over prior state-of-the-art methods for estimating pain and fatigue levels. This work shows that there is much room to further improve the proposed WSDA model to leverage the potential of DL models for unsupervised domain adaptation for the regression of expressions. This work has further shown that leveraging the complementary relationship across A and V modalities is a promising research direction for effective AV fusion. The proposed joint cross-attentional approach can also be further improved using gating mechanisms for effective modeling of intra and intermodal relationships as well as to handle corrupted modalities.

Titre traduit

Modèles de régression profonde pour la reconnaissance d’expressions spatio-temporelles d’expression dans les vidéos

Résumé traduit

La reconnaissance des expressions (RE) est un problème difficile dans le domaine de l’informatique affective, qui joue un rôle important dans la compréhension automatique des expressions et des émotions humaines. La reconnaissance des expressions peut être formulée autant comme un problème de classification que de régression. Bien que l’identification automatique des expressions exprimée comme un problème de régression joue un rôle crucial dans de nombreuses applications de santé, telles que l’estimation des niveaux de douleur et de fatigue, elle reste relativement peu explorée par rapport à la classification des expressions. La détection du niveau de fatigue est largement utilisée dans un certain nombre d’applications telles que la conduite autonome, les soins de santé et l’engagement des employés. Dans le même ordre d’idée, l’évaluation automatique du niveau de douleur a une valeur diagnostique potentielle importante pour les personnes telles que les nourrissons, les jeunes enfants et les personnes souffrant de troubles de la communication ou de troubles neurologiques. On a constaté que la fatigue est synchrone avec la douleur, une fatigue élevée étant associée à une douleur élevée, ce qui peut être constaté par la corrélation des scores analogiques visuels (VAS) de la fatigue et de la douleur. Cependant, l’expression de la douleur se produit sur une période plus courte, alors que la fatigue se manifeste sur une période plus longue.

Dans cette thèse, nous nous sommes principalement concentrés sur le développement de modèles profonds (DL) pour la reconnaissance des expressions basée sur la régression en tirant parti des relations spatio-temporelles ainsi que des modalités audio et visuelles disponibles dans les enregistrements vidéos. Les problèmes de régressions posent certains défis, tels que la capture de subtiles variations relatives à l’intensité des expressions entre deux images contiguës, les variations entre les individus et les conditions de capture, l’entraînement des modèles DL avec des vidéos faiblement étiquetées, la fusion efficace des modalités audio et visuelles, etc. Afin de d’amoindrir les effets de ces défis, nous nous concentrons sur le développement de modèles DL pour deux problèmes : (1) l’adaptation au domaine dans un contexte d’entrainement faiblement supervisée (WSDA) dans un problème d’estimation de l’intensité de la douleur, et (2) la fusion audio-visuelle (A-V) pour la reconnaissance dimensionnelle des émotions appliquée à la reconnaissance dimensionnelle des émotions.

Dans un premier temps, nous avons présenté une revue détaillée des approches d’apprentissage faiblement supervisé (WSL) dans le contexte de l’analyse du comportement facial. Afin de fournir une revue complète du domaine, nous avons également inclus l’utilisation des unités d’action (UA) en plus des expressions pour la classification et l’analyse du comportement facial. Nous avons également ajouté des unités d’action (UA) aux expressions pour les problèmes de régression. En particulier, nous avons fourni une taxonomie des méthodes existantes basées sur des scénarios WSL ainsi que leurs forces et limites respectives. Un examen des ensembles de données largement utilisés, des protocoles expérimentaux et des résultats expérimentaux sont également présentés et discutés. Enfin, notre analyse critique de ces méthodes permet de mieux comprendre les directions de recherche potentielles pour exploiter les données faiblement étiquetées dans le cadre de l’analyse du comportement facial. Cette revue conclut que les méthodes WSL sont prometteuses pour gérer les données faiblement étiquettés dans les bases de données contenant des expressions faciales obtenus à partir de scénarios réels mais qu’elles ne sont pas suffisament explorées dans la littérature. Il y a par conséquent beaucoup de place pour améliorer la performance de l’ER faciale à partir de données faiblement annotées.

La deuxième contribution propose un nouveau modèle de DL pour l’adaptation de domaine, avec régression ordinale (WSDA-OR) afin d’estimer l’intensité de la douleur et de la fatigue dans des enregistrements vidéos, le tout dans un problème de régression. L’adaptation au domaine a été largement exploré afin d’atténuer les problèmes dus aux changements de domaines, principalement causés par des conditions de captures différentes entre les données utilisées pour l’entrainement (en laboratoire) et en production. Dans ce travail, l’adaptation au domaine est exploitée pour adapter un modèle DL à différentes personnes et conditions d’enregistrement dans le contexte où les vidéos sont faiblement annotées. Contrairement aux modèles WSL de pointe utilisés pour l’estimation de l’intensité de la douleur dans les vidéos, le modèle proposé renforce la relation ordinale entre les niveaux d’intensité de la douleur des séquences cibles en même temps que la cohérence temporelle sur plusieurs images consécutives. En particulier, il apprend des représentations de caractéristiques qui sont à la fois discriminantes et invariantes par rapport au domaine en intégrant l’apprentissage d’instances multiples avec l’apprentissage contradictoire, où des étiquettes gaussiennes sont utilisées pour représenter efficacement les étiquettes ordinales faibles au niveau des séquences du domaine cible. Les résultats expérimentaux sur les ensembles de données UNBC-McMaster, BIOVID et Fatigue (private) indiquent que l’approche proposée peut améliorer significativement les performances lorsque comparée aux modèles de pointe, ce qui permet d’atteindre une plus grande précision dans la localisation de la douleur.

En troisième lieu, un modèle d’attention croisée est proposé pour la fusion A-V pour la reconnaissance dimensionnelle des émotions basée sur les modalités faciales et vocales. La plupart des méthodes de pointe pour la fusion A-V reposent sur des réseaux récurrents ou des mécanismes d’attention conventionnels qui n’exploitent pas efficacement la nature complémentaire des modalités A-V. Dans ce travail, la relation complémentaire entre les modalités A-V est explorée afin d’extraire les caractéristiques saillantes, ce qui permet une prédiction précise des valeurs continues de valence et d’excitation. Les résultats expérimentaux sur RECOLA et Affwild2 indiquent que notre modèle de fusion A-V inter-attentionnel fournit une solution rentable qui peut surpasser les approches les plus récentes.

Les travaux décrits dans cette thèse indiquent clairement que l’adaptation efficace des modèles DL avec des vidéos faiblement étiquetées montre une amélioration significative par rapport aux méthodes de pointe précédentes dans le contexte de l’estimation des niveaux de douleur et de fatigue. En outre, ce travail a montré que l’exploitation de la relation complémentaire entre les modalités A-V joue un rôle crucial dans la fusion efficace des modalités dans le domaine de la reconnaissance dimensionnelle des émotions. Ce travail montre en outre qu’exploiter la complémentarité entre les modalités A et V est un axe de recherche prometteur. L’approche interattentionnelle conjointe proposée pourrait également être améliorée en utilisant des mécanisme de porte ("gating") pour efficacement modéliser les relations intra et intermodales. De plus, l’approche proposée est plus résiliente lorsqu’une modalité n’est pas disponible.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 185-213).
Mots-clés libres:	apprentissage en profondeur, apprentissage à instances multiples, adaptation domaine, évaluation de la douleur, fusion audiovisuelle, reconnaissance dimensionnelle des émotions, modèles d’attention
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Granger, Éric
Codirecteur:	Codirecteur Cardinal, Patrick
Programme:	Doctorat en génie > Génie
Date de dépôt:	07 sept. 2023 17:38
Dernière modification:	07 sept. 2023 17:38
URI:	https://espace.etsmtl.ca/id/eprint/3267

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt