Garraoui, Helmi (2021). Annotation automatique des gestes dans des vidéos de personnes âgées durant des conversations spontanées. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Résumé
L’étude des gestes de l’humain en général et les mouvements de la tête et des mains en particulier constitue une partie importante de la communication non verbale. C’est pour cette raison le nombre des études qui portent sur l’analyse des gestes ne cesse pas d’augmenter Parmi ces études on trouve celles qui concernent l’analyse des vidéos afin de reconnaître et interpréter des informations spécifiques dans une conversation à travers l'annotation des gestes. Annoter les mouvements de la tête et des mains peut être une tâche difficile dans le cas des personnes âgées, car les capacités motrices et sensorielles diminuent avec l'âge. Présentement, l’annotation des gestes dans les vidéos se fait d’une façon manuelle. Ceci présente plusieurs limites. Elle est fastidieuse et imprécise vue qu’elle est soumise à la variabilité des annotateurs. De même ce type d’annotation est couteux puisque il ne peut être réalisé que par des experts. De plus les conclusions tirées ne sont pas robustes étant donné que l’annotation manuelle est souvent appliquée à des petits échantillons. Dans ce travail de recherche, nous avons proposé deux approches automatiques pour annoter les mouvements des mains et les mouvements de la tête. Ces approches sont basées sur des techniques d’apprentissage profond à savoir, le CNN et le RNN. Nous avons recours à une vérité terrain réalisée par des experts afin de valider les approches proposées.
Dans un premier temps, nous avons proposé une approche pour annoter les mouvements de la tête. La méthode développée est inspirée des standards développés par des experts dans le domaine linguistique. Le problème d’annotation a été modélisé comme un exercice de classification. Chaque geste simple, composé d’un seul mouvement, constitue une classe alors que les gestes complexes, composés de plus d’un mouvement, sont classés dans une seule classe. Pour ce faire, nous avons implémenté une méthode basée sur la technique de MTCNN, cette technique a été utilisée pour détecter le visage. Puis le LSTM est appliqué pour prédire la classe de chaque mouvement.
Dans un second temps, nous avons proposé une approche pour automatiser les phases gestuelles des mains qui existent dans la littérature depuis les années quatre-vingt. Nous nous sommes basés sur des études antérieures utilisées dans la classification des phases gestuelles. La stratégie utilisée pour annoter automatiquement les phases gestuelles est similaire à celle proposée pour annoter les mouvements des mains. En effet, le problème d’annotation est considéré comme un problème de classification. Sur un plan technique, nous avons utilisé le MobileNet pour détecter les mains et le LSTM pour prédire la phase en question.
Les approches proposées nous ont permis de réduire le coût des annotations manuelles, de minimiser le temps de travail et de fournir une annotation plus scientifique en diminuant l'impact de la subjectivité causée par l'imprécision générée par une analyse visuelle des gestes dans une vidéo. Les résultats proposent deux axes de recherche à explorer.
Premièrement, le processus d’annotation automatique des comportements non verbaux dans les vidéos est possible. Deuxièmement, les algorithmes d’apprentissage profond peuvent identifier des caractéristiques qui ne correspondent pas totalement aux observations des experts. Cette particularité établit clairement un nouveau dialogue entre les chercheurs en intelligence artificielle, les chercheurs en linguistique et les chercheurs dans les domaines liés à la communication et au vieillissement, quant à l’interprétation des résultats et des caractéristiques à partir de vidéos
Titre traduit
Automatic annotation of gestures in videos of elderly people during spontaneous conversations
Résumé traduit
The study of human gestures in general and the movements of the head and hands in particular is an important part of non-verbal communication. For this reason the number of studies related to gestures analysis follows an increasing curve. Among these studies are those which concern the videos analysis in order to recognize and interpret specific information in a conversation through gestures annotation. Noting head and hand movements of elderly people can be a difficult task, since motor and sensory skills decline with age. Currently, the annotation of gestures in videos is done manually. This has several limitations. It is tedious and imprecise since it is subject to the variability of the annotators. Likewise, this type of annotation is expensive since it must be carried out only by experts. In addition, the conclusions drawn are not robust since manual annotation is often applied to small samples. In this research work, we have proposed two automatic approaches to annotate hand movements and head movements. These approaches are based on deep learning techniques namely, CNN and RNN. We use ground truth carried out by experts in order to validate the proposed approaches.
First, we proposed an approach to annotate head movements. The developed method is inspired from standards developed by experts in the linguistic field. The annotation problem has been modeled as a classification task. Each simple gesture, consisting of a single movement, constitutes a class while complex gestures, consisting of more than one movement, are classified in a single class. To do this, we implemented a method based on the MTCNN technique, this technique was used to detect the face. Then the LSTM is applied to predict the class of each movement.
Secondly, we proposed an approach to automate the gestural phases of the hands that has existed in the literature since the Eighties. Our work is based on previous studies used in gestural phases classification. The strategy used to automatically annotate the gestural phases is similar to that proposed to annotate the movements of hands. Indeed, the annotation problem is considered a classification problem. Technically, we used MobileNet to detect hands and LSTM to predict the phase in question.
The proposed process focuses on the automatic annotation of head and hands, reducing the cost and the time of the annotation process and decreasing the impact of subjectivity caused by the imprecision generated by a visual analysis of gestures on a video. The results suggest two research focuses for further exploration. First, the automatic annotation process for nonverbal behaviors in videos is quite feasible; second, machine learning algorithms have the capacity to identify features that are not totally in sync with what humans are used to. These characteristics clearly open up a new dialog between artificial intelligence and researchers in linguistics, and researchers in fields related to communication and aging in terms of interpreting results and features in videos
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Thèse présentée à l’École de technologie supérieure comme exigence partielle à l’obtention du doctorat en génie". Comprend des références bibliographiques (pages 87-95). |
Mots-clés libres: | communication non verbale, vieillissement, annotation automatique, apprentissage profond |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Ratté, Sylvie |
Codirecteur: | Codirecteur Duong, Luc |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 05 avr. 2022 18:39 |
Dernière modification: | 05 avr. 2022 18:39 |
URI: | https://espace.etsmtl.ca/id/eprint/2947 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |