Automatic evaluation of Alzheimer’s disease, a multimodal analysis of spontaneous conversations

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Pérez Arana, Arlen (2022). Automatic evaluation of Alzheimer’s disease, a multimodal analysis of spontaneous conversations. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (1MB) | Prévisualisation

Résumé

Alzheimer’s disease (AD) patients present verbal and nonverbal communication difficulties, which has led to growing interest in the role nonverbal communication plays in the lives of people with dementia (Rousseaux et al., 2010). It is estimated that 55-97% of the message communicated in adult interaction consists of nonverbal behavior ((Gross, 1990), (Hargie et al., 1981)), which includes body movement, facial expressions (FE), touch, physical appearance, personal space, and vocal communication features such as pitch, intonation, and speech rate.

As a result of the above, there are some studies related to Alzheimer’s Disease (AD), where verbal and nonverbal communication has been studied, some examples are eye movements, facial expressions, speech rate, vocal communication, and sentiment analysis during performing some tasks. According to these studies, facial expressions and acoustic features of AD patients could suggest certain characteristics in early stages of AD that can be automatically analyzed.

In this thesis, we introduce a method to automatically analyze and evaluate the correlation between verbal and nonverbal and AD during video recorded natural conversations. Our objective is to automatically classify AD subjects or Healthy Controls (HC) through facial expressions features.

We analyze 23 conversations, with an average duration of 16 minutes. For the purpose of the facial analysis, we tracked 3 groups of features: eye gaze and landmarks, face landmarks, and Facial Action Units (FAU). Additionally, for the purpose of the verbal, analysis we obtained 2 groups of features: silences and phonetic features (13 Mel-Frequency Cepstral Coefficients (MFCC) features).

In general, we used four classifiers to discern between AD and HC: Random Forest Classifier (RFC), K Nearest Neighbor (KNN), Support Vector Machines (SVM), and Naïve Bayes (NB).

Regarding the analysis with the silences and phonetic features, the best performance obtained was 81% accuracy and 91% of sensitivity-specificity rate ‘Receiver Operating Characteristic’ (ROC) curve. Likewise, the multimodal analysis showed 90% accuracy and 93% ROC curve. These results were obtained with the KNN classifier trained with all the features (verbal and nonverbal).

Notably, the RFC showed the best performance in all the experiments performed in this study, training the algorithm exclusively using facial expressions and gaze features, we obtained a 93% accuracy and 98% ROC. The classification accuracy for the KNN classifier was 91%, the sensitivity-specificity was 97.7%, trained with facial landmarks as features. These results present a better performance trained with facial landmarks in comparison with training the classifier with all the features.

In conclusion, facial expressions and phonetic features while speaking could provide signs of AD in early stages.

In this work, we presented a methodology for discriminating between AD and HC. The principal objective while using this method is to use a non-invasive way to analyze and do classification through recording natural conversations. Consequently, we can provide clinicians a non-invasive and automatic tool for the early detection of signs of AD.

Titre traduit

Évaluation automatique de la maladie d’Alzheimer, une analyse multimodale de conversations spontanées

Résumé traduit

Les patients atteints de la maladie d'Alzheimer (MA) présentent des difficultés de communication verbale et non verbale, ce qui a suscité un intérêt croissant pour le rôle que joue la communication non verbale dans la vie des personnes atteintes de démence (Rousseaux et al., 2010). On estime que 55 à 97 % du message communiqué lors d'une interaction entre adultes consiste en un comportement non verbal ((Gross, 1990), (Hargie et al., 1981)), qui comprend les mouvements du corps, les expressions faciales (FE), le toucher, l'apparence physique, l'espace personnel et les caractéristiques de la communication vocale telles que la hauteur, l'intonation et le débit de parole.

En conséquence de ce qui précède, certaines études liées à la maladie d'Alzheimer (MA) ont étudié la communication verbale et non verbale, par exemple les mouvements oculaires, les expressions faciales, le débit de la parole, la communication vocale et l'analyse des sentiments pendant l'exécution de certaines tâches. Selon ces études, les expressions faciales et les caractéristiques acoustiques des patients atteints de la MA pourraient suggérer certaines caractéristiques dans les premiers stades de la MA qui peuvent être analysées automatiquement.

Dans cette thèse, nous introduisons une méthode d'analyse automatique et d'évaluation de la corrélation entre le verbal et le non-verbal et la MA lors de conversations naturelles enregistrées sur vidéo. Notre objectif est de classer automatiquement les sujets atteints de la maladie d'Alzheimer ou les témoins sains (HC) par le biais des expressions faciales.

Nous analysons 23 conversations, d'une durée moyenne de 16 minutes. Pour l'analyse faciale, nous avons suivi 3 groupes de caractéristiques : le regard et les repères oculaires, les repères faciaux et les unités d'action faciale (UAF). De plus, pour l'analyse verbale, nous avons obtenu deux groupes de caractéristiques: les silences et les caractéristiques phonétiques (13 caractéristiques de coefficients cepstraux de fréquence Mel (MFCC)).

En général, nous avons utilisé quatre classificateurs pour distinguer la MA de l'HC: Random Forest Classifier (RFC), K Nearest Neighbor (KNN), Support Vector Machines (SVM) et Naïve Bayes (NB).

En ce qui concerne l'analyse des silences et des caractéristiques phonétiques, la meilleure performance obtenue était une précision de 81 % et un taux de sensibilité-spécificité de 91 % sur la courbe ROC (Receiver Operating Characteristic). De même, l'analyse multimodale a montré une précision de 90% et une courbe ROC de 93%. Ces résultats ont été obtenus avec le classificateur KNN entraîné avec toutes les caractéristiques (verbales et non verbales).

Notamment, le RFC a montré la meilleure performance dans toutes les expériences réalisées dans cette étude, en entraînant l'algorithme exclusivement avec les expressions faciales et les caractéristiques du regard, nous avons obtenu une précision de 93% et une courbe ROC de 98%. La précision de classification pour le classificateur KNN était de 91 %, la sensibilité-spécificité était de 97,7 %, entraîné avec les repères faciaux comme caractéristiques. Ces résultats présentent une meilleure performance lorsque le classificateur est entraîné avec les points de repère faciaux que lorsqu'il est entraîné avec toutes les caractéristiques.

En conclusion, les expressions faciales et les caractéristiques phonétiques pendant la conversation pourraient fournir des signes de la MA à un stade précoce.

Dans ce travail, nous avons présenté une méthodologie permettant de distinguer la MA de l'HC. L'objectif principal de cette méthode est d'utiliser un moyen non invasif d'analyse et de classification par l'enregistrement de conversations naturelles. Par conséquent, nous pouvons fournir aux cliniciens un outil non invasif et automatique pour la détection précoce des signes de la MA.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillement for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 65-72).
Mots-clés libres:	classification automatique, conversations naturelles, expressions faciales, phonétique, silences, maladie d'Alzheimer (MA), analyse multimodale
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Ratté, Sylvie
Codirecteur:	Codirecteur Duong, Luc
Programme:	Doctorat en génie > Génie
Date de dépôt:	20 mai 2022 18:30
Dernière modification:	20 mai 2022 18:30
URI:	https://espace.etsmtl.ca/id/eprint/2983

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt