Gagné, Camille Michèle (2025). Conception et évaluation d’un outil d’extraction, d’analyse et de classification de marqueurs linguistiques de la maladie d’Alzheimer. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (2MB) | Prévisualisation |
Résumé
L’Alzheimer est une maladie neurodégénérative qui entraîne une détérioration progressive des fonctions cognitives et peut être observée par un déclin des fonctions langagières. Plusieurs chercheurs se sont tournés vers l’utilisation de processus informatiques automatisés permettant d’analyser des biomarqueurs provenant du langage et de détecter des signes de la maladie de manière non invasive. Au cours des cinq dernières années, le laboratoire d’ingénierie cognitive et sémantique (LiNCS) de l’école de technologie supérieure a contribué à cette recherche en mettant sur pied une application dédiée à l’extraction de caractéristiques linguistiques et à la classification de participants en fonction de la présence ou de l’absence de troubles cognitifs. Il demeure toutefois essentiel de pouvoir extraire et analyser des mesures pertinentes, les manipuler, les visualiser et s’appuyer sur un classificateur réutilisable et fiable.
Ce mémoire présente une solution qui s’appuie sur les travaux antérieurs du LiNCS et propose une application reconçue et améliorée. Notre approche met en place un système fiable, reposant sur des méthodes optimisées d’extraction de caractéristiques et mettant en place des outils pertinents de manipulation et de visualisation des données. Il explique l’observation de nouvelles caractéristiques significatives issues de l’analyse de trois catégories peu explorées dans la littérature : les chaînes de coréférence, les pauses et la complexité syntaxique. L’application comporte également un pipeline de classification optimisé utilisant un algorithme XGBoost comme base du modèle prédictif.
Les résultats obtenus à l’aide de notre système ont permis d’observer que les pauses courtes en début de phrase, les mesures de ratio de syntagmes ADVP, ADJP, VP, S et SBARQ, ainsi que les mesures de densité de syntagmes de types FRAG, VP, NP et ADJP, sont corrélées avec les étiquettes de diagnostic (F > 4, valeur p < 0,05) et contribuent à une meilleure classification. Nous avons également éliminé 17 caractéristiques générant du bruit et ayant été identifiées au moyen de notre outil. Le modèle de classification final a atteint un score F1 de 80,9% et un rappel de 80,5%, soit une amélioration respective de 5% et de 8,2% par rapport au modèle de base.
La conception de notre outil met en place un système performant permettant d’observer le déclin du langage et d’identifier des caractéristiques associées au diagnostic de la maladie d’Alzheimer. Il constitue une base solide pour la recherche et le développement futur et propose une application pouvant être utilisée par des professionnels de la santé pour suivre l’évolution des patients.
Titre traduit
Design and evaluation of a tool to extract, analyze and classify linguistic markers of Alzheimer’s disease
Résumé traduit
Alzheimer’s is a neurodegenerative disease that leads to a progressive deterioration in cognitive functions and can be observed by a decline in language functions. Many researchers have turned to the use of automated computer processes to analyze language biomarkers and detect signs of the disease in a non-invasive way.
Over the past five years, LiNCS has contributed to this research by developing an application dedicated to extracting linguistic features and classifying participants. However, it remains essential to be able to extract and analyze relevant measures, manipulate and visualize them, and rely on a reusable and reliable classifier.
This thesis presents a solution that builds on previous LiNCS work and proposes a redesigned and improved application. Our approach implements a reliable system, based on optimized feature extraction methods, with relevant data manipulation and visualization tools. It integrates to the classifier significant features derived from the analysis of three categories less explored in the literature : coreference chains, pauses, and syntactic complexity. The application also features an optimized classification pipeline using an XGBoost algorithm as the basis for the predictive model.
The results obtained using our system showed that short pauses at the beginning of sentences, ADVP, ADJP, VP, S and SBARQ phrase ratio measures, as well as FRAG, VP, NP and ADJP phrase density measures, correlated with diagnostic labels (F > 4, p-value < 0.05) and contributed to better classification. Our tool also enabled us to eliminate 17 noise-generating features. The final classification model achieved an F1 score of 80.9% and a recall of 80,5%, an improvement of 5% and 8,2% respectively.
The design of our tool provides a powerful system for observing language decline and identifying features associated with the diagnosis of Alzheimer’s disease. It provides a solid basis for future research and development, and offers a tool that can be used by healthcare professionals to monitor patients’ progress.
| Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
|---|---|
| Renseignements supplémentaires: | "Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire". Comprend des références bibliographiques (pages 81-86). |
| Mots-clés libres: | maladie d’Alzheimer, traitement automatique de la langue naturelle, algorithme de classification, chaînes de coréférence, pauses, complexité syntaxique |
| Directeur de mémoire/thèse: | Directeur de mémoire/thèse Ratté, Sylvie |
| Codirecteur: | Codirecteur Ménard, Pierre-André |
| Programme: | Maîtrise en ingénierie > Génie |
| Date de dépôt: | 24 sept. 2025 17:11 |
| Dernière modification: | 24 sept. 2025 17:11 |
| URI: | https://espace.etsmtl.ca/id/eprint/3720 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement