Abiven, Frédéric (2020). Automatisation multilingue du prétraitement de transcriptions dans la détection de la maladie d’Alzheimer. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (1MB) | Prévisualisation |
Résumé
La maladie d’Alzheimer est une maladie dégénérative qui se caractérise principalement par des altérations cognitives progressives. L’altération des fonctions linguistiques est un facteur important, puisque plusieurs études ont démontré qu’elle peut apparaître dès les premiers stades de la maladie. Afin de mesurer ces fonctions, on traite et on analyse des transcriptions provenant d’une variété de corpus basés sur le test de description d’image du Cookie Theft.
De plus en plus de systèmes semi-automatiques tentent de tirer parti des descriptions d’image dans le cadre du test du Cookie Theft. Cependant, l’extraction de mesures quantitatives de transcriptions requiert un effort considérable. De plus, lorsque l’on travaille avec un corpus multilingue, il est important d’adapter le système afin de bien différencier les variantes linguistiques. Présentement, aucune étude ne s’est attardée à la création d’un pipeline universel pour ce type de tâche, ce qui permettrait d’améliorer la reproductibilité des expériences scientifiques. Ce mémoire présente donc une méthode simple et efficace pour traiter des transcriptions, en séquençant une série de sous-problèmes de nettoyages, de normalisations et d’extractions de mesures permettant d’identifier les détériorations cognitives. Puisque certaines de ces tâches sont dépendantes de la langue, elles ont été adaptées afin d’être facilement configurables.
Les résultats ont démontré que notre travail permet d’améliorer la reproductibilité de expériences. En effet, nous avons été en mesure de normaliser et d’extraire des mesures linguistiques d’un corpus français et anglais du test du Cookie-Theft automatiquement. De plus, en analysant ces mesures, nous avons détecté une corrélation significative au niveau de la fréquence de retraçages chez les patients francophones (> 0.5). Ensuite, nous avons développé des modèles prédictifs prometteurs avec des résultats comparables à d’autres recherches en utilisant le Pitt Corpus (76%). Ceci démontre donc que notre travail permet d’automatiser entièrement la tâche de prétraitement. Toutefois, étant donné la grande diversité de langues à travers le monde, cette méthode connait certaines limitations.
Donc, ce mémoire contribue à la littérature de la maladie d’Alzheimer en présentant un pipeline permettant d’augmenter la reproductibilité des expériences pour l’analyse de transcriptions dans le cadre d’un test de description d’images du Cookie-Theft. De plus, nous pensons que notre travail pourrait éventuellement être utilisé pour différents types de tests cognitifs pour lesquels des transcriptions doivent être analysées puisqu’il n’est pas dépendant du contexte.
Titre traduit
Multilingual automation of transcript preprocessing in Alzheimer’s disease detection
Résumé traduit
Alzheimer’s disease (AD) is a degenerative disease that is characterised mainly by progressive cognitive alterations. Linguistic functions alterations are a key factor in AD detection, as multiple studies have proven that they appear at an early stage. In order to measure those functions, we process and analyse transcripts from various corpora based on the Cookie Theft picture description task.
More and more semi-automatic systems are trying to take advantage of image descriptions form the Cookie Theft picture description task. However, extracting quantitative measures of a transcript requires considerable effort. In addition, when working with a multilingual corpus, it is important to adapt the system in order to clearly differentiate the linguistic variants. Currently, no study has focused on the creation of a universal pipeline for this type of task, which could improve the reproducibility of scientific experiments. This thesis therefore presents a simple and effective method for dealing with transcripts, by sequencing a series of sub-tasks that cleans, normalize and extract measures from transcripts making it possible to identify cognitive deteriorations. Since some tasks are language dependant, they have been adapted to be easily configurable.
Results have demonstrated that our work improves reproducibility of experiments. In fact, we were able to automatically normalise and extract linguistic measures from a French and English corpus of the Cookie Theft picture description task. In fact, the retracing’s frequency, extracted from transcripts, revealed a significant correlation with the severity of cognitive impairment (> 0.5). Then, we trained predictive models that produced similar results with previous studies, using the Pitt Corpus (76%). This demonstrates that our automated preprocessing task is reliable. However, given the large diversity of languages across the world and their own language structure, this method has its own limitations.
Thus, this work contributes in Alzheimer’s disease literature by presenting a pipeline that improves reproducibility of experiments when analysing transcripts from Cookie Theft picture description task. Also, we think that our work could eventually be used for different type of cognitive tasks since it is not dependent of the context.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Mémoire par article présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire en génie logiciel". Comprend des références bibliographiques (pages 41-44). |
Mots-clés libres: | maladie d’Alzheimer, altérations cognitives, traitement automatique de la langue naturelle, tâche de description d’image, corrélation, reproductibilité |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Ratté, Sylvie |
Programme: | Maîtrise en ingénierie > Génie |
Date de dépôt: | 14 juin 2021 17:15 |
Dernière modification: | 14 juin 2021 17:15 |
URI: | https://espace.etsmtl.ca/id/eprint/2659 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |