Gunarathinam, Anisan (2021). Attention mechanism in neural network for early diagnosis in newborns using cry signals. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Résumé
Humans use their voice to communicate, and it is often driven by instinct. On a larger scale, this same instinct can be applied to a newborn infant who tries to express itself, with obviously, his cry. According to past studies made on this subject, there is a strong correlation between an infant's cry and psychological condition and pathology that affects the latter. This study focuses on finding a correlation and identifying the newborn's condition using a neural network. This tool would help experts identify something that they could have potentially ignored and better diagnose a newborn according to the disease affecting it before it is too late. Whether it is in a developed country or a developing country, this solution requires no expensive diagnosis material.
Our study uses an Attention mechanism neural network that has known success in speech recognition and text translation in the last two years. The Attention layer learns to focus on different aspects of the input. The Transformer uses Encoder-Decoder architecture to summarize the entire input before outputting the results, which are strongly linked with each input sequence. The idea is to eliminate the dependency in the fixed-length input conducted in the previous studies. The Attention mechanism enhanced LSTM (Long short-term memory) is a recurrent neural network that inherits the self-attention layer from the Transformer.
Only the expirations sessions are extracted for each cry sample to generate the matrix of Melfrequency cepstral coefficients (MFCC). These features are then fed into the neural network. Using the data at our disposition, we train the network and test it with new data to compare the performance with the classical LSTM default variant.
Several previous studies use the same dataset, so the results are compared to the same criteria to evaluate the performance of this variant for our purpose. The features and parameters are optimized with both variants to obtain a global view of the Attention mechanism for early diagnosis in newborns and conclude if this path can be taken or not.
Titre traduit
Mécanisme d’attention dans le réseau de neurones pour le diagnostic précoce chez les nouveau-nés en utilisant les signaux de cri
Résumé traduit
Les humains utilisent leur voix pour communiquer, et elle est souvent motivée par l'instinct. À plus grande échelle, ce même instinct peut s'appliquer à un nouveau-né qui tente de s'exprimer, avec évidemment, son cri. Selon des études antérieures réalisés sur ce sujet, il existe une forte corrélation entre le cri d'un nourrisson et l'état psychologique et la pathologie qui affecte ce dernier. Cette étude se concentre sur la recherche d'une corrélation et l'identification de l'état du nouveau-né à l'aide d'un réseau de neurones. Cet outil aiderait les experts à identifier quelque chose qu'ils auraient pu potentiellement ignorer et à mieux diagnostiquer un nouveauné en fonction de la maladie qui l'affecte et ce, avant qu’il ne soit trop tard. Que ce soit dans un pays développé ou un pays en développement, cette solution ne nécessite aucun matériel de diagnostic coûteux.
Dans cette étude, nous utilisons le mécanisme d’Attention dans un réseau neuronal qui a connu un succès au cours des deux dernières années dans la reconnaissance vocale et la traduction de texte. La couche d’attention permet au réseau de se concentrer sur différents aspects de l’entrée. Le Transformer utilise l'architecture Encodeur-Decodeur pour résumer l'intégralité de l'entrée avant de sortir les résultats, qui sont fortement liés à chaque séquence d'entrée. L'idée est d'éliminer la dépendance de l'entrée de longueur fixe menée dans les études précédentes. Le mécanisme d'attention amélioré LSTM (Long short-term memory) est un réseau neuronal récurrent qui hérite la couche du Self-Attention du Transformer.
Pour chaque échantillon de cri, seules les sessions d'expiration sont extraites pour générer la matrice des coefficients cepstraux à fréquence Mel (MFCC). Ces paramètres sont ensuite alimentés dans le réseau neuronal. En utilisant les données à notre disposition, nous formons le réseau et le testons avec de nouvelles données pour comparer les performances avec la variante classique par défaut du LSTM.
Plusieurs études précédentes utilisent le même ensemble de données, donc les résultats sont comparés aux mêmes critères pour évaluer les performances de cette variante. Les fonctionnalités et les paramètres sont optimisés avec les deux variantes pour obtenir une vue globale du mécanisme Attention pour le diagnostic précoce chez le nouveau-né et conclure si cette voie peut être empruntée ou non.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment for a master’s degree With thesis in electrical engineering". Comprend des références bibliographiques (pages 101-108). |
Mots-clés libres: | diagnostic chez le nouveau-né, classification de pathologie, cris de nouveau-né, réseau neuronal récurrent, LSTM avec attention, Long-Short Term Memory, perceptron multicouche, coefficient cépstral de fréquence de Mel |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Tadj, Chakib |
Programme: | Maîtrise en ingénierie > Génie électrique |
Date de dépôt: | 24 janv. 2022 16:01 |
Dernière modification: | 24 janv. 2022 16:01 |
URI: | https://espace.etsmtl.ca/id/eprint/2848 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |