La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Analysis and diagnosis of newborn cry signals based on signal Processing, statistical physics and deep learning

Téléchargements

Téléchargements par mois depuis la dernière année

Lahmiri, Salim (2025). Analysis and diagnosis of newborn cry signals based on signal Processing, statistical physics and deep learning. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of Lahmiri_Salim.pdf]
Prévisualisation
PDF
Télécharger (1MB) | Prévisualisation

Résumé

Newborn cry is generally due to various conditions related to physiology, pathology, or emotion. In this regard, different patterns in newborn cry signal are associated with health condition. As a result, various computer aided diagnosis systems have been proposed to automatically distinguish between healthy and unhealthy newborn cry signals. Such CAD systems are used to employ specific signal processing techniques combined with machine learning for the analysis and classification of newborn cry signals with acceptable accuracy.

The main purpose of our research study is to design new computer aided diagnosis systems based on combination of signal processing and deep learning to improve the accuracy to distinguish between healthy and unhealthy newborn cry signals. In addition, we investigate complexity in such signals based on fractals, entropy, and multifractals to better understand the differences in nonlinear dynamics of cry signals across subjects.

For automatic classification of newborn cry signals, we trained various deep learning systems (including deep feedforward, convolution neural networks, and long short-term memory neural networks) with cepstrum-based information. We also used Bayesian optimization method to optimize the hyper-parameters of the support vector machines (SVM) with radial basis function and k-nearest neighbors (kNN), both trained with different audio acoustic features separately or combined which were selected by using a statistical filter. For complexity analysis, we used correlation dimension, approximate entropy, and wavelet leaders.

In the task of automatic classification of newborn cry signals based on cepstrum analysis we found that (a) deep feedforward neural network (DFNN) achieved very close to perfect accuracy when applied to expiration infant cry signals and yielded to perfect accuracy when applied to inspiration infant cry signals, (b) DFNN outperformed the linear SVM and the Naïve Bayes systems when tested both on the expiration and inspiration sets, (c) DFNN outperformed very recent works found in the literature, (d) convolution neural networks (CNN) outperformed DFNN and long short-term memory (LSTM) system, and (e) deep learning systems trained with cepstrum descriptors obtained the highest accuracy compared to similar studies in the literature.

In the task of classification of healthy versus unhealthy newborn cry signals based on acoustic features we found that (a) the SVM trained with auditory-inspired amplitude modulation (AAM) features achieved the highest accuracy followed by kNN algorithm trained with combination of Mel frequency cepstral coefficients (MFCC), AAM, and prosody, and (b) SVM outperformed most existing works validated on the same database while being considerably fast to perform.

In the task of characterization healthy and unhealthy newborn cry signals by using complexity measures, we found that (a) there are significant differences in approximate entropy and correlation dimension across two categories of subjects, (b) healthy infant cry signals show higher approximate entropy level than those of pathological infants, (c) healthy infant cry signals show higher correlation dimension level than those of pathological infants, and (d) healthy signals exhibit a higher degree of multifractality than unhealthy ones.

In summary, deep learning systems trained with cepstrum descriptors are promising for analysis and diagnosis of infant cry signals in clinical milieu. Likewise, the nonlinear SVM optimized by using Bayesian optimization and trained by Chi-square based selected features from MFCC, AAM, prosody or combination of those selected features, can be promising for diagnosis of newborns based on their cry signals in clinical milieu. However, deep learning allows achieving the highest performance.

Finally, the cepstrum-based approximate entropy and correlation dimension can be considered as biomarkers and could potentially help understanding the physiology of newborn cries and be used for diagnosis purpose.

Titre traduit

Analyse et diagnostic des cris des bébés par techniques de traitement de signal, physique statistique et apprentissage profond

Résumé traduit

Les pleurs du nouveau-né sont généralement dus à diverses conditions liées à la physiologie, à la pathologie ou à l'émotion. À cet égard, différents modèles de signaux de cri du nouveau-né sont associés à son état de santé. En conséquence, divers systèmes de diagnostic assisté par ordinateur ont été proposés pour distinguer automatiquement les signaux de cris d'un nouveauné sain et malsain. Ces systèmes automatiques utilisent des techniques spécifiques de traitement du signal combinées à l'apprentissage automatique pour l'analyse et la classification des signaux de cris du nouveau-né avec une précision acceptable.

L'objectif principal de notre étude est de concevoir de nouveaux systèmes de diagnostic assisté par ordinateur basés sur une combinaison de traitement du signal et d'apprentissage profond pour améliorer la précision de la distinction entre les signaux de cris d'un nouveau-né sain et malsain. De plus, nous étudions la complexité de ces signaux sur la base des fractales, de l'entropie et des multi-fractales afin de mieux comprendre les différences de dynamique non linéaire des signaux de cri d'un sujet à l'autre.

Pour la classification automatique des signaux de cris du nouveau-né, nous avons entraîné divers systèmes d'apprentissage profond (notamment les réseaux neuronaux à rétroaction profonde, à convolution, et à mémoire à long terme et à court terme) avec des informations basées sur l’analyse du cepstre. Nous avons également utilisé la méthode d'optimisation bayésienne pour optimiser les hyperparamètres des machines à vecteurs de support avec fonction à base radiale et l’algorithme du k plus proche voisins (kNN), tous deux entraînés avec différentes caractéristiques audio-acoustiques séparément ou combinées, sélectionnées à l'aide d'un filtre statistique. Pour l'analyse de la complexité, nous avons utilisé la dimension de corrélation, l'entropie approximative et les leaders d'ondelettes.

Dans la tâche de classification automatique des signaux de cris du nouveau-né en utilisant les coefficients du cepstre, nous avons constaté que (a) le réseau neuronal à action directe profonde (DFNN) atteignait un taux de classification correcte très proche de la perfection lorsqu'il était appliqué aux signaux de cris d'expiration du nourrisson et donnait une performance parfaite lorsqu'il était appliqué aux signaux de cris d'inspiration du nourrisson, (b) DFNN a surpassé les systèmes SVM linéaires et Naïve Bayes lorsqu'ils ont été testés à la fois sur les ensembles d'expiration et d'inspiration, (c) DFNN a surpassé les travaux très récents publiés dans la littérature, (d) les réseaux neuronaux à convolution (CNN) ont surpassé DFNN et les systèmes à long et courte mémoire (LSTM), et (e) les systèmes d'apprentissage profond entrainés avec des descripteurs du cepstre ont obtenu le meilleure taux de classification correcte par rapport aux études similaires dans la littérature.

Dans la tâche de la classification des signaux de cris de nouveau-nés sains et malsains sur la base des caractéristiques acoustiques, nous avons constaté que (a) le SVM entraîné avec des caractéristiques de modulation d'amplitude d'inspiration auditive (AAM) atteignait le taux de classification correcte le plus élevé, suivi par l'algorithme kNN entraîné avec une combinaison de fréquences des coefficients cepstrales (MFCC), AAM et prosodie, et (b) SVM a surpassé en terme de performance la plupart des travaux existants validés sur la même base de données tout en étant considérablement rapide à exécuter.

Dans la tâche de caractérisation des signaux de cris de nouveau-nés sains et malsains à l'aide de mesures de complexité, nous avons constaté que (a) il existe des différences significatives dans l'entropie approximative et la dimension de corrélation entre les deux catégories de patients, (b) les signaux de cris de nourrissons en bonne santé présentent un niveau d'entropie approximatif plus élevé que ceux des nourrissons pathologiques, (c) les signaux de cris des nourrissons en bonne santé présentent un niveau de dimension de corrélation plus élevé que ceux des nourrissons pathologiques, et (d) les cris des nouveau-nés en bonne santé présentent un degré de multi-fractal plus élevé que ceux en mauvaise santé.

En résumé, les systèmes d'apprentissage profond formés avec des descripteurs de cepstre sont prometteurs pour l'analyse et le diagnostic des signaux de cris du nourrisson en milieu clinique. De même, le SVM non linéaire optimisé à l'aide de l'optimisation bayésienne et entraîné par des caractéristiques sélectionnées basées sur le chi-carré de MFCC, AAM, prosodie ou combinaison de ces caractéristiques sélectionnées, peut être prometteur pour le diagnostic des nouveau-nés en milieu clinique. Cependant, l’apprentissage profond permet d’atteindre les plus hautes performances.

Enfin, l’entropie approximative et la dimension de corrélation basées sur le cepstre peuvent être considérées comme des biomarqueurs et pourraient potentiellement aider à comprendre la physiologie des cris du nouveau-né et être utilisées à des fins de diagnostic.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 107-114).
Mots-clés libres: cri du nouveau-né, traitement de signal, cepstrum, acoustique, apprentissage machine, apprentissage profond, sélection de caractéristiques, classification
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Tadj, Chakib
Codirecteur:
Codirecteur
Gargour, Christian
Programme: Doctorat en génie > Génie
Date de dépôt: 05 juin 2025 18:13
Dernière modification: 05 juin 2025 18:13
URI: https://espace.etsmtl.ca/id/eprint/3632

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt