Abou-Abbas, Lina (2016). Segmentation automatique des cris des nouveau-nés en vue du dépistage précoce des problèmes neurophysiologiques. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (11MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Résumé
Plusieurs études ont établi l’existence d’un grand nombre d’informations présentes dans un signal du cri des nouveau-nés. En se basant sur cette hypothèse, de nombreuses recherches se sont consacrées à l’analyse de ce signal dans le but de classifier d’une part, le type du cri (cri de naissance, douleur, faim, inconfort, etc.) et d’autre part, l’état pathologique du nouveau-né. Cette thèse décrit le développement et la validation d’un outil de segmentation automatisé pour la détection des phases vocalisées d’expiration et d’inspiration des cris des nouveau-nés collectés dans un environnement médical bruité. Cet outil fera partie de la phase du prétraitement des signaux audio des cris des nouveau-nés, et ce en amont du système automatique de classification des pathologies chez les nouveau-nés.
Dans un premier axe, nous avons contribué à la mise en place d’une base de données de cris des nouveau-nés sains et pathologiques destinée à être publique, accessible en permanence aux fins de recherches multiples relatives spécifiquement à la santé des nourrissons. La réalisation de la base de données a satisfait les attentes, entre autres : l’archivage sécurisé des données, la consultation facile et accélérée des informations à l’aide d’une interface adéquate et efficace et le téléchargement rapide vers d’autres emplacements pour différentes utilisations. Un corpus de 2073 signaux de cris a été recueilli. 769 bébés ont participé à cette collecte dont 372 sont atteints de diverses maladies telles que maladies respiratoires, cardiaques et neurologiques.
Dans un deuxième axe, nous avons proposé des méthodes d’apprentissage supervisées GMM et HMM pour la conception de l’outil de segmentation automatique des signaux de cris. Compte tenu de la grande variabilité rencontrée dans une base de données réelle des signaux de cris, cet outil est capable de détecter les parties importantes de cris parmi d’autres activités acoustiques présentes dans le corpus comme les sons provenant des machines médicales, la parole, les bruits à des niveaux variés et enfin le silence. Plusieurs outils de traitement et de reconnaissance des signaux ont été exploités dans ce travail afin de proposer un module de segmentation des signaux de cris complètement automatique robuste vis-à-vis du bruit et applicable dans un environnement clinique réel et qui ne nécessite pas un réglage manuel des seuils. Afin d’exploiter l’information contenue dans les signaux de cris de différentes manières, nous avons appliqué et comparé les méthodes de décomposition de signaux les plus utilisées: Transformée de Fourier rapide, transformée en ondelettes et enfin décomposition modale empirique. Nous avons procédé à l’extraction des divers descripteurs afin de caractériser et modéliser séparément et d’une manière efficace chacun des types d’expiration et d’inspiration avec vocalisation.
Dans un troisième axe, et pour améliorer les résultats obtenus des approches supervisées en réduisant les erreurs de localisation des points de début et de fin des segments utiles, nous avons intégré une phase de post-traitement afin d’exploiter l’information temporelle du signal. L’architecture complète réalisée est basée sur deux modules successifs. Le premier vise à utiliser les approches statistiques supervisées et obtenir une première classification et le second consiste à se servir des paramètres temps-fréquences pour corriger les erreurs de la première classification et améliorer ainsi les résultats globaux. Les différentes approches proposées ont été testées sur une base de données différente de celle utilisée lors de l’apprentissage. La technique de la validation croisée stratifiée à dix tours a été employée afin d’évaluer et de vérifier l’efficacité des systèmes proposés. Les résultats des tests réalisés montrent le comportement robuste des algorithmes proposés.
Titre traduit
Automatic segmentation of newborn's cries for the early screening of neuro-physiological health problems
Résumé traduit
Several Studies have established the existence of a large number of information in an infant cry signal. Based on this assumption, many researches are devoted to the analysis of the cry signal in order to classify in one hand, the type of cry (birth cry, pain, hunger, discomfort, etc.) and in other hand the physical state of the newborn. This thesis describes the development and validation of an automated segmentation tool for the detection of vocal expiration and inspiration phases of newborn cries collected in a noisy hospital environment. This tool will be part of the preprocessing phase of newborn crying signals, prior to the automatic pathology classification system for newborns. As a first step, we have contributed to the establishment of a healthy and pathologic newborns’ cries database, intended to be public, accessible at all times for multiple research purposes related to the health of infants. The implementation of the cry database fulfilled expectations, including: secure data archiving, easy, and fast retrieval of information by means of adequate and effective interface and fast downloading to different locations for different uses. A corpus of 1939 cry signals were collected. 769 babies participated of which 372 are suffering from various diseases such as respiratory diseases, cardiac diseases, and neurological diseases. In a second time, we used supervised Learning methods, Gaussian Mixture Models and Hidden Markov Models, for the design of the automatic cry segmentation tool. Given the variability encountered in a real cry signals database, this tool is able to detect useful part of cries from other acoustic activities registered as the sounds of medical equipment, speech, noises at various levels and silence. Several signal processing and recognition tools have been investigated in this work in order to offer a fully automatic cries signals segmentation module robust towards noise and applicable in a real clinical environment and the most important, does not require a static threshold.
In order to exploit the information available in the cries signals in different ways, we have applied and compared the most used signal decomposition techniques namely Fast Fourier Transform, Wavelet Packet Transform, and Empirical Mode Decomposition. We extracted different features to characterize and model separately and efficiently each type of vocal expiration and inspiration. The third area of focus, and in order to improve the results obtained from the supervised approaches by reducing boundary detection errors of useful segments, we integrated a post-processing stage to take full advantage of the time information of the signal. The full architecture realized is based on two consecutive modules. The first module uses cepstral features and traditional statistical approaches to give first results’ classification, and the second uses time and frequency features to correct errors and improve overall results. The various proposed approaches were tested on a different training and testing corpuses. The 10-fold cross validation technique is used to evaluate and verify the effectiveness of the proposed systems. The results of various tests show the robust performance of the proposed algorithms.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Thèse par articles présentée à l'École de technologie supérieure comme exigence partielle à l'obtention du doctorat en génie". Bibliographie : pages 167-179. |
Mots-clés libres: | Nouveau-nés Maladies Diagnostic. Cris Classification. Inspiration (Physiologie) Expiration. Traitement du signal Techniques numériques. Apprentissage supervisé (Intelligence artificielle) Loi de Gauss (Statistique) Modèles de Markov cachés. Transformations de Fourier rapides. Ondelettes. Transformation de Hilbert-Huang. Communication non-verbale chez le nourrisson. automatique, gaussien, mélange, modèle, segmentation, cris des nouveau-nés, coefficients cepstraux, taux de passage par zéro, fréquence fondamental, décomposition en mode empirique |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Tadj, Chakib |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 10 févr. 2017 19:55 |
Dernière modification: | 10 févr. 2017 19:55 |
URI: | https://espace.etsmtl.ca/id/eprint/1810 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |