Khalilzad, Zahra (2023). Using acoustic features and features fusion in infant cry diagnostic system. Thèse de doctorat électronique, Montréal, École de technologie superieure.
Prévisualisation |
PDF
Télécharger (7MB) | Prévisualisation |
Résumé
Newborns communicate their needs and discomforts through crying. Throughout the years, researchers discovered that the cry emanates opulent information about the newborn’s health, needs, and emotional state. However, this information is not evident to the human ear and there is an inevitable need for the development of precise systems capable of perceiving the information embodied in the cry signal. The abstruseness of the cry signal reveals the newborns to many complications since they cannot divulge their needs to their caregivers. This may be one of the reasons behind the high newborn mortality rates worldwide. In fact, the newborns face the highest risks among all the young adolescent age groups. Therefore, the development and introduction of an automated tool that is susceptible of translating the underlying information in different levels of the cry signal could be beneficial to saving thousands of lives.
The cry signal was discerned to hold peculiar characteristics that could be altered in the presence of a pathology or under the impression of an emotional state such as fear. The differences across the patterns of healthy and pathologic cry signals promoted the emerge of Newborn Cry Diagnostic Systems (NCDS) that facilitate diagnosis and distinguishing the pathologies only based on the cry signals of the newborns. Later on, it was discovered that the cries during the neonatal phase are merely due to intrinsic and independent biological rhythms and sensorimotor maturation, which means that the neonate has no control over the cry generation. This discovery led to recognition of the cry signals as powerful biomarkers in identifying pathologic newborns.
This thesis aimed to propose a comprehensive NCDS that would benefit from simple yet effective methods and algorithms to yield a desirable performance. This objective was realized from two perspectives: firstly, sepsis as a leading newborn mortality root was targeted which is unprecedented in NCDS designs; and secondly, the NCDS was improved across all stages of its design by the proper utilization of novel features, classifiers, fusion, and optimization methods.
The feature extraction stage was improved with the apropos combination of speech-based and music-based features that represented different levels of information. These features included low-level features of spectral centroid and crest, mid-level features of MFCC, GFCC, and BFCC, and finally, high-level features of harmonic ratio and entropy for the cepstral analysis. Subsequently, the feature space consisting of various combinations of these features was pruned against redundancy and high dimensionality with fuzzy entropy and neighborhood component analysis methods of feature selection. In order to consolidate different feature sets into one uniform feature space, the canonical correlation analysis was employed as a fusion method at feature level.
The next stage of the NCDS comprises classification and fine-tuning the classifiers for each of the experiments. In this study, we employed support vector machine, K-nearest neighborhood, multilayer perceptron, and long short-term memory classification schemes to classify the cry signals based on their corresponding classes. Each of these classifiers were tuned with different hyperparameter optimization methods such as random search, grid search, and Bayesian to fit each experiment.
The final stage of our proposed NCDS introduces the decision template fusion method for the fusion of decisions made by different classifiers that were trained by diverse features that capacitates the employment of features from different modalities and origins without the need for any extra measures to combine them. The performance of the proposed NCDS was assessed through different evaluation measures such as accuracy, area under curve of receiver operator characteristic (AUC-ROC), precision, recall and F-score.
The main target of this study was the development of a comprehensive NCDS while revolving around the unexplored pathology of sepsis as a focal point. Accordingly, in addition to identifying septic newborns from the healthy, the NCDS was designed to distinguish between two closely entangled pathologies for the first time. Succeeding the former accomplishments, the NCDS was taken one step former to detect septic newborns from an ensemble of 32 other pathologies. Finally, a comprehensive non-intrusive and unsophisticated design was attained that can be used as an alert system in marking the newborns encountering a higher risk of being diagnosed with a critical pathology group such as sepsis.
Titre traduit
Utilisation des caractéristiques acoustiques et de la fusion dans un système diagnostique des pleurs du nouveau-né
Résumé traduit
Les nouveau-nés communiquent leurs besoins et leurs malaises en pleurant. Au fil des années, les chercheurs ont découvert que ses pleurs donnent beaucoup d’informations sur la santé, les besoins et l’état émotionnel du nouveau-né.
Cependant, ces informations ne sont pas évidentes pour l'oreille humaine et il existe un besoin pour le développement de systèmes précis capables de percevoir les informations transmises par le signal de ces pleurs. Le fait que les pleurs des nouveau-nés ne soient pas compris entraîne de nombreuses complications car ils ne peuvent pas informer les soignants sur leurs besoins. C'est peut-être l'une des raisons des taux élevés de mortalité néonatale dans le monde. En fait, les nouveau-nés courent les risques les plus élevés parmi tous les groupes d'âge des jeunes adolescents. Par conséquent, le développement et l'introduction d'un outil automatisé susceptible de traduire les informations sous-jacentes à différents niveaux du signal des pleurs pourrait être bénéfiques pour sauver des milliers de vies.
Le signal des pleurs a été identifié comme ayant des caractéristiques particulières qui pourraient être altérées en présence d'une pathologie ou sous l'impression d'un état émotionnel tel que la peur. Les différences entre les modèles de signaux de pleurs sains et pathologiques ont favorisé l'émergence de systèmes de diagnostic des pleurs du nouveau-né (NCDS) qui aident au diagnostic et distinguent les pathologies uniquement sur la base des signaux de pleurs du nouveau-né. Plus tard, on a découvert que les pleurs au stade néonatal sont simplement dus à des rythmes biologiques intrinsèques et indépendants et à une maturation sensorimotrice, ce qui signifie que le nouveau-né n'a aucun contrôle sur la génération des pleurs. Cette découverte a conduit à la reconnaissance des signaux de pleurs comme de puissants biomarqueurs dans l'identification des nouveau-nés pathologiques.
Cette thèse visait à proposer un NCDS complet qui bénéficierait de méthodes et d'algorithmes simples mais efficaces pour produire une performance souhaitable. Cet objectif a été atteint à partir de deux perspectives : premièrement, la septicémie en tant que principale cause de décès néonatal a été ciblée, ce qui est sans précédent dans les conceptions NCDS; et deuxièmement, le NCDS a été amélioré à toutes les étapes de sa conception grâce à l'utilisation appropriée de nouvelles fonctionnalités, classificateurs, méthodes de fusion et d'optimisation.
L'étape d'extraction des caractéristiques a été améliorée avec la combinaison appropriée de caractéristiques vocales et musicales qui représentaient différents niveaux d'information. Ces caractéristiques comprenaient des caractéristiques de bas niveau du centroïde spectral et du pic, des caractéristiques de niveau moyen de MFCC, GFCC et BFCC, et enfin, des caractéristiques de haut niveau du rapport harmonique (harmonic ratio) et des caractéristiques delta et d'accélération pour le cepstral.
Par la suite, l'espace des caractéristiques composé de diverses combinaisons de ces caractéristiques a été réduit pour éviter la redondance et la haute dimensionnalité avec une entropie floue (fuzzy) et des méthodes d'analyse des composants de voisinage (neighborhood component analysis) de la sélection des caractéristiques. Afin de consolider différents ensembles de fonctionnalités dans un espace de fonctionnalités uniforme, l'analyse de corrélation canonique (canonical correlation analysis) a été utilisée comme méthode de fusion au niveau des fonctionnalités.
La prochaine étape du NCDS comprend la classification et le réglage fin des classificateurs pour chacune des expériences. Dans cette étude, nous avons utilisé les schémas de classification la machine à vecteurs de support, le K plus proches voisins (K-nearest neighborhood), le perceptron multicouche (multilayer perceptron) et les réseaux de longue mémoire à court terme pour classer les signaux de pleurs en fonction de leurs classes correspondantes. Chacun de ces classificateurs a été réglé avec différentes méthodes d'optimisation d'hyperparamètres telles que la recherche aléatoire, la recherche de grille (grid search) et Bayesian pour s'adapter à chaque expérience.
La dernière étape de notre NCDS proposé introduit la méthode de fusion de modèles de décision (decision template fusion) pour fusionner les décisions prises par différents classificateurs qui ont été formés par diverses caractéristiques, ce qui permet l'utilisation de caractéristiques de différentes modalités et origines sans avoir besoin de mesures supplémentaires pour les combiner. Les performances du NCDS proposé ont été évaluées à l'aide de différentes mesures d'évaluation telles que la précision, l'aire sous la courbe ROC (AUC-ROC), la précision, le rappel et la F-mesure.
L'objectif principal de cette étude était le développement d'un NCDS complet tout en gardant la pathologie inexplorée de la septicémie comme point focal. En conséquence, en plus de différencier les nouveau-nés septiques des nouveaux-nés sains, le NCDS a été conçu pour distinguer pour la première fois deux pathologies étroitement liées. Succédant aux réalisations précédentes, le NCDS a franchi une étape pour détecter les nouveau-nés septiques parmis un ensemble de 32 autres pathologies. Enfin, une conception complète non intrusive et non sophistiquée a été réalisée qui peut être utilisée comme système d'alerte pour signaler les nouveau-nés à risque plus élevé d'être diagnostiqué avec un groupe de pathologies critiques telles que la septicémie.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie superieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 197-221). |
Mots-clés libres: | système de diagnostic des pleurs du nouveau-né, fusion, modèle de décision, analyse cepstrale, crête, coefficients cepstraux de fréquence d'écorce, coefficients cepstraux de fréquence gammatone, centroïde spectral, crête spectrale, rapport harmonique, mémoire longue à court terme, perceptron multicouche, optimisation des hyperparamètres, corrélation canonique analyse, analyse des composants de voisinage, déformation du spectre psychoacoustique, fusion de décision, sélection de caractéristiques, réseaux de neurones, cri expiratoire et inspiratoire |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Tadj, Chakib |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 20 févr. 2024 19:58 |
Dernière modification: | 20 févr. 2024 19:58 |
URI: | https://espace.etsmtl.ca/id/eprint/3409 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |