Salehianmatikolaie, Fatemeh (2021). Use of prosodic features in infant cry diagnostic system. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (2MB) | Prévisualisation |
Résumé
The newborn’s Cry Audio Signal (CAS) is made up of a rhythmic sound. Imagine that the newborns would not cry; in this case, we had no way of understanding the newborn’s needs. Needs like hunger, pain, illness, or just the need to hug. When a parent hears the sound of a newborn crying, stress hormones are released into the parent’s body, which leads to high blood pressure, heart rate, and muscle tension, and thus the parent tries to stop crying by alleviating the newborn. Crying is explained as a graded signal that is a stimulus in the behavioural system. Newborns can elicit the surrounding people’s reaction by crying, so newborns’ crying is regarded as an early behaviour for survival in the behavioural system.
The cry-researchers found the newborns’ CASs having concealed information about the newborn’s physical and psychological states. The newborns’ brain changes the amount of traction in the vocal cords through the cranial nerves. Because the cranial nerves control crying, the cry-researchers made a connection between crying and the brain. The research on newborns’ CAS to investigate the potential of discriminating characteristics started in the 1960s. It started with the subjective auditory investigations, and interestingly, several reports showed that mothers and the hospital staff often could distinguish the needs of newborns only by listening to them. The investigation was then followed by time, frequency, and spectrographic domains analyses. Through these examinations, distinctive patterns were revealed that determine group characteristics. Finally, to avoid the tedious task of analyzing a large amount of information in newborns’ CASs by humans, automated machine-based analysis was proposed. Such a system for analyzing newborns’ CASs can considerably speed up the investigation time and automatically classify them. This is where machine learning models were introduced to capture the statistics in the newborns’ CASs.
This thesis aims to develop the Newborn Cry Diagnostic system (NCDS) to automatically identify sick infants’ CASs from healthy ones without any newborn physical examination. An NCDS includes three main stages of preprocessing, feature extraction, and model training for classification. This research presented here explores patterns at different levels of newborns’ CASs in the feature extraction phase. The analysis includes investigating the short-term and long-term information in the newborn’s CASs for potential pathologically informed features. Our main contribution in this work is the use of the prosodic features to investigate the long-term statistical patterns in newborns’ CASs. We explored the effectiveness of rhythm, tilt, and intensity feature sets in NCDS. The prosodic feature sets of tilt and rhythm have never been studied in NCDS. The high-level information, namely prosodic features, was found to improve the discriminative ability within audio signals in speech and language recognition systems.
Regarding the short-term feature sets, the common feature set successfully examined in NCDS is Mel Frequency Cepstral Coefficients (MFCC). Another innovation of this work is that we employed the short-term feature set of Auditory-inspired Amplitude Modulation (AAM) for the first time in the NCDS. Our goal was to compare the functionality of the AAM feature set in NCDS with the most influential examined feature set of MFCC and explore the fusion potential of this feature set with MFCC and the prosodic feature set.
The performance of each feature set was evaluated using a collection of classifiers, including support vector machine, decision tree, perceptron neural network and discriminant analysis. We also examined the majority voting method to upgrade the classification results, which has not previously been reported in the literature relating to developing an NCDS.
Our study primarily focused on two critical pathologies of respiratory distress and sepsis, ranking as the 11th and sixth leading causes of death in Canada. In the end, we came up with a comprehensive model encompassing 34 pathologies common among newborns.
Titre traduit
Utilisation des caractéristiques prosodiques dans le système de diagnostic des pleurs des nourrissons
Résumé traduit
Le signal sonore de cri (Cry Audio Signal, CAS) du nouveau-né est constitué d’un son rythmique. Imaginez que les nouveau-nés ne pleurent pas ; dans ce cas, nous n’aurions aucun moyen de les comprendre. Leurs cris expriment la faim, la douleur, la maladie ou simplement le besoin d’un câlin. Lorsqu’un parent entend les pleurs d’un nouveau-né, des hormones de stress sont libérées dans son corps ce qui entraîne une augmentation de la pression artérielle, du rythme cardiaque et de la tension musculaire ; il essaie donc d’arrêter les pleurs en soulageant le nouveau-né. Les pleurs sont expliqués comme un signal graduel qui constitue un stimulus dans le système comportemental. Les nouveau-nés peuvent susciter la réaction de leur entourage en pleurant, et les pleurs des nouveau-nés sont donc considérés comme un comportement précoce de survie dans le système comportemental.
La recherche sur le CAS des nouveau-nés pour étudier le potentiel des caractéristiques discriminantes a commencé dans les années 1960. Elle a commencé par des investigations auditives subjectives et, fait intéressant, plusieurs rapports ont montré que les mères et le personnel hospitalier pouvaient souvent distinguer les besoins des nouveau-nés uniquement en les écoutant. L’étude a ensuite été suivie par des analyses de temps, de fréquence et de domaines spectrographiques. Des chercheurs ont aussi constaté que les CAS des nouveau-nés contenaient des informations sur l’état physique et psychologique du nouveau-né. Les chercheurs ont même décrit comment le cerveau du nouveau-né modifie la traction de ses cordes vocales par l’intermédiaire des nerfs crâniens - établissant un lien entre les pleurs et le cerveau.
Ces examens ont permis de révéler des schémas distinctifs qui déterminent les caractéristiques du groupe. Pour éviter la tâche fastidieuse de l’analyse par des humains d’une grande quantité d’informations contenues dans les CAS des nouveau-nés, une analyse automatisée a été proposée. Un tel système peut considérablement réduire le temps d’investigation et les classer automatiquement. Ainsi des modèles d’apprentissage automatique ont été introduits afin d’établir des statistiques.
Cette thèse vise à développer le système de diagnostic des pleurs du nouveau-né (Newborn Cry Diagnosis System, NCDS) afin d’identifier automatiquement les CAS des nourrissons qu’ils soient malades ou bien portants sans examen physique du nouveau-né. Un NCDS comprend trois étapes principales : Le prétraitement, l’extraction de caractéristiques et l’entraînement du modèle pour la classification. La recherche présentée ici explore les modèles à différents niveaux des CAS des nouveau-nés dans la phase d’extraction des caractéristiques. L’analyse comprend la recherche d’informations à court et à long terme dans les CAS du nouveau-né pour trouver des caractéristiques potentielles à caractère pathologique. Notre principale contribution dans ce travail est l’utilisation des caractéristiques prosodiques pour étudier les modèles statistiques à long terme dans les CAS des nouveau-nés. Nous avons exploré l’efficacité des ensembles de caractéristiques de rythme, d’inclinaison et d’intensité dans le NCDS. Les ensembles de caractéristiques prosodiques d’inclinaison et de rythme n’ont jamais été étudiés dans le NCDS. Il a été constaté que les informations de haut niveau, à savoir les caractéristiques prosodiques, améliorent la capacité de discrimination des signaux audio dans les systèmes de reconnaissance de la parole et du langage.
En ce qui concerne les ensembles de caractéristiques à court terme, l’ensemble de caractéristiques commun examiné avec succès dans le NCDS est celui des coefficients cepstraux de fréquence Mel (Mel Frequency Cepstral Coefficients, MFCC). Une autre innovation dans ce travail est l’utilisation, ) pour la première fois dans le NCDS ,de l’ensemble de caractéristiques à court terme de la modulation d’amplitude inspirée par l’auditoire (Auditory-inspired Amplitude Modulation, AAM).
Notre objectif était de comparer la fonctionnalité de l’ensemble de caractéristiques AAM dans le NCDS avec l’ensemble de caractéristiques examiné le plus influent, le MFCC, et d’explorer le potentiel de fusion de cet ensemble de caractéristiques avec le MFCC et l’ensemble de caractéristiques prosodiques.
Les performances de chaque ensemble de caractéristiques ont été évaluées à l’aide d’une série de classificateurs, dont la machine à vecteurs de support, l’arbre de décision, le réseau neuronal à perceptron et l’analyse discriminante. Nous avons également examiné la méthode du vote majoritaire pour améliorer les résultats de la classification, ce qui n’a pas été rapporté auparavant dans la littérature relative au développement d’un NCDS.
Notre étude s’est principalement concentrée sur deux pathologies critiques, la détresse respiratoire et la septicémie, qui sont les 11e et 6e causes de décès au Canada. Au final, nous avons abouti à un modèle complet englobant 34 pathologies courantes chez les nouveau-nés.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 123-134). |
Mots-clés libres: | caractéristiques prosodiques, rythme, mélodie, intensité, coefficient cepstral de fréquence mélodique, caractéristiques de modulation d’amplitude inspirées de l’audition, système de diagnostic des pleurs du nouveau-né, pleurs du nouveau-né, pleurs d’expiration et d’inspiration |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Tadj, Chakib |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 10 févr. 2022 18:38 |
Dernière modification: | 10 févr. 2022 18:38 |
URI: | https://espace.etsmtl.ca/id/eprint/2892 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |