Farsaie Alaie, Hesam (2015). Diagnosis of diseases in newborn infants by analysis of cry signals. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (2MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (1MB) | Prévisualisation |
Résumé
Crying is the first sound the baby makes when he enters the world outside of his mother’s stomach, which is a very positive sign of a new healthy life. Well, we elders can talk but the newborn infant isn't old enough to do that yet. Cry is all a baby can do to express any discomfort it feels. When initially reading it, the first thing that comes to mind is why the cry is such an important aspect of health care for newborn infants? Although studying on infant’s cry was pioneered in the late 1960s, but it never crossed anybody's mind that sick infants might be identified from their cries. Statistical reports by World Health Organization state that the congenital anomalies or birth defects affect approximately 1 in 33 infants born every year and almost all of the world’s infant deaths happen in developing countries. Therefore, it is imperative to provide an inexpensive health care system, with no need of complex and advanced technology for poor mothers with newborn babies in low-income countries to survive more babies beyond the first months of life. In spite of the fact that there are a lot of maternal issues that can raise the risks of complications and anomalies in newborn infants, we are curious to examine the ability of solely the concealed information inside infant’s cry to clarify the infant’s physiological anatomy and psychological condition. The creative idea behind of such a non-invasive diagnostic system is based on the evidence extracted from past research studies for potential ability of infant’s cry to distinguish between healthy and sick infants. This innovative idea can tackle key global health and development problems.
The purpose of this study is to develop a newborn cry-based diagnostic system to classify healthy and sick infants with different pathological conditions. First, an informed choice of pathological states and collecting of the infant cry data base is necessary and still in progress to complete the infant cry data base. In many of today’s application domains, it is often unavoidable to have data with high dimensionality and small sample size. Both small sample size problem and dimensionality reduction methods have been studied extensively but the combination of imbalanced data and small sample size presents a new challenge to the community. In this situation, learning algorithm often fail to generalize inductive rules over the sample space when presented with this form of imbalance. In fact, the combination of small sample size and high dimensionality hinders learning because of difficulty involved in forming conjugations over the high degree of features with limited samples. In the next part, data preprocessing, including selection and extraction of pathologically-informed features suitably with the best possible precision and then quantifying them for each pathological condition without any human intervention is considered in the system. In order to obtain the full benefit of the information embedded in the cry signal, Mel Frequency Cepstrum Coefficient (MFCC) analysis will be done on both expiratory and inspiratory cry vocalizations separately in this study. To avoid the need of human effort in labeling the boundaries of the corresponding corpus, automatic labeling of cry signals is required for an ideal cry-based diagnostic system. However, to alleviate the segmentation task in this study, it has been manually performed so far.
Finite mixtures are a flexible and powerful probabilistic tool for modeling univariate and multivariate data among all available approaches to do modeling and classification tasks. In this regard, we come up with Gaussian Mixture Models (GMMs) that is a special case of Hidden Markov Models (HMMs) with one state, as a new representation of cry signals according to extracted feature streams. The next part of this thesis is dedicated to enhancement of learning of GMMs that are usually trained using the iterative Expectation Maximization (EM) algorithm. However, considering the risk of overfitting due to small training sample size in some pathological conditions, and the fact that the number of mixtures is fixed in the traditional EM-based re-estimation algorithm, a new learning method based on boosting algorithm is introduced to learn growing mixture models in an incremental and recursive manner.
The idea of Universal Background Model (UBM) used in speaker recognition and verification systems is employed to represent general feature characteristics of infant cry signals. Then, a variant of boosted mixture learning (BML) method is employed in order to derive subclass models for each enrolled disease from the GMM-UBM by adaptation of GMM parameters. The crux of the design was to fuse two subsystems that are based on expiratory and inspiratory sounds in baby cry recordings into a single effective system. Such systems are expected to be more reliable due to the presence of multiple, (fairly) independent pieces of evidence. We present log-likelihood ratio score fusion to stop worrying on the feature compatibility and rigid fusion.
Apart from all of the above-mentioned modeling and learning methods, our work is different from previous works in that while other systems usually deal with binary classification tasks between healthy and sick infant with only one specific disorder. Our cry-based diagnostic system has a hierarchical scheme that focuses into multi-pathology classification problem via combination of individual classifiers. Moreover, it is worthwhile mentioning that the chosen diseases have not been previously studied.
Titre traduit
Le diagnostic des pathologies chez les nouveau-nés par l'analyse des signaux de cris
Résumé traduit
Le cri est le premier son qu’un bébé peut générer à la naissance, et qui est également un signe positif d’une nouvelle vie saine. Ainsi, le cri est tout ce qu’un nourrisson peut faire pour exprimer un quelconque malaise qu’il ressent. Nous pouvons alors nous demander : pourquoi un cri est-il un aspect important des soins de santé dispensés aux nouveau-nés ? Bien que les études sur les cris des nouveau-nés aient été initiées depuis la fin des années 1960, peu de travaux ont été réalisés en vue de l’identification automatique de pathologies à partir du cri.
Les rapports statistiques de l’Organisation mondiale de la santé indiquent que les anomalies congénitales ou malformations à la naissance affectent environ 1 nouveau-né sur 33 chaque année, et tous les décès d’enfants dans le monde ont majoritairement lieu dans les pays en développement. Il est donc impératif de fournir, aux pauvres mères dans les pays à bas revenu, un système économique de soins de santé qui aide leurs nouveau-nés à survivre au delà des premiers mois de la vie, sans avoir à recourir à des technologies complexes et avancées. Malgré le fait qu’il y ait beaucoup de problèmes de santé maternelle qui peuvent augmenter les risques des complications et des anomalies chez les nouveau-nés, nous sommes avides de savoir à quel point l’information dissimulée dans le cri pourrait permettre l’identification de l’anatomie physiologique ainsi que de la condition psychologique chez un nouveau-né. L’idée créative d’un tel système non invasif de diagnostic est basée sur les données probantes ressorties des recherches antérieures qui à leur tour révèlent la possibilité de distinguer entre enfants malades et enfants sains à partir du cri. Cette idée innovatrice peut aborder les principaux enjeux en matière de santé et de développement.
Le but de cette étude est de développer un système de diagnostic basé sur les cris afin de classifier les bébés sains et malades avec différents états pathologiques. D’abord, il est important de faire un choix précis des états pathologiques pour la phase de collection des cris des nouveau-nés. Cette opération est encore en cours pour compléter la base de données de cris. De plus, dans de nombreux domaines d’applications, il est souvent incontournable de disposer de données à très haute dimensionnalité et de taille d’échantillons réduite. Les problèmes de la taille des échantillons et de la réduction de la dimensionnalité ont fait l’objet des nombreuses recherches, mais l’association des données déséquilibrées et la taille réduite des échantillons réduite présente un nouveau défi pour la communauté. Dans cette situation, les algorithmes d’apprentissage échouent souvent à généraliser des règles inductives sur l’espace de l’échantillon et surtout lorsqu’ils sont employés avec cette forme de déséquilibre.
En effet, l’utilisation d’un échantillon, de taille réduite et de haute dimensionnalité, peut avoir un impact négatif sur l’apprentissage en raison de la difficulté dans la formation des relations par rapport au niveau déjà élevé des caractéristiques avec un nombre limité d’échantillons. Dans la partie qui suit, une étape de prétraitement des données, y compris la sélection et l’extraction des caractéristiques pathologiques appropriées avec la meilleure précision possible ainsi que leur quantification pour chaque pathologie, sans aucune intervention humaine, sera considérée pour l’élaboration de notre système. Afin d’exploiter l’information contenue dans le signal du cri, l’analyse des coefficients cepstraux sur l’échelle de Mels (MFCC) sera effectuée dans cette étude de façon séparée sur chacun des types de vocalisations expiratoire et inspiratoire du cri. En tenant compte de la nécessité d’éviter les efforts humains dans l’étiquetage des frontières dans le corpus utilisé, une étape de segmentation automatique des signaux de cris est requise pour un système de diagnostic idéal. Cependant, en vue d’alléger la tâche de segmentation dans cette étude, il était nécessaire jusqu’à présent de l’effectuer manuellement.
Les mélanges finis sont des outils de modélisation probabilistes, flexibles et puissants parmi toutes les approches disponibles. Elles permettent la modélisation et la de classification de données univariables et multivariables. Nous avons ainsi choisi d’utiliser les modèles de mélanges gaussiennes (GMM), qui représentent un cas particulier des Modèles de Markov cachés (HMMs) avec un seul état, pour la représentation des signaux cris selon les vecteurs de caractéristiques extraites. La partie suivante de cette thèse est dédiée à l’amélioration de l’apprentissage des GMMs. Cette étape est généralement réalisée à l’aide d’un algorithme itératif EM, pour Expectation-Maximisation. Cependant, compte tenu, d’une part, du risque du sur-apprentissage (overfitting) en raison de la petite taille de des échantillons de certaines conditions pathologiques, et d’autre part, du fait que le nombre de mélanges est fixé dans l’algorithme de ré-estimation traditionnelle EM, une nouvelle méthode d’apprentissage fondée sur un algorithme de ‘boosting’ est introduite afin d’entrainer les modèles de mélanges croissantes d’une façon incrémentale et récursive.
L’idée du modèle universel (UBM), largement employé dans les systèmes de reconnaissance du locuteur et de vérification, est utilisée pour représenter les caractéristiques principales des signaux de cris des nourrissons. Une variante de l’algorithme d’apprentissage appelée BML, pour Boosted Mixture Learning est employée, afin d’obtenir des modèles de chaque pathologie étudiée à partir d’un GMM-UBM par une adaptation des paramètres du GMM. L’essentiel dans la manipulation d’un système efficace de diagnostic est la fusion des deux sous-systèmes basés sur les vocalisations expiratoires et inspiratoires détectées dans les enregistrements des cris des bébés. De tels systèmes sont censés être plus fiables du fait de la présence de plusieurs éléments de preuve indépendants. En tenant compte de la compatibilité des caractéristiques et de la rigidité de la fusion, nous illustrons le rapport de fusion du Log-vraisemblance.
Indépendamment de toutes les méthodes d’apprentissage et de modélisation susmentionnées, notre travail se différencie des travaux antérieurs par le fait que dans les autres systèmes, une tâche binaire de classification est utilisée et qui sert à distinguer entre bébés sains et bébés malades ayant seulement une pathologie spécifique. Alors que notre système de diagnostic est fondé sur un schéma hiérarchique qui se focalise sur le problème de classification multipathologies via la fusion de divers classificateurs individuels. Par ailleurs, il convient de souligner que les pathologies sélectionnées n’ont pas été étudiées auparavant.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillement [i.e. fulfillment] of the requirements for the degree of doctor of philosophy". Bibliographie : pages 157-168. |
Mots-clés libres: | Nouveau-nés Maladies Diagnostic. Cris Classification. Traitement du signal. Distribution composée (Théorie des probabilités) Communication non-verbale chez le nourrisson. modèles de mélanges gaussiennes, modèle universel (UBM), coefficients cepstraux, rapport de vraisemblance, cris des nouveau-nés, expiration, inspiration |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Tadj, Chakib |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 23 oct. 2015 18:35 |
Dernière modification: | 10 déc. 2016 16:52 |
URI: | https://espace.etsmtl.ca/id/eprint/1528 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |