Prinsen, Vanessa (2020). Automatic eye localization for hospitalized infants and children using convolutional neural networks. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (678kB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (322kB) | Prévisualisation |
Résumé
The appearance and behaviour of the eye region are important windows into a patient’s condition and level of consciousness, particularly for patients too young to speak. Unfortunately, reliable localization and tracking of the eye region in the pediatric hospital environment is a significant challenge for clinical decision support and patient monitoring applications. The overall aim of this research project is to develop a clinical decision support system that uses bedside cameras to detect signs of consciousness and distress due to pain. This work focuses on the first problem to be solved, namely how to locate the eyes in an image of a pediatric patient in a hospital bed.
Existing work in eye localization achieves high performance on adult datasets but performs poorly in the busy pediatric hospital environment, where face appearance varies because of age, position and the presence of medical equipment. Few studies have examined the application of computer vision and facial analysis techniques to young children in a hospital environment.
To develop an appropriate solution for eye localization, a new training dataset, formed of images of young children from internet searches, is added to adult facial images to train cascade classifiers and convolutional neural networks. Another novel dataset, consisting of 59 recordings of patients in a pediatric intensive care unit, is used to evaluate the performance of these models. This dataset will also serve future work on this and other research projects in pediatric computer vision.
The convolutional neural network trained with the added image data of young children achieves a 79.7% eye localization rate, much higher than models trained on adult data alone. This model also outperforms the cascade models. The dramatic performance improvement gained from adding task-specific images to the training data highlights the need for custom-trained models for specialized applications like pediatric patient monitoring. Existing models and datasets are not sufficient, but the moderate size of the task-specific training dataset used here suggests that developing an internal training dataset is within reach of a typical large hospital.
The effectiveness of the convolutional neural network, given the challenges of this setting, makes it a powerful approach for eye localization and tracking in the hospital environment. The convolutional neural network’s ability to learn unique features allows it to adapt to the challenges of eye localization in an atypical setting where usual assumptions about facial appearance do not necessarily apply. The present weaknesses of the model, like poor recognition of uncommon eye appearances and slow image processing times, will improve with larger training datasets and technological improvements.
Titre traduit
Localisation automatique des yeux des enfants hospitalisés à l’aide de réseaux de neurones convolutifs
Résumé traduit
L’apparence et le comportement de la région oculaire jouent un rôle important dans le diagnostic de la douleur et de l’état de conscience d’un patient, surtout lorsqu’il ou elle est trop jeune pour parler. Toutefois, la localisation et le suivi des yeux dans un environnement hospitalier pédiatrique constitue toujours un défi majeur pour les applications d’aide à la décision clinique et de surveillance des patients. L’objectif global de ce projet est de développer un système d’aide à la décision clinique qui utilise des caméras pour détecter les signes de conscience et de détresse chez les enfants. Ce travail de recherche se concentre sur le premier défi, à savoir comment localiser les yeux dans une image d’un patient pédiatrique dans un lit d’hôpital.
Les solutions existantes pour la localisation des yeux atteignent d’excellentes performances sur les images d’adultes, mais sont médiocres dans l’environnement hospitalier pédiatrique, où l’apparence du visage peut varier en raison de l’âge, de la position du patient, et de la présence d’équipements médicaux. Peu d’études ont examiné l’application de la vision par ordinateur et l’analyse faciale dans ce milieu.
Pour développer une solution performante pour la localisation des yeux, un nouvel ensemble de données d’entrainement, constitué d’images de jeunes enfants issues des recherches sur l’Internet, est ajouté aux données images d’adultes pour entrainer des classifieurs cascade et des réseaux de neurones convolutifs. Un autre ensemble de données innovant, constitué de 59 enregistrements de patients dans une unité de soins intensifs pédiatrique, est utilisé pour évaluer la performance de ces modèles. Cet ensemble de données servira également aux travaux futurs sur ce projet et d’autres projets de recherche sur les applications pédiatriques de la vision par ordinateur.
Le réseau de neurones convolutifs entrainé avec l’ensemble de données des jeunes enfants atteint un taux de localisation des yeux de 79,7%, ce qui est bien supérieur aux modèles entrainés uniquement avec des données adultes. Ce modèle surpasse également les modèles cascade. L’amélioration significative de performance après l’ajout des images des jeunes enfants souligne le besoin de données et modèles personnalisés pour des applications spécialisées telles que la surveillance des patients en pédiatrie. Les projets cliniques de vision par ordinateur ne peuvent pas s’appuyer sur des modèles et des ensembles de données existants pour couvrir leurs besoins. Par contre, la taille raisonnable de l’ensemble de données d’entrainement supplémentaire utilisé pour ce projet suggère que le développement d’une base de données d’entrainement interne est à la portée d’un grand hôpital.
L’efficacité du réseau de neurones convolutifs, compte tenu les défis du milieu hospitalier pédiatrique, fait de lui une approche puissante pour la localisation et le suivi des yeux dans l’environnement hospitalier. La capacité du réseau de neurones convolutifs à apprendre des caractéristiques d’image uniques lui permet de s’adapter à la localisation des yeux dans un environnement atypique où les approches basées sur des règles ou suppositions sur l’apparence du visage ne s’appliquent pas toujours. Les faiblesses actuelles du modèle, telles que des performances médiocres sur des yeux avec apparences atypiques et la lenteur de traitement des images, vont s’améliorer avec la croissance des ensembles de données d’entrainement et les améliorations technologiques.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis, with a personalized concentration Comprend des références bibliographiques (pages 71-96). |
Mots-clés libres: | vision par ordinateur, réseau de neurones convolutifs, classifieur cascade, pédiatrie, hôpital |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Noumeir, Rita |
Codirecteur: | Codirecteur Jouvet, Philippe |
Programme: | Maîtrise en ingénierie > Génie |
Date de dépôt: | 17 déc. 2020 20:45 |
Dernière modification: | 17 déc. 2020 20:45 |
URI: | https://espace.etsmtl.ca/id/eprint/2607 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |