Modèle basé sur le Transformer pour une détection robuste du visage des nourrissons et des enfants hospitalisés en utilisant des images RVB et thermiques

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Bouras, Toufik (2024). Modèle basé sur le Transformer pour une détection robuste du visage des nourrissons et des enfants hospitalisés en utilisant des images RVB et thermiques. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (4MB) | Prévisualisation

Résumé

La localisation faciale dans les vidéos des patients en Unité de Soins Intensifs Pédiatriques (USIP) est une étape essentielle dans plusieurs applications de surveillance non invasive des patients basée sur la vidéo. Ces applications vont de l’évaluation de la douleur du patient a partir de l’expression faciale a l’estimation des rythmes cardiaque et respiratoire a partir des caractéristiques faciales. La précision de la localisation de visages des patients peut avoir un impact sur la qualité de lour surveillance. Dans le cadre général, les modèles de détection de visage bases sur les réseaux de neurones convolutifs, tels que RetinaFace, atteignent une grande précision. Cependant, leur précision diminue considérablement lorsqu’ils sont appliques en USIP ou en Unité de Soins Intensifs Néonatals (USIN). Cette baisse peut être attribuée a l’environnement clinique difficile, notamment le visage du patient occulte, les conditions d’éclairage variables et les postures extrêmes des patients.
Pour remédier à cela, nous utilisons un modèle de détection base sur les Transformers, DEtection TRansformer (Detr), préentraîné sur l’ensemble des donnees WiderFace, pour détecter les visages en USIP. Nous avons également utilisé les images thermiques pour améliorer la précision de la détection faciale.
Nos résultats montrent que le modèle Detr se généralise très bien aux données USIP par rapport à RetinaFace. De plus, nous avons mis au point une approche novatrice intégrant des images RVB et thermiques légèrement alignées, ce qui a considérablement amélioré la précision de détection pour les modèles Detr et RetinaFace. En exploitant conjointement les images thermiques et RVB, un modèle Detr préentraîné a surpassé RetinaFace de 15,3 %, atteignant une précision moyenne de 71,6 %. Enfin, nous présentons les résultats de l’ajustement fin des deux modèles sur un ensemble de 282 images de divers patients, de différents âges et postures en USIP. Le modèle Detr base sur le Transformer démontre une meilleure capacite de généralisation que le modèle RetinaFace base sur les CNN pour la détection des visages en USIP.

Titre traduit

Transformer-based model for robust face detection of hospitalized infants and children using RGB and thermal images

Résumé traduit

Face localization in videos of patients in the Pediatric Intensive Care Unit (PICU) is an essential step in several applications of video-based non-invasive patient monitoring. These applications range from assessing the patient’s pain from facial expression to estimating the heart and respiratory rate from facial features. The localization accuracy of the patients’ faces can impact the quality of the patient monitoring application. Currently, Convolutional Neural Network (CNN) based face detection models, such as RetinaFace, achieve high accuracy in general settings. However, their accuracy substantially declines when applied in the PICU or in the Neonatal Intensive Care Unit (NICU). Such decline can be attributed to the challenging clinical setting. Particularly, occluded patient face, variable lighting conditions, and extreme patient pose. Addressing this, we use a transformer-based detection model DEtection TRansformer (Detr) pre-trained on the WiderFace dataset to detect faces in the PICU. Our results show that the Detr model compared to RetinaFace generalizes very well to the PICU data. Moreover, we unveiled a novel approach integrating weakly aligned RGB and thermal images, boosting detection accuracy for both Detr and Retinaface. Leveraging both thermal and RGB images, a pre-trained Detr outperformed RetinaFace by 15.3% reaching an Average Precision (AP) of 71.6%. Finally, we discuss the results of fine-tuning both models on 282 images of diverse patients of different ages and poses in the PICU. The transformer-based model Detr generalizes better than the CNN-based RetinaFace model in detecting the faces in the PICU.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire en concentration personnalisée". Comprend des références bibliographiques (pages 51-56).
Mots-clés libres:	enfants, réseaux neuronaux convolutifs, clinique, détection de visage, hôpital, Unité de Soins Intensifs Pédiatriques (USIP), pédiatrie, Transformer de vision, thermique, propriétés des Transformers, généralisation des Transformers
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Noumeir, Rita
Codirecteur:	Codirecteur Jovet, Philippe
Programme:	Maîtrise en ingénierie > Génie
Date de dépôt:	01 août 2024 16:24
Dernière modification:	03 sept. 2024 18:31
URI:	https://espace.etsmtl.ca/id/eprint/3485

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt