Vital signs estimation using remote photoplethysmography rPPG

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Ben Salah, Mohamed Khalil (2025). Vital signs estimation using remote photoplethysmography rPPG. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of BEN_SALAH_Mohamed_Khalil.pdf]

Prévisualisation

PDF
Télécharger (5MB) | Prévisualisation

Résumé

Vital sign monitoring in Pediatric Intensive Care Units (PICUs) is critical for managing vulnerable pediatric patients. Conventional approaches, such as electrocardiography, rely on physical contact and are often invasive, costly, and unsuitable for newborns or patients with contagious conditions. Remote photoplethysmography (rPPG) offers a non-contact alternative by capturing subtle variations in skin color caused by pulsatile blood flow. In pediatric intensive care, it provides a safer solution than adhesive sensors, which can cause irritation and increase the risk of infection. However, deploying rPPG in real clinical environments remains challenging due to frequent occlusions from medical equipment, patient motion, illumination variability, and a domain gap between controlled laboratory data and PICU recordings. These limitations are compounded by the scarcity of annotated clinical datasets. Addressing these constraints requires models that are physiologically interpretable, computationally efficient, and resilient to domain shifts. This thesis introduces a unified framework that integrates efficient spatiotemporal feature learning, anatomically consistent region detection, and curriculum-based self-supervised pretraining to achieve accurate and real-time estimation of heart rate in complex clinical environments.

To extract reliable rPPG signals from unconstrained facial videos, a hybrid architecture is proposed that combines 3D convolutional blocks with temporal difference kernels (3DCDC-T) and multi-head self-attention from vision transformers. The model captures local spatiotemporal gradients indicative of blood volume changes while modeling longer-range dependencies required to resolve complete cardiac cycles. Attention mechanisms further refine feature focus on physiologically informative facial regions, and the feed-forward design ensures computational efficiency by limiting the transformer’s input to compact feature embeddings. Evaluated on public datasets, the model achieves an MAE of 0.79 bpm and RMSE of 0.80 bpm, with a Pearson correlation of 0.99, improving over existing methods both in accuracy and inference cost.

Accurate rPPG estimation requires stable anatomical tracking of face and thoracoabdominal regions, particularly in videos affected by rotation, bed tilt, or caregiver occlusion. A dedicated detection module is developed using the Divided Space–Time Mamba (DST-Mamba) model. This architecture decouples spatial and temporal processing through Selective State Space Models (SSMs), enabling linear-time complexity and low-latency inference across longer video sequences. The model predicts oriented bounding boxes (OBBs) to preserve rotation alignment under non-standard camera angles and integrates RGB-D inputs to improve robustness against visual occlusions. DST-Mamba achieves 0.96 mAP@0.5 and 0.95 rotated IoU on a clinical dataset, maintaining temporal stability while operating at 23 FPS on standard hardware.

To mitigate the scarcity of labeled PICU data, a curriculum-based self-supervised learning strategy is introduced. A Mamba-based adaptive masking controller assigns spatiotemporal importance scores to input patches and applies strategic masking using differentiable Gumbel sampling. This adversarial masking forces the model to reconstruct physiological signals from degraded inputs, encouraging robustness to clinical occlusions and distractions. The learning process follows a structured curriculum: initial training on public datasets, simulation of occlusion patterns observed in PICU recordings, and domain adaptation on 500 unlabeled clinical videos. A lightweight teacher–student distillation module transfers physiological priors from expert models. This pipeline reduces supervised data requirements by 80%, achieving an MAE of 3.2 bpm using only 160 labeled patients, compared to 18.2 bpm with direct supervised training.

The framework is validated on an extensive dataset collected at CHU Sainte-Justine, demonstrat ing generalization across ages, skin tones, and occlusion conditions. The system maintains MAE under 7.2 bpm with over 70% facial occlusion, achieving 3.8 bpm for neonates and 3.5 bpm for mechanically ventilated patients. It operates in real-time within clinical constraints, consuming 169.7 GFLOPs and 6.1 GB memory at 30 FPS throughput. Together, these contributions address key barriers to clinical rPPG deployment, including domain adaptation, anatomical tracking, and data efficiency, moving non-contact physiological monitoring toward practical use in pediatric intensive care.

Titre traduit

Estimation des signes vitaux à l’aide photopléthysmographie à distance rPPG

Résumé traduit

La surveillance des signes vitaux dans les Unités de Soins Intensifs Pédiatriques (USIP) est essentielle pour la prise en charge des patients pédiatriques vulnérables. Les approches conventionnelles, telles que l’électrocardiographie, reposent sur un contact physique et sont souvent invasives, coûteuses et inadaptées aux nouveau-nés ou aux patients atteints de maladies contagieuses. La photopléthysmographie à distance (rPPG) offre une alternative sans contact en capturant les variations subtiles de la couleur de la peau causées par le flux sanguin pulsatile. En soins intensifs pédiatriques, elle constitue une solution plus sûre que les capteurs adhésifs, qui peuvent provoquer des irritations et augmenter le risque d’infection. Cependant, le déploiement de la rPPG dans des environnements cliniques réels reste difficile en raison des occlusions fréquentes dues à l’équipement médical, des mouvements des patients, de la variabilité de l’éclairage et d’un décalage de domaine entre les données de laboratoire contrôlées et les enregistrements en USIP. Ces limitations sont aggravées par la rareté des ensembles de données cliniques annotées. Pour surmonter ces contraintes, il est nécessaire de développer des modèles physiologiquement interprétables, efficaces sur le plan computationnel et résilients aux changements de domaine. Cette thèse présente un cadre unifié qui intègre l’apprentissage de caractéristiques spatiotemporelles efficaces, la détection de régions anatomiquement cohérentes et un pré-entraînement auto-supervisé basé sur un curriculum pour obtenir une estimation précise et en temps réel de la fréquence cardiaque dans des environnements cliniques complexes.

Pour extraire des signaux rPPG fiables à partir de vidéos faciales non contraintes, une architecture hybride est proposée, combinant des blocs convolutionnels 3D avec des noyaux de différence temporelle (3DCDC-T) et une auto-attention multi-têtes issue des transformateurs de vision. Le modèle capture les gradients spatiotemporels locaux indicatifs des variations du volume sanguin tout en modélisant les dépendances à plus longue portée nécessaires pour résoudre les cycles cardiaques complets. Les mécanismes d’attention affinent davantage la focalisation des caractéristiques sur les régions faciales physiologiquement informatives, et la conception feed-forward garantit l’efficacité computationnelle en limitant l’entrée du transformateur à des plongements de caractéristiques compacts. Évalué sur des ensembles de données publics, le modèle atteint une MAE de 0,79 bpm et une RMSE de 0,80 bpm, avec une corrélation de Pearson de 0,99, améliorant ainsi les méthodes existantes tant en termes de précision que de coût d’inférence.

Une estimation précise de la rPPG nécessite un suivi anatomique stable des régions du visage et thoraco-abdominales, en particulier dans les vidéos affectées par la rotation, l’inclinaison du lit ou l’occlusion par le personnel soignant. Un module de détection dédié est développé en utilisant le modèle Divided Space–Time Mamba (DST-Mamba). Cette architecture découple le traitement spatial et temporel grâce à des Modèles d’Espace d’État Sélectifs (SSM), permettant une complexité en temps linéaire et une inférence à faible latence sur des séquences vidéo plus longues. Le modèle prédit des boîtes englobantes orientées (OBB) pour préserver l’alignement en rotation sous des angles de caméra non standards et intègre des entrées RGB-D pour améliorer la robustesse face aux occlusions visuelles. DST-Mamba atteint 0,96 mAP@0,5 et 0,95 d’IoU tournée sur un ensemble de données cliniques, maintenant la stabilité temporelle tout en fonctionnant à 23 FPS sur du matériel standard.

Pour pallier la rareté des données étiquetées en USIP, une stratégie d’apprentissage auto-supervisé basée sur un curriculum est introduite. Un contrôleur de masquage adaptatif basé sur Mamba attribue des scores d’importance spatiotemporelle aux patchs d’entrée et applique un masquage stratégique en utilisant l’échantillonnage de Gumbel différentiable. Ce masquage contradictoire force le modèle à reconstruire les signaux physiologiques à partir d’entrées dégradées, favorisant ainsi la robustesse aux occlusions et distractions cliniques. Le processus d’apprentissage suit un curriculum structuré : entraînement initial sur des ensembles de données publics, simulation de motifs d’occlusion observés dans les enregistrements de l’USIP, et adaptation de domaine sur 500 vidéos cliniques non étiquetées. Un module de distillation enseignant-élève léger transfère les a priori physiologiques de modèles experts. Ce pipeline réduit les besoins en données supervisées de 80 %, atteignant une MAE de 3,2 bpm en utilisant seulement 160 patients étiquetés, contre 18,2 bpm avec un entraînement supervisé direct.

Le cadre est validé sur un vaste ensemble de données collectées au CHU Sainte-Justine, démontrant une généralisation à travers les âges, les teintes de peau et les conditions d’occlusion. Le système maintient une MAE inférieure à 7,2 bpm avec plus de 70% d’occlusion faciale, atteignant 3,8 bpm pour les nouveau-nés et 3,5 bpm pour les patients sous ventilation mécanique. Il fonctionne en temps réel dans les contraintes cliniques, consommant 169,7 GFLOPs et 6,1 Go de mémoire avec un débit de 30 FPS. Ensemble, ces contributions lèvent les obstacles clés au déploiement clinique de la rPPG, notamment l’adaptation de domaine, le suivi anatomique et l’efficacité des données, faisant progresser la surveillance physiologique sans contact vers une utilisation pratique en soins intensifs pédiatriques.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 155-176).
Mots-clés libres:	unité de soins intensifs pédiatriques, photopléthysmographie à distance, surveillance sans contact, apprentissage auto-supervisé, architecture mamba, transformateurs de vision
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Noumeir, Rita
Codirecteur:	Codirecteur Jouvet, Philippe
Programme:	Doctorat en génie > Génie
Date de dépôt:	20 févr. 2026 15:26
Dernière modification:	20 févr. 2026 15:26
URI:	https://espace.etsmtl.ca/id/eprint/3774

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt