Nawaz, Wajahat (2025). Assessment of the acute respiratory distress using a depth camera. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Résumé
Acute respiratory distress is an early phase of respiratory failure marked by severely impaired gas exchange, causing inadequate oxygenation of arterial blood and/or insufficient carbon dioxide removal, which can rapidly progress to respiratory failure if not treated promptly. This clinical emergency manifests through various observable signs that reflect the body’s compensatory mechanisms attempting to maintain adequate oxygenation. Common clinical manifestations include tachypnea, nasal flaring, expiratory grunting, thoracoabdominal asynchrony and chest retractions. Among these clinical indicators, signs of chest retraction serve as highly specific and sensitive markers, as they directly indicate increased work of breathing. The presence of these signs constitutes a medical emergency necessitating prompt clinical intervention. The timely and accurate detection of these critical signs is paramount for initiating appropriate therapeutic interventions to prevent respiratory failure.
Current clinical practice relies primarily on visual assessment, a process where healthcare professionals physically observe patients at the bedside to score the severity of respiratory distress through identification of retraction signs. Visual assessment offers several advantages, including being non-invasive, providing immediate results, and requiring no specialized equipment. However, this manual, intermittent monitoring approach suffers from inter-observer variability and is resource-intensive, requiring continuous expert supervision. These limitations are particularly pronounced in resource-constrained settings and pandemic scenarios where clinical resources are strained.
This thesis presents an artificial intelligence-based contactless acute respiratory distress (ARD) detection system that mitigates the deficiencies of visual examination by automating the assessment process. The proposed system leverages RGB-D (color and depth) camera technology to capture visual and temporal information of the patient’s chest wall in a non-invasive and continuous manner. The system further utilizes deep learning models to accurately localize chest wall regions and segment clinically meaningful temporal windows while effectively removing the motion artifacts. Advanced video analysis algorithms subsequently extract discriminative spatiotemporal features from the refined multi-modal data streams for automated respiratory distress identification.
This thesis makes three key contributions through interconnected studies. First, we evaluate various deep learning-based video analysis architectures for ARD detection in case of limited clinical data settings. Our evaluation reveals that real-world clinical datasets exhibit inherent spatial biases. To address this challenge, we propose a spatial-temporal selection framework. Systematic evaluation demonstrates that clinically relevant regions and appropriate temporal window length are critical for accurate and computationally efficient detection. Further analysis reveals that models performing temporal downsampling alongside spatial feature extraction demonstrate superior performance compared to architectures that retain full temporal information. The proposed ARD system, leveraging the CSN-R101 model, attains an accuracy of an accuracy of 82%, precision of 80%, recall of 89%, and F1 score of 84.
Second, we investigate multi-modal data fusion for enhanced detection accuracy. We first establish that depth information alone is insufficient for robust ARD detection. Subsequently, we demonstrate that late feature fusion of RGB and depth modalities substantially outperforms single-modality approaches, achieving 85.2% accuracy, 86.7% precision, 85.2% recall, and 85.8% F1 score, significantly improving upon the RGB-only (82.2% accuracy, 87.2% precision, 77.7% recall, 82.1% F1 score). These findings demonstrate that while depth alone is inadequate, it provides essential complementary features that significantly improve detection when combined with RGB data.
Third, we address critical deployment challenges by developing a real-time, computationally efficient system for automated region-of-interest (ROI) detection and filtering of clinically irrelevant movements. We employed an oriented bounding box-based detection network that precisely localizes the thoracoabdominal region, achieving an 84% mean Average Precision (mAP) at IoU thresholds 0.5 to 0.95. This oriented approach outperforms traditional axis aligned methods by reducing false activations caused by surrounding medical equipment and environmental artifacts. Additionally, we propose an optical flow-based, region-aware clinically irrelevant movement detector that attains a 93% F1 score in identifying video segments where retraction symptoms are difficult to observable, ensuring the system focuses exclusively on diagnostically relevant periods.
This thesis presents a comprehensive methodology for automated acute respiratory ARD detection system. The proposed system validates the feasibility of objective, continuous respiratory monitoring with the potential to reduce clinician workload, improve diagnostic reliability, and enable monitoring in resource-constrained healthcare settings.
Titre traduit
Évaluation de la détresse respiratoire aiguë à l'aide d'une caméra de profondeur
Résumé traduit
La détresse respiratoire aiguë constitue une phase précoce de l’insuffisance respiratoire caractérisée par une altération sévère des échanges gazeux, entraînant une oxygénation artérielle inadéquate et/ou une élimination insuffisante du dioxyde de carbone. En l’absence de traitement rapide, elle peut rapidement évoluer vers une insuffisance respiratoire. Cette urgence clinique se manifeste par divers signes observables reflétant les mécanismes compensatoires de l’organisme pour maintenir une oxygénation adéquate. Les manifestations cliniques courantes comprennent la tachypnée, le battement des ailes du nez, le geignement expiratoire, l’asynchronisme thoraco abdominal et le tirage (rétractions thoraciques). Parmi ces indicateurs, les signes de tirage constituent des marqueurs hautement spécifiques et sensibles, car ils indiquent directement une augmentation du travail respiratoire. La présence de ces signes constitue une urgence médicale nécessitant une intervention clinique rapide. La détection prompte et précise de ces signes critiques est primordiale pour initier les interventions thérapeutiques appropriées et prévenir l’insuffisance respiratoire.
La pratique clinique actuelle repose principalement sur l’évaluation visuelle, un processus où les professionnels de la santé observent physiquement les patients au chevet pour évaluer la sévérité de la détresse respiratoire par l’identification des signes de tirage. L’évaluation visuelle offre plusieurs avantages, notamment son caractère non invasif, l’obtention de résultats immédiats et l’absence d’équipement spécialisé. Cependant, cette approche de surveillance manuelle et intermittente souffre de variabilité inter-observateurs et nécessite des ressources importantes, exigeant une supervision experte continue. Ces limitations sont particulièrement prononcées dans les contextes à ressources limitées et les scénarios pandémiques où les ressources cliniques sont sous tension.
Cette thèse présente un système de détection de la détresse respiratoire aiguë (DRA) sans contact basé sur l’intelligence artificielle, qui pallie les limites de l’examen visuel en automatisant le processus d’évaluation. Le système proposé exploite la technologie de caméra RGB-D (couleur et profondeur) pour capturer des informations visuelles et temporelles de la paroi thoracique du patient de manière non invasive et continue. Le système utilise en outre des modèles d’apprentissage profond pour localiser avec précision les régions de la paroi thoracique et segmenter des fenêtres temporelles cliniquement significatives, tout en éliminant efficacement les artefacts de mouvement. Des algorithmes avancés d’analyse vidéo extraient ensuite des caractéristiques spatio-temporelles discriminantes des flux de données multimodales raffinés pour l’identification automatisée de la détresse respiratoire.
Cette thèse apporte trois contributions clés à travers des études interconnectées. Premièrement, nous évaluons diverses architectures d’analyse vidéo basées sur l’apprentissage profond pour la détection de la DRA dans des contextes de données cliniques limitées. Notre évaluation révèle que les ensembles de données cliniques réels présentent des biais spatiaux inhérents. Pour relever ce défi, nous proposons un cadre de sélection spatio-temporelle. Une évaluation systématique démontre que les régions cliniquement pertinentes et la longueur appropriée de la fenêtre temporelle sont critiques pour une détection précise et efficace en termes de calcul. Une analyse plus approfondie révèle que les modèles effectuant un sous-échantillonnage temporel parallèlement à l’extraction de caractéristiques spatiales démontrent des performances supérieures par rapport aux architectures qui conservent l’information temporelle complète. Le système de DRA proposé, exploitant le modèle CSN-R101, atteint une exactitude de 82%, une précision de 80%, un rappel de 89% et un score F1 de 84%.
Deuxièmement, nous étudions la fusion de données multimodales pour améliorer la précision de détection. Nous établissons d’abord que l’information de profondeur seule est insuffisante pour une détection robuste de la DRA. Par la suite, nous démontrons que la fusion tardive des caractéristiques des modalités RGB et de profondeur surpasse substantiellement les approches unimodales, atteignant une exactitude de 85,2%, une précision de 86,7%, un rappel de 85,2% et un score F1 de 85,8%, améliorant significativement les résultats du RGB seul (exactitude de 82,2%, précision de 87,2%, rappel de 77,7%, score F1 de 82,1%). Ces résultats démontrent que bien que la profondeur seule soit inadéquate, elle fournit des caractéristiques complémentaires essentielles qui améliorent significativement la détection lorsqu’elle est combinée avec les données RGB.
Troisièmement, nous abordons les défis critiques de déploiement en développant un système temps réel et efficace sur le plan computationnel pour la détection automatisée de la région d’intérêt (ROI) et le filtrage des mouvements cliniquement non pertinents. Nous avons employé un réseau de détection basé sur des boîtes englobantes orientées qui localise précisément la région thoraco-abdominale, atteignant une précision moyenne (mAP) de 84% aux seuils IoU de 0,5 à 0,95. Cette approche orientée surpasse les méthodes traditionnelles alignées sur les axes en réduisant les fausses activations causées par l’équipement médical environnant et les artefacts environnementaux. De plus, nous proposons un détecteur de mouvements cliniquement non pertinents basé sur le flux optique et tenant compte des régions, qui atteint un score F1 de 93% dans l’identification des segments vidéo où les symptômes de tirage sont difficiles à observer, garantissant que le système se concentre exclusivement sur les périodes diagnostiquement pertinentes.
Cette thèse présente une méthodologie complète pour un système de détection automatisée de la DRA. Le système proposé valide la faisabilité d’une surveillance respiratoire objective et continue, offrant le potentiel de réduire la charge de travail des cliniciens, d’améliorer la fiabilité diagnostique et de permettre la surveillance dans des contextes de soins de santé aux ressources limitées.
| Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
|---|---|
| Renseignements supplémentaires: | "Manuscript-based Thesis presented to École de technologie supérieure in partial fulfillment for the degree of Doctor of Philosophy". Comprend des références bibliographiques (pages 117-132). |
| Mots-clés libres: | détection de la détresse respiratoire aiguë, évaluation médicale automatisée, rétractions thoraciques, surveillance du patient sans contact, apprentissage profond, imagerie RGB-D, réseaux de neurones convolutifs 3D, fusion de données multimodales |
| Directeur de mémoire/thèse: | Directeur de mémoire/thèse Noumeir, Rita |
| Codirecteur: | Codirecteur Jouvet, Philippe |
| Programme: | Doctorat en génie > Génie |
| Date de dépôt: | 20 févr. 2026 16:37 |
| Dernière modification: | 20 févr. 2026 16:37 |
| URI: | https://espace.etsmtl.ca/id/eprint/3776 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement