Adiga Vasudeva, Sukesh (2024). Learning with uncertainty in medical image segmentation. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (10MB) | Prévisualisation |
Résumé
Image segmentation is vital in many clinical and research applications, such as disease characterizations, surgical planning, diagnostic measurements, and shape analysis. However, manual delineation is time-consuming, may require expertise, and is subject to variability. Automated algorithms offer a solution to these limitations, thereby assisting clinical and research workflow. Recent deep learning-based techniques have successfully provided high-quality automated segmentation, generally using a substantial amount of labeled data. However, the labels can be ambiguous or unreliable. This thesis tackles these challenges with the primary objective of developing uncertainty-aware tools that can aid in training image segmentation networks. Particularly, the first objective proposes an intensity-based soft labeling strategy to tackle potential ambiguities in the annotation. The second objective presents an anatomically-aware uncertainty estimation to guide the segmentation network under limited supervision. The third objective proposes an attention-based representation for weakly supervised segmentation. The findings from these research objectives have resulted in three journals, two peer-reviewed conference publications, and a short conference article. The contributions of each research objective are summarized below.
In the first objective, we propose a Geodesic Label Smoothing (GeoLS) approach that captures image intensity details within the soft labeling process. The image intensities convey information that could clear potential ambiguities in the annotation. However, existing soft-labeling methods rely only on segmentation masks, ignoring the underlying image context associated with the label. We leverage the geodesic distance transform to capture the intensity variations between pixels. The generated maps modify the hard labels to obtain new intensity-based soft labels. The resulting geodesic soft labels better model spatial and class-wise relationships as they capture the variations of image gradients across classes and anatomy. The benefits of our intensity-based geodesic soft labels are assessed on three diverse sets of publicly accessible segmentation datasets. Our experimental results show that the proposed method consistently improves the segmentation accuracy compared to state-of-the-art soft-labeling techniques in terms of the Dice similarity and Hausdorff distance.
The second objective aims to estimate uncertainty by leveraging anatomically-aware representation during training of segmentation network under semi-supervised settings. Specifically, an anatomically-aware representation is first learned to model the available segmentation masks. The learned representation maps a segmentation prediction into an anatomically plausible segmentation. The deviation from the plausible segmentation aids in estimating the underlying pixel-level uncertainty maps. These maps filter the unreliable target regions to guide the segmentation network. The proposed method consequently estimates the uncertainty using a single inference from our representation, reducing the total computation during training compared to existing uncertainty-aware approaches. We evaluate our method on two publicly available segmentation datasets. Our anatomically-aware approach improves the segmentation accuracy over the state-of-the-art semi-supervised methods in terms of two commonly used evaluation measures.
Finally, the third objective proposes to learn an attention-based dynamic representation for medical image analysis. Particularly, a representation is learned by integrating an attention module into an embedding network. This integrated attention mechanism provides a direct visual insight into the discriminative features of the embedding network. Furthermore, a single metric learner is inadequate for learning a variety of object attributes in images, such as color, shape, or artifacts. Instead, multiple metric learners could aid in learning different aspects of these attributes in subspaces of an overarching embedding. However, number of learners is to be found empirically for each new dataset. We, therefore, present a dynamical subspace learner, which removes the need to know apriori the number of learners in the multiple learners approach. The benefits of our attention-based dynamic representation are evaluated in the application of weakly supervised segmentation, image clustering, and image retrieval. Our method provides an attention map directly during inference to illustrate the visual interpretability of the embedding features. These attention maps offer proxy labels, improving the segmentation accuracy by up to 15% in the Dice score compared to state-of-the-art interpretation techniques. Moreover, our method achieves competitive results compared to the multiple metric learner approach and significantly outperforms the classification network in terms of clustering and retrieval scores on three different public benchmark datasets.
The research work described in this thesis advances medical image segmentation across full, semi, and weak supervision. Our intensity-based soft labels enhance the segmentation, especially in challenging regions. Our anatomically-aware uncertainty estimation approach effectively uses limited annotation, reducing the need for extensive labeling. The attention-based representation approach provides structured data organization and visual interpretability, enabling segmentation with only image-level labels. This thesis presents new tools that assist clinicians and researchers by providing faster, consistent, and accurate delineation of target objects.
Titre traduit
Apprentissage avec incertitude dans la segmentation d’images médicales
Résumé traduit
La segmentation d’images est essentielle dans de nombreuses applications cliniques et de recherche, telles que la caractérisation des maladies, la planification chirurgicale, les mesures diagnostiques et l’analyse des formes. Cependant, la délimitation manuelle prend du temps, peut nécessiter une expertise et est sujette à la variabilité. Les algorithmes automatisés offrent une solution à ces limitations, facilitant ainsi le flux de travail clinique et de recherche. De récentes techniques basées sur l’apprentissage profond ont permis de fournir avec succès une segmentation automatisée de haute qualité, utilisant généralement une quantité substantielle de données étiquetées. Cependant, les étiquettes peuvent être ambiguës ou peu fiables. Cette thèse s’attaque à ces défis avec pour objectif principal de développer des outils sensibles à l’incertitude qui peuvent aider à la formation de réseaux de segmentation d’images. En particulier, le premier objectif propose une stratégie d’étiquetage souple basée sur l’intensité pour s’attaquer aux ambiguïtés potentielles dans l’annotation. Le deuxième objectif présente une estimation de l’incertitude tenant compte de l’anatomie pour guider le réseau de segmentation sous une supervision limitée. Le troisième objectif propose une représentation basée sur l’attention pour une segmentation faiblement supervisée. Les résultats de ces objectifs de recherche ont donné lieu à trois revues, deux publications de conférence évaluées par des pairs et un court article de conférence. Les contributions de chaque objectif de recherche sont résumées ci-dessous.
Dans le premier objectif, nous proposons une approche de lissage des étiquettes géodésiques qui capture les détails d’intensité de l’image dans le processus d’étiquetage souple. Les intensités de l’image transmettent des informations qui pourraient clarifier les ambiguïtés potentielles dans l’annotation. Cependant, les méthodes d’étiquetage souple existantes ne reposent que sur des masques de segmentation, ignorant le contexte d’image sous-jacent associé à l’étiquette. Nous exploitons la transformation de distance géodésique pour capturer les variations d’intensité entre les pixels. Les cartes générées modifient les étiquettes dures pour obtenir de nouvelles étiquettes souples basées sur l’intensité. Les étiquettes souples géodésiques résultantes modélisent mieux les relations spatiales et par classe car elles capturent les variations des gradients d’image à travers les classes et l’anatomie. Les avantages de nos étiquettes souples géodésiques basées sur l’intensité sont évalués sur trois ensembles divers de jeux de données de segmentation accessibles au public. Nos résultats expérimentaux montrent que la méthode proposée améliore systématiquement la précision de la segmentation par rapport aux techniques d’étiquetage souple de pointe en termes de similarité de Dice et de distance de Hausdorff.
Le deuxième objectif vise à estimer l’incertitude en exploitant la représentation anatomiquement consciente pendant l’entraînement du réseau de segmentation dans des conditions semisupervisées. Plus précisément, une représentation anatomiquement consciente est d’abord apprise pour modéliser les masques de segmentation disponibles. La représentation apprise mappe une prédiction de segmentation dans une segmentation anatomiquement plausible. L’écart par rapport à la segmentation plausible aide à estimer les cartes d’incertitude au niveau des pixels sous-jacentes. Ces cartes filtrent les régions cibles non fiables pour guider le réseau de segmentation. La méthode proposée estime par conséquent l’incertitude en utilisant une seule inférence à partir de notre représentation, réduisant ainsi le calcul total pendant l’entraînement par rapport aux approches existantes tenant compte de l’incertitude. Nous évaluons notre méthode sur deux ensembles de données de segmentation accessibles au public. Notre approche anatomiquement consciente améliore la précision de la segmentation par rapport aux méthodes semi-supervisées de pointe en termes de deux mesures d’évaluation couramment utilisées.
Enfin, le troisième objectif propose d’apprendre une représentation dynamique basée sur l’attention pour l’analyse d’images médicales. En particulier, une représentation est apprise en intégrant un module d’attention dans un réseau d’intégration. Ce mécanisme d’attention intégré fournit un aperçu visuel direct des caractéristiques discriminantes du réseau d’intégration. De plus, un seul apprenant métrique est inadéquat pour apprendre une variété d’attributs d’objet dans les images, tels que la couleur, la forme ou les artefacts. Au lieu de cela, plusieurs apprenants métriques pourraient aider à apprendre différents aspects de ces attributs dans les sous-espaces d’une intégration globale. Cependant, le nombre d’apprenants doit être trouvé empiriquement pour chaque nouvel ensemble de données. Nous présentons donc un apprenant de sous-espace dynamique, qui supprime la nécessité de connaître apriori le nombre d’apprenants dans l’approche à apprenants multiples. Les avantages de notre représentation dynamique basée sur l’attention sont évalués dans l’application de la segmentation faiblement supervisée, du regroupement d’images et de la récupération d’images. Notre méthode fournit une carte d’attention directement pendant l’inférence pour illustrer l’interprétabilité visuelle des caractéristiques d’intégration. Ces cartes d’attention proposent des étiquettes proxy, améliorant la précision de segmentation jusqu’à 15% dans le score Dice par rapport aux techniques d’interprétation de pointe. De plus, notre méthode obtient des résultats compétitifs par rapport à l’approche d’apprentissage multimétrique et surpasse considérablement le réseau de classification en termes de scores de clustering et de récupération sur trois ensembles de données de référence publics différents.
Les travaux de recherche décrits dans cette thèse font progresser la segmentation des images médicales en supervision complète, semi-faible et faible. Nos étiquettes souples basées sur l’intensité améliorent la segmentation, en particulier dans les régions difficiles. Notre approche d’estimation de l’incertitude tenant compte de l’anatomie utilise efficacement une annotation limitée, réduisant ainsi le besoin d’étiquetage extensif. L’approche de représentation basée sur l’attention fournit une organisation structurée des données et une interprétabilité visuelle, permettant une segmentation avec uniquement des étiquettes au niveau de l’image. Cette thèse présente de nouveaux outils qui aident les cliniciens et les chercheurs en fournissant une délimitation plus rapide, cohérente et précise des objets cibles.
| Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
|---|---|
| Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 117-142). |
| Mots-clés libres: | étiquetage souple, incertitude anatomique, apprentissage semi-supervisé, apprentissage métrique, apprentissage faiblement supervisé, segmentation d’image |
| Directeur de mémoire/thèse: | Directeur de mémoire/thèse Lombaert, Hervé |
| Codirecteur: | Codirecteur Dolz, José |
| Programme: | Doctorat en génie > Génie |
| Date de dépôt: | 06 janv. 2025 14:25 |
| Dernière modification: | 06 janv. 2025 14:25 |
| URI: | https://espace.etsmtl.ca/id/eprint/3522 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement