La vitrine de diffusion des mémoires et thèses de l'ÉTS

Reduced supervision methods for medical image segmentation


Téléchargements par mois depuis la dernière année

Plus de statistiques...

Peng, Jizong (2022). Reduced supervision methods for medical image segmentation. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of PENG_Jizong.pdf]
Télécharger (16MB) | Prévisualisation


Medical image segmentation is an important pre-processing step in computer-aided diagnosis systems. Methods based on neural networks have demonstrated state-of-the-art performance on various segmentation tasks with different image modalities. Despite their unprecedented success, neural networks usually require a large amount of reliable densely-labeled data. However, obtaining this data is a laborious and costly process, which often requires medical experts, and annotations obtained by this process can be prone to errors. To mitigate the scarcity of denselyannotated data, a promising research direction is to exploit images with reduced supervision signals. These reduced types of supervision usually consist of image tags, points, scribbles or bounding boxes as annotations, however images without any form of supervision can also be leveraged. Recent works have also tried to combine these weak annotations with anatomical priors for regions of interest to guide the network prediction towards anatomically-plausible solutions.

The main objective of this thesis is to develop accurate algorithms for medical image segmentation which can learn with reduced supervision. Specifically, we first propose a weakly-supervised segmentation algorithm that learns from scribbles and discrete anatomical constraints. Next, we present a segmentation framework, based on deep ensemble learning, that enables the collaborative training of multiple segmentation networks with a small set of labeled images and a larger amount of unlabeled ones. In another contribution of the thesis, we solve this problem by introducing an algorithm based on mutual information that uses unlabeled images to regularize the feature representation in the network and boost segmentation accuracy when few images are densely annotated. We then propose a method based on representation learning that exploits the information from unlabeled images with various medical meta-labels. As the last contribution, we demonstrate a boundary-aware information maximization method for dense representation pre-training, which acquires meaningful anatomical structure cues from unlabeled images and thus significantly improving segmentation accuracy given a small set of labeled images. This thesis has resulted in three journal publications, two papers in peer-reviewed international conferences, two short papers presented in medical imaging workshops, as well as one paper currently under review. The specific objectives of this thesis are presented below.

As our first objective, we propose an efficient strategy for weakly-supervised segmentation to impose constraints or regularization priors on target regions. This segmentation method is among the first to employ discrete optimization with a neural network, which enables the network obtain a more accurate solution faster. Our proposed method is based on the alternating direction method of multipliers (ADMM) algorithm and trains a CNN with discrete constraints and regularization priors. The performance of this method is validated on the segmentation of medical images with few annotated pixels, as well as discrete constraints of the size and boundary regularity of segmented regions. Experiments on two benchmark datasets showed our method to provide significant improvements compared to existing approaches in terms of segmentation accuracy, constraint satisfaction and convergence speed.

In our second objective, we focus on semi-supervised segmentation and propose an algorithm based on ensemble learning. This method trains multiple models with a reduced number of annotated images, as well as with non-annotated images used for exchanging information between the trained models. To enforce the diversity of models, an adversarial loss is also designed. The effectiveness of this method is assessed on three medical image segmentation tasks covering different modalities, where it boosts segmentation accuracy when very few labeled images are used. The impact of our diversity loss is studied by visualizing the images generated by the adversarial training. We also explore the performance gains obtained with an ensemble containing more than two models, showing that adding models can improve results at the cost of increased computations.

In our third objective, a novel semi-supervised segmentation method is proposed. This method leverages the mutual information computed on categorical distributions to achieve both global representation invariance and spatial smoothness. In this method, we maximize the mutual information for intermediate feature embeddings that are taken from both the encoder and decoder of a segmentation network. A loss on global mutual information is employed on the encoder to enforce invariance towards geometric transformations. Likewise, a loss on the local mutual information is also used to promote spatial consistency in feature maps from the decoder, and thus to provide a smoother segmentation. The advantages of our method are evaluated on four challenging publicly-available datasets for medical image segmentation. Experimental results show our method to outperform recently-proposed approaches for semi-supervised segmentation and provide an accuracy near to full supervision while requiring very few annotated images.

In our fourth objective, we aim to acquire a useful representation by employing unlabeled images. Specifically, we adapt standard contrastive learning to train the encoder of the network for different pre-defined tasks: determining if two images of a 3D MRI scan are from the same position, same subject, or were acquired at the same moment of the cardiac cycle. In order to mitigate the noise presented in these meta-labels, an effective self-paced learning strategy is then proposed in contrastive learning, which yields a more robust representation and thus performance improvements for the segmentation tasks. We verify the quality of the proposed method on five medical image segmentation datasets, indicating clearly the advantage of our proposed self-paced mechanism using the meta-labels.

We present, in our last objective, a cluster-based method to learn discriminative representations for dense feature maps. This approach employs an improved mutual information loss to group dense embeddings into multiple balanced and confident clusters. A boundary-aware loss based on pixel-wise cross-correlation is also enforced to align the cluster boundaries to image edges, which regularizes different clusters to correspond to anatomical structures in the image. Our proposed losses complement the contrastive loss presented in the previous objective, and their combination leads to remarkable improvements for the downstream segmentation tasks. Experimental results obtained from two clinically-relevant benchmark datasets clearly indicate the advantage of our method over contrastive-based counterparts, leading to a segmentation precision close to that of full-supervision, given only a few densely-annotated examples.

Titre traduit

Méthodes de supervision réduites pour la segmentation des images médicales

Résumé traduit

La segmentation d’images médicales est une étape de pré-traitement importante dans les systèmes de diagnostic assisté par ordinateur. Les méthodes basées sur les réseaux de neurones ont démontré des performances de pointe sur diverses tâches de segmentation avec différentes modalités d’image. Malgré leur succès sans précédent, les réseaux de neurones nécessitent généralement une grande quantité de données étant étiquetées avec précision. Cependant, obtenir ces données est un processus laborieux et coûteux qui nécessite souvent l’intervention d’un expert médical, et les annotations sont sujettes aux erreurs. Pour mitiger la rareté des images densément annotées, une direction prometteuse de recherche consiste à exploiter des images avec des signaux de supervision réduits. Ces supervisions réduites se composent généralement d’une étiquette d’image, des points, des traits ou des boîtes englobantes comme annotation, cependant des images sans aucune information supervisée peuvent également être employées. De plus, des recherches récentes ont également tenté de combiner ces annotations faibles avec des a priori anatomiques de régions d’intérêt pour guider la prédiction du réseau vers des solutions anatomiquement plausibles.

L’objectif principal de cette thèse est de développer des algorithmes précis pour la segmentation d’images médicales, pouvant apprendre avec une supervision réduite. Plus précisément, nous proposons d’abord un algorithme de segmentation faiblement supervisé, apprenant à partir de traits et de contraintes anatomiques discrètes. Ensuite, nous présentons une approche de segmentation basée sur l’apprentissage par ensemble, permettant l’entraînement collaboratif de plusieurs réseaux de segmentation avec un nombre limité d’images étiquetées et une plus grande quantité d’images non étiquetées. Dans une autre contribution de la thèse, nous résolvons ce problème en introduisant un algorithme basé sur l’information mutuelle, qui emploi des images non étiquetées pour régulariser la représentation apprise par le réseau et augmente la précision de la segmentation lorsque peu d’images sont densément annotées. Par la suite, nous proposons une méthode basée sur l’apprentissage de la représentation qui exploite l’information d’images médicales non annotées avec des méta-étiquettes. Enfin, nous démontrons une méthode de maximization de l’information sensible aux contours pour le pre-entraînement des représentations denses du réseau, pouvant exploiter l’information sur les structures anatomiques d’images non étiquettées and ainsi améliorier de manière significative la précision de segmentation étant donné un petit ensemble d’images annotées. Cette thèse a donné lieu à trois articles de revues, deux articles dans des conférences avec comité de lecture, deux articles dans des séminaires en imagerie médicale, ainsi qu’à un article en cours d’évaluation. Les objectifs spécifiques de cette thèse sont présentés ci-dessous.

Comme premier objectif, nous proposons une stratégie efficace de segmentation faiblement supervisée pour imposer des contraintes ou des a priori de régularisation sur les régions cibles. Cette méthode de segmentation est une des premières à employer une optimisation discrète avec un réseau de neurones, ce qui lui permet d’obtenir une solution plus rapidement et avec une plus grande précision. La méthode proposée repose sur l’algorithme de la méthode des multiplicateurs à direction alternée (ADMM) et entraîne un CNN avec des contraintes discrètes et des a priori de régularisation. La performance de cette méthode est validée sur la segmentation d’images médicales n’ayant que quelques pixels annotés, ainsi que des contraintes discrètes sur la taille et la régularité des frontières de régions à segmenter. Des expériences sur deux jeux de données de référence démontrent que notre méthode apporte des améliorations significatives par rapport aux approches existantes en termes de précision de segmentation, de satisfaction des contraintes et de vitesse de convergence.

Dans notre deuxième objectif, nous nous concentrons sur la segmentation semi-supervisée et proposons un algorithme basé sur l’apprentissage par ensemble. Cet algorithme entraîne plusieurs modèles avec un nombre réduit d’images annotées, ainsi que des images non annotées servant à échanger des informations entre les modèles. Afin d’assurer la diversité des modèles, une fonction de perte antagoniste est conçue. L’efficacité de notre méthode est démontrée sur trois tâches de segmentation d’images médicales couvrant différentes modalités, où celle-ci augmente la précision de segmentation lorsque très peu d’images étiquetées sont utilisées. L’effet de notre perte de diversité est également étudié en visualisant les images générées lors de l’entraînement antagnoiste. Nous explorons aussi le gain de performance obtenu avec un ensemble ayant plus de deux modèles, montrant que l’ajout de modèles améliore les résultats au coût de calculs accrus.

Dans notre troisième objectif, une nouvelle méthode de segmentation semi-supervisée est proposée. Cette méthode tire parti de l’information mutuelle sur les distributions catégorielles pour obtenir à la fois une invariance de représentation globale et une régularité spatiale de la segmentation. Dans cette méthode, nous maximisons l’information mutuelle pour les caractéristiques intermédiaires qui sont extraites à la fois de l’encodeur et du décodeur d’un réseau de segmentation. Une perte sur l’information mutuelle globale est employée sur l’encodeur pour favoriser l’invariance par rapport à des transformations géométriques sur les images d’entrée. De même, une perte sur l’information mutuelle locale est proposée pour encourager la cohérence spatiale dans les cartes de caractéristiques du décodeur, et ainsi fournir une segmentation plus régulière. Les avantages de notre méthode sont évalués sur quatre bases de données publiques pour la segmentation d’images médicales. Les résultats expérimentaux montrent que notre méthode surpasse les approches récentes de segmentation semi-supervisée, et fournit une précision proche de celle obtenue avec une supervision complète, tout en nécessitant très peu d’images annotées.

Dans notre quatrième objectif, nous visons à obtenir une représentation utile à partir d’images non étiquetées. Plus précisément, nous adaptons l’apprentissage contrastif pour entraîner l’encodeur du réseau dans différentes tâches prédéfinies: déterminer si deux images d’un volume IRM proviennent de la même position, de la même personne, ou si celles-ci ont été acquises au même instant du cycle cardiaque. Afin d’atténuer le bruit présent dans ces méta-étiquettes, une stratégie efficace d’apprentissage auto-rythmée est ensuite proposée pour l’apprentissage contrastif, ce qui se traduit par une représentation plus robuste et donc des améliorations en performance pour les tâches de segmentation. Nous vérifions la qualité de la méthode proposée sur cinq jeux de données portant sur la segmentation d’images médicales, indiquant clairement l’avantage de notre mécanisme d’apprentissage auto-rythmé utilisant les méta-étiquettes.

Enfin, le dernier objectif spécifique de cette thèse présente une méthode basée sur le partitionnement de données pour apprendre une représentation discriminative pour les cartes de caractéristiques denses du réseau. Cette approche utilise une perte d’information mutuelle améliorée pour regrouper les caractéristiques denses en plusieurs partitions équilibrées et confiantes. Une perte sensible aux contours, basée sur la corrélaion croisée au niveau de pixels, est également utilisée pour aligner les régions de haute entropie du partitionnement avec les arêtes dans l’image, ce qui force les différentes partitions à correspondre aux structures anatomiques présentes dans l’image. Nos pertes proposées complémentent la perte contrastive supervisée présentée dans l’objectif précédent, et leur combinaison conduit à d’improtantes améliorations de performance pour la segmentation. Les résultats expérimentaux obtenus à partir de deux jeux de données cliniquement pertinents indiquent clairement l’avantage de notre méthode par rapport aux approches existantes à base d’apprentissage contrastif, conduisant à une précision de segmentation proche de celle de la supervision complète, mais avec seulement quelques exemples densément annotés.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 261-290).
Mots-clés libres: segmentation d’images médicales, segmentation semi-supervisée, segmentation faiblement supervisée, supervision réduite, apprentissage de la représentation
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Desrosiers, Christian
Pedersoli, Marco
Programme: Doctorat en génie > Génie
Date de dépôt: 12 août 2022 17:32
Dernière modification: 12 août 2022 17:32

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt