Murugesan, Balamurali (2025). Constraint-based calibration for reliable deep learning models. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (12MB) | Prévisualisation |
Résumé
Despite the undeniable progress in visual recognition tasks fueled by deep neural networks, there exists recent evidence showing that these models are poorly calibrated, resulting in over-confident predictions. The standard practices of minimizing the cross-entropy loss during training promote the predicted softmax probabilities to match the one-hot label assignments. Nevertheless, this yields a pre-softmax activation of the correct class that is significantly larger than the remaining activations, which exacerbates the miscalibration problem. Recent observations from the classification literature suggest that loss functions that embed implicit or explicit maximization of the entropy of predictions yield state-of-the-art calibration performances. Despite these findings, the impact of these losses in the relevant task of calibrating medical image segmentation networks, novel losses specific to task of segmentation, and vision-language remains unexplored.
In the first objective, we refer to one of the earlier works from our group which provides a unifying constrained-optimization perspective of current state-of-the-art calibration losses. Specifically, these losses are viewed as approximations of a linear penalty (or a Lagrangian term) imposing equality constraints on logit distances. This points to an important limitation of such underlying hard equality constraints, whose ensuing gradients constantly push towards a non-informative solution, which might prevent from reaching the best compromise between the discriminative performance and calibration of the model during gradient-based optimization. Following these insights, we extend the proposed simple and flexible generalization penalty which imposes a controllable margin on logit distances to medical image segmentation. We provide comprehensive experiments and ablation studies on seven different public segmentation benchmarks that focus on diverse targets and modalities, highlighting the generalization capabilities of the proposed approach. Our empirical results demonstrate the superiority of the margin based label smoothing compared to state-of-the-art calibration losses in both calibration and discriminative performance.
In the second objective, we provide a constrained-optimization perspective of Spatially Varying Label Smoothing (SVLS), demonstrating that it could be viewed as a standard cross-entropy loss coupled with an implicit constraint that enforces the softmax predictions to match a soft class proportion of surrounding pixels. Our formulation shows that SVLS lacks a mechanism to control explicitly the importance of the constraint, which may hinder the optimization process as it becomes challenging to balance the constraint with the primary objective effectively. Following these observations, we propose a simple and flexible solution based on equality constraints on the logit distributions. The proposed constraint is enforced with a simple linear penalty, which incorporates an explicit mechanism to control the weight of the penalty. Our approach not only offers a more efficient strategy to model the logit distributions but implicitly decreases the logit values, which results in less overconfident predictions. We conduct comprehensive experiments and ablation studies over multiple medical image segmentation benchmarks, including diverse targets and modalities, and show the superiority of our method compared to state-of-the-art calibration losses. Furthermore, several ablation studies empirically validate the design choices of our approach, as well as demonstrate its model agnostic nature.
In the third objective, we propose a class and region-wise constraint approach to tackle the miscalibration issue in semantic segmentation models. In particular, we formulate a solution that considers the specificities of each category and different regions by introducing independent class and region-wise penalty weights. This contrasts with the prior work, where a uniform scalar penalty weight is employed, regardless of categories or regions. Furthermore, we transfer the constrained problem to its dual unconstrained optimization counterpart by using an Augmented Lagrangian method (ALM). This alleviates the need for manually adjusting each penalty weight and allows, through a series of iterative inner and outer steps, to find the optimal value of each penalty weight, which can be learned in an adaptive manner. Comprehensive experiments on two popular segmentation benchmarks, and with two well-known segmentation backbones, demonstrate the superiority of our approach over a set of relevant recent calibration approaches.
In the fourth objective, we empirically demonstrate that popular CLIP adaptation strategies, such as Adapters, Prompt Learning, and Test-Time Prompt Tuning, substantially degrade the calibration capabilities of the zero-shot baseline in the presence of distributional drift. For these adaptation strategies, we expose that the underlying cause of miscalibration is, in fact, the increase of the logit ranges. This contrasts with recent work in calibrating fully-supervised models, which suggests that the inherent cause of miscalibration is the increase of its norm instead, due to the standard cross-entropy loss used for training. Based on these observations, we present a simple, and model-agnostic solution, which consists in scaling the logit range of each sample based on the zero-shot logits. We further present several alternatives to accommodate our solution, which can be implemented either at training or inference time. Comprehensive experiments on popular OOD classification benchmarks empirically demonstrate the effectiveness of our approaches to reduce the miscalibration error, while keeping the discriminative performance.
Titre traduit
Calibrage de modèles en apprentissage profond
Résumé traduit
Malgré les progrès indéniables réalisés dans les tâches de reconnaissance visuelle grâce aux réseaux de neurones profonds, des données récentes montrent que ces modèles sont mal calibrés, ce qui entraîne des prédictions trop fiables. Les pratiques standard de minimisation de la perte d’entropie croisée pendant l’apprentissage favorisent la correspondance des probabilités softmax prédites avec les attributions d’étiquettes uniques. Néanmoins, cela produit une activation pré-softmax de la classe correcte nettement supérieure aux activations restantes, ce qui aggrave le problème de mauvais calibrage. Des observations récentes issues de la littérature sur la classification suggèrent que les fonctions de perte intégrant une maximisation implicite ou explicite de l’entropie des prédictions offrent des performances de calibrage de pointe. Malgré ces résultats, l’impact de ces pertes sur la tâche pertinente de calibrage des réseaux de segmentation d’images médicales, les nouvelles pertes spécifiques à la tâche de segmentation et le langage visuel reste inexploré.
Dans le premier objectif, nous nous référons à l’un des travaux antérieurs de notre groupe, qui propose une perspective unifiée d’optimisation sous contraintes des pertes de calibrage de pointe actuelles. Plus précisément, ces pertes sont considérées comme des approximations d’une pénalité linéaire (ou d’un terme lagrangien) imposant des contraintes d’égalité sur les distances logit. Cela met en évidence une limitation importante de ces contraintes d’égalité strictes sous-jacentes, dont les gradients qui en résultent poussent constamment vers une solution non informative, ce qui pourrait empêcher d’atteindre le meilleur compromis entre performance discriminante et calibration du modèle lors de l’optimisation par gradient. Suite à nos observations, nous étendons à la segmentation d’images médicales la pénalité de généralisation simple et flexible proposée, qui impose une marge contrôlable sur les distances logit. Nous fournissons des expériences et des études d’ablation complètes sur cinq benchmarks de segmentation publics différents, axés sur diverses cibles et modalités, soulignant les capacités de généralisation de l’approche proposée. Nos résultats empiriques démontrent la supériorité de notre méthode par rapport aux pertes de calibration de pointe, tant en termes de calibration que de performance discriminante.
Dans le deuxième objectif, nous proposons une perspective d’optimisation sous contrainte du lissage spatial des étiquettes variables (SVLS), démontrant qu’il peut être considéré comme une perte d’entropie croisée standard associée à une contrainte implicite imposant aux prédictions softmax de correspondre à une proportion de classe souple des pixels environnants. Notre formulation montre que le SVLS ne dispose pas d’un mécanisme permettant de contrôler explicitement l’importance de la contrainte, ce qui peut entraver le processus d’optimisation, car il devient difficile d’équilibrer efficacement la contrainte avec l’objectif principal. Suite à ces observations, nous proposons une solution simple et flexible basée sur des contraintes d’égalité sur les distributions logit. La contrainte proposée est appliquée par une pénalité linéaire simple, qui intègre un mécanisme explicite pour contrôler son poids. Notre approche offre non seulement une stratégie plus efficace pour modéliser les distributions logit, mais diminue également implicitement les valeurs logit, ce qui se traduit par des prédictions moins surconfiantes. Nous menons des expériences approfondies et des études d’ablation sur plusieurs benchmarks de segmentation d’images médicales, incluant diverses cibles et modalités, et démontrons la supériorité de notre méthode par rapport aux pertes d’étalonnage les plus récentes. De plus, plusieurs études d’ablation valident empiriquement les choix de conception de notre approche et démontrent son caractère agnostique vis-à-vis du modèle.
Dans le troisième objectif, nous proposons une approche par contraintes par classe et par région pour résoudre le problème d’étalonnage erroné dans les modèles de segmentation sémantique. Plus précisément, nous formulons une solution qui prend en compte les spécificités de chaque catégorie et des différentes régions en introduisant des pondérations de pénalité indépendantes par classe et par région. Ceci contraste avec les travaux antérieurs, où une pondération de pénalité scalaire uniforme est utilisée, quelles que soient les catégories ou les régions. De plus, nous transposons le problème contraint à son homologue d’optimisation duale sans contrainte en utilisant une méthode lagrangienne augmentée (ALM). Cela évite d’ajuster manuellement chaque pondération de pénalité et permet, grâce à une série d’étapes itératives internes et externes, de trouver la valeur optimale de chaque pondération de pénalité, laquelle peut être apprise de manière adaptative. Des expériences approfondies sur deux benchmarks de segmentation populaires et deux structures de segmentation bien connues démontrent la supériorité de notre approche par rapport à un ensemble d’approches d’étalonnage récentes et pertinentes.
Dans le quatrième objectif, nous démontrons empiriquement que les stratégies d’adaptation CLIP courantes, telles que les adaptateurs, l’apprentissage rapide et le réglage rapide au moment du test, dégradent considérablement les capacités de calibrage de la ligne de base zéro-shot en présence de dérive distributionnelle. Pour ces stratégies d’adaptation, nous démontrons que la cause sous-jacente du mauvais calibrage est en fait l’augmentation des plages logit. Cela contraste avec les travaux récents sur le calibrage des modèles entièrement supervisés, qui suggèrent que la cause inhérente du mauvais calibrage est plutôt l’augmentation de sa norme, due à la perte d’entropie croisée standard utilisée pour l’apprentissage. Sur la base de ces observations, nous présentons une solution simple et indépendante du modèle, qui consiste à mettre à l’échelle la plage logit de chaque échantillon en fonction des logits zéro-shot. Nous présentons également plusieurs alternatives pour adapter notre solution, qui peuvent être mises en oeuvre au moment de l’apprentissage ou de l’inférence. Des expériences approfondies sur des référentiels de classification OOD courants démontrent empiriquement l’efficacité de nos approches pour réduire l’erreur de calibrage, tout en conservant les performances discriminantes.
| Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
|---|---|
| Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 161-210). |
| Mots-clés libres: | calibrage de réseau, segmentation d’image, incertitude, modèles vision-langage, adaptation à quelques prises de vue, généralisation de domaine, adaptation au temps de test |
| Directeur de mémoire/thèse: | Directeur de mémoire/thèse Dolz, José |
| Codirecteur: | Codirecteur Ben Ayed, Ismail |
| Programme: | Doctorat en génie > Génie |
| Date de dépôt: | 22 déc. 2025 15:16 |
| Dernière modification: | 22 déc. 2025 15:16 |
| URI: | https://espace.etsmtl.ca/id/eprint/3752 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement