Dealing with domain shift in deep learning: from training-time generalization to test-time adaptation

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Noori, Mehrdad (2026). Dealing with domain shift in deep learning: from training-time generalization to test-time adaptation. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (28MB) | Prévisualisation

Résumé

Deep learning models have achieved remarkable progress across a wide range of computer vision tasks, from image classification and object detection to segmentation. Despite these advances, most models are developed under the simplifying assumption that the data observed during deployment will resemble that seen during training. In real-world scenarios, this assumption is rarely valid. Real-world conditions, such as variations in illumination, imaging sensors, viewpoints, or textures, can substantially alter the data distribution and lead to a significant degradation in model performance. This vulnerability raises critical concerns about the robustness and reliability of vision systems deployed in the wild.

To address this limitation, this thesis explores methods that move beyond the traditional training centered paradigm toward models capable of maintaining performance under novel and unseen conditions. Specifically, it investigates two directions: Domain Generalization (DG), which aims to learn domain-invariant representations during training, and Test-Time Adaptation (TTA), which adjusts models dynamically during inference using only unlabeled test data. Together, these approaches address the growing need for reliable and adaptive models in both traditional vision architectures and modern foundation models such as vision–language systems.

In the first part, we study DG and propose two novel methods. (1) TFS-ViT (Token-Level Feature Stylization for Vision Transformers) introduces the first token-level feature stylization framework for Vision Transformers, mixing normalization statistics across samples to enforce structure rather than texture-dependent representations. An attention-aware variant further exploits class-token saliency to guide stylization toward semantically relevant regions, achieving state of-the-art generalization across standard DG benchmarks. (2) FDS (Feedback-Guided Domain Synthesis) presents a diffusion-based framework that trains a single multi-source conditional model to generate pseudo-domains spanning inter-domain gaps. A feedback-driven filtering mechanism selects challenging synthetic samples that explicitly encourage domain-invariant feature learning, yielding substantial robustness gains while incurring no inference-time cost.

With the advent of large-scale foundation models, which are pretrained once and reused across diverse tasks, it becomes crucial to develop mechanisms that enable adaptation at test time without access to source data. This motivates the second part of this thesis, which explores fully test-time adaptation strategies for Vision–Language Models (VLMs). (3) MLMP is the f irst TTA framework for Open-Vocabulary Semantic Segmentation (OVSS), combining adaptive multi-layer fusion with multi-prompt optimization to exploit VLMs’ inherent prompt sensitivity as a stable adaptation signal. Furthermore, we establish the first comprehensive OVSS-TTA benchmark covering nine datasets and over eighty test scenarios, providing a standardized protocol for future research in this field.

(4) Histopath-C introduces the first benchmark for evaluating VLM TTA in digital histopathology, simulating realistic clinical domain shifts such as stain variation, blur, and contamination, thereby providing a valuable foundation for studying model robustness under clinically relevant domain shifts. Building upon this benchmark, we also propose LATTE (Low-rank Adaptation with Transductive Template Ensembling), a simple yet powerful adaptation strategy that combines multiple textual templates with low-rank updates to enhance model stability and robustness. This histopathology-specific method achieves significant performance improvements across diverse datasets and represents one of the most realistic and practically important applications of TTA.

Titre traduit

Gérer le décalage de domaine en apprentissage profond : de la généralisation à l’entraînement à l’adaptation au temps d’inférence

Résumé traduit

Les modèles d’apprentissage profond ont connu des avancées remarquables dans un large éventail de tâches de vision par ordinateur, allant de la classification d’images à la détection d’objets et à la segmentation. Malgré ces progrès, la plupart de ces modèles sont conçus sous l’hypothèse simplificatrice que les données rencontrées lors du déploiement suivront une distribution similaire à celle observée pendant l’entraînement. Dans la pratique, cette hypothèse est rarement vérifiée. Les conditions réelles — telles que les variations d’éclairage, de capteurs, de points de vue ou de textures — peuvent modifier considérablement la distribution des données et entraîner une chute notable des performances. Cette vulnérabilité soulève des préoccupations majeures quant à la robustesse et à la fiabilité des systèmes de vision déployés dans des environnements non contrôlés.

Pour pallier cette limitation, cette thèse explore des approches allant au-delà du paradigme classique centré sur l’entraînement, afin de concevoir des modèles capables de maintenir leurs performances face à des conditions nouvelles et imprévues. Plus précisément, elle étudie deux directions : la Généralisation de Domaine (DG), qui vise à apprendre des représentations invariantes aux domaines durant l’entraînement, et l’Adaptation au Temps d’Inférence (TTA), qui permet aux modèles de s’ajuster dynamiquement lors de l’inférence à partir de données tests non étiquetées. Ensemble, ces approches répondent au besoin croissant de modèles fiables et adaptatifs, tant pour les architectures visuelles classiques que pour les modèles fondamentaux modernes tels que les systèmes vision–langage.

Dans la première partie, nous étudions la DG et proposons deux méthodes novatrices. (1)TFS-ViT (Token-Level Feature Stylization for Vision Transformers) introduit le premier cadre de stylisation de caractéristiques au niveau des tokens pour les Vision Transformers, en mélangeant les statistiques de normalisation entre échantillons afin de favoriser des représentations dépendantes de la structure plutôt que de la texture. Une variante sensible à l’attention exploite les cartes d’attention du jeton de classe pour orienter la stylisation vers les régions sémantiquement pertinentes, atteignant des performances de pointe sur les principaux jeux de données de DG. (2) FDS (Feedback-Guided Domain Synthesis) présente un cadre fondé sur la diffusion qui entraîne un modèle conditionnel multi-source unique capable de générer des pseudo-domaines couvrant les écarts inter-domaines. Un mécanisme de filtrage guidé par la rétroaction sélectionne les échantillons synthétiques les plus difficiles afin de promouvoir explicitement l’apprentissage de caractéristiques invariantes aux domaines, tout en évitant tout coût de génération lors de l’inférence.

Avec l’émergence de modèles fondamentaux à grande échelle, préentraînés une seule fois puis réutilisés pour une multitude de tâches, il devient crucial de concevoir des mécanismes d’adaptation capables d’opérer au moment de l’inférence sans accès aux données sources. Cela motive la deuxième partie de cette thèse, consacrée aux stratégies d’adaptation entièrement au temps d’inférence pour les Modèles Vision–Langage (VLMs). (3) MLMP constitue le premier cadre TTA pour la segmentation sémantique à vocabulaire ouvert (OVSS), combinant une fusion adaptative multi-couches à une optimisation multi-prompt afin d’exploiter la sensibilité intrinsèque des VLMs aux prompts comme signal stable d’adaptation. Nous établissons également le premier benchmark complet pour l’OVSS-TTA, couvrant neuf ensembles de données et plus de quatre-vingts scénarios de test, fournissant ainsi un protocole standardisé pour les recherches futures.

(4) Histopath-C introduit le premier benchmark d’évaluation de l’adaptation TTA des VLMs en histopathologie numérique, simulant des décalages de domaine cliniquement réalistes tels que les variations de coloration, le flou et la contamination. Ce cadre constitue une base solide pour l’étude de la robustesse des modèles en contexte médical. S’appuyant sur ce benchmark, nous proposons également LATTE (Low-rank Adaptation with Transductive Template Ensembling), une stratégie d’adaptation simple mais efficace combinant plusieurs gabarits textuels à des mises à jour de faible rang pour améliorer la stabilité et la robustesse du modèle. Spécifiquement conçue pour l’histopathologie, cette méthode offre des gains de performance significatifs sur divers ensembles de données et représente l’une des applications les plus réalistes et pertinentes de l’adaptation au temps d’inférence.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of Doctor of Philosophy". Comprend des références bibliographiques (pages 193-221).
Mots-clés libres:	généralisation de domaine, adaptation au temps d’inférence, modèles vision–langage
Directeur de mémoire/thèse:	Directeur(-trice) Desrosiers, Christian
Codirecteur:	Codirecteur(-trice) de mémoire/thèse Ben Ayed, Ismail
Programme:	Doctorat en génie > Génie
Date de dépôt:	15 avr. 2026 14:22
Dernière modification:	15 avr. 2026 14:22
URI:	https://espace.etsmtl.ca/id/eprint/3861

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt