Osowiechi, David (2025). Computer vision methods adapting to new domains with few samples. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (2MB) | Prévisualisation |
Résumé
Deep learning models have achieved remarkable success in a wide array of computer vision tasks, from classification to segmentation and beyond. However, these models are often trained under the assumption that the data encountered at test time will be drawn from the same distribution as the training set. In real-world scenarios, this assumption rarely holds. Even subtle variations in lighting, camera properties, background textures, or object appearances can lead to significant shifts in data distribution—resulting in a sharp drop in model performance. This vulnerability to distribution shifts raises critical concerns about the robustness and reliability of vision systems deployed in the wild.
In contrast to deep neural networks, human perception exhibits a natural resilience to such changes. We recognize people and objects under varying conditions without retraining or explicit supervision, guided by contextual cues and generalizable priors. Inspired by this, the focus of this thesis shifts from the traditional training-centered paradigm to an inference-centered approach, where models are not retrained or fine-tuned offline, but instead adapt dynamically and unsupervised at test time. This setting—commonly referred to as Test-Time Adaptation (TTA)—presents unique challenges, such as the absence of labeled data, the inaccessibility of source training data due to privacy or storage constraints, and the need for rapid, on-the-fly adaptation.
To address these challenges, this thesis presents a series of modular, architecture-agnostic methods for adapting vision models during inference, with a focus on robustness, computational efficiency, and broad applicability.
As a first contribution, we introduce NC-TTT: a noise contrastive test-time training framework tailored for convolutional neural networks. Instead of minimizing entropy or updating batch statistics, our method relies on an auxiliary contrastive task that learns to distinguish between noisy augmentations of feature representations. This allows the model to reinforce its understanding of in-distribution features while suppressing out-of-distribution noise—without any labels or access to source data. NC-TTT demonstrates strong performance under various types of distribution shift, including corrupted inputs and synthetic-to-real domain gaps.
In the second contribution, we extend test-time adaptation to Vision-Language Models (VLMs)—particularly CLIP, which has gained prominence for its zero-shot capabilities. We introduce CLIPArTT, a method that leverages the inherent compositionality of language to adapt textual prompts at test time. Rather than using fixed, handcrafted prompts, we propose a strategy for dynamically constructing prompts using the model’s own top-K predictions and multi-modal similarity scores. This pseudo-label-guided adaptation enables CLIP to realign its predictions with target distributions—improving classification accuracy across various corrupted and domain-shifted datasets. Our third core contribution explores the potential of multi-template adaptation in VLMs through a method called WATT (Weight Averaged Test-Time Adaptation). Here, we adapt CLIP to the target distribution using several diverse textual templates, each representing a different linguistic framing of the classes. Rather than selecting a single best template, we aggregate their learned model weights using a principled weight averaging strategy. The result is a more stable and generalizable model that leverages the diversity of prompts while avoiding overfitting to any single linguistic perspective.
Together, these contributions form a cohesive and forward-looking approach to building robust, adaptive, and deployment-ready vision models. By minimizing reliance on labeled data and source domain access, and by prioritizing modularity and architectural flexibility, this thesis paves the way for a new generation of intelligent systems that learn not only during training—but also evolve continually during inference.
Titre traduit
Méthodes de vision par ordinateur s’adaptant à de nouveaux domaines avec peu d’échantillons
Résumé traduit
Les modèles d’apprentissage profond ont connu un succès remarquable dans un large éventail de tâches de vision par ordinateur, allant de la classification à la segmentation, et au-delà. Cependant, ces modèles sont souvent entraînés sous l’hypothèse que les données rencontrées lors de l’inférence proviendront de la même distribution que celles du jeu de données d’entraînement. Dans des scénarios réels, cette hypothèse est rarement vérifiée. Même de subtiles variations dans l’éclairage, les propriétés des caméras, les textures de fond ou l’apparence des objets peuvent entraîner des décalages importants dans la distribution des données, ce qui se traduit par une chute brusque des performances du modèle. Cette vulnérabilité aux changements de distribution soulève des préoccupations majeures quant à la robustesse et à la fiabilité des systèmes de vision déployés dans le monde réel.
Contrairement aux réseaux de neurones profonds, la perception humaine fait preuve d’une résilience naturelle face à de tels changements. Nous reconnaissons les personnes et les objets dans des conditions variées sans avoir besoin de réentraîner ou de superviser explicitement, guidés par des indices contextuels et des connaissances générales. Inspirée par cela, cette thèse déplace son attention du paradigme traditionnel centré sur l’entraînement vers une approche centrée sur l’inférence, où les modèles ne sont pas réentraînés ou ajustés hors ligne, mais s’adaptent dynamiquement et de manière non supervisée au moment de l’inférence. Ce cadre, couramment appelé Adaptation au Temps d’Inférence (Test Time Adaptation–TTA), présente des défis uniques, tels que l’absence de données étiquetées, l’inaccessibilité des données d’entraînement sources en raison de contraintes de confidentialité ou de stockage, et la nécessité d’une adaptation rapide et en temps réel.
Pour relever ces défis, cette thèse présente une série de méthodes modulaires et indépendantes de l’architecture pour adapter les modèles de vision pendant l’inférence, en mettant l’accent sur la robustesse, l’efficacité computationnelle et la large applicabilité.
En première contribution, nous introduisons NC-TTT : un cadriciel d’entraînement contrastif au temps d’évaluation, adapté aux réseaux de neurones convolutifs. Plutôt que de minimiser l’entropie ou de mettre à jour les statistiques de lot, notre méthode repose sur une tâche contrastive auxiliaire qui apprend à distinguer les augmentations bruitée des représentations de caractéristiques. Cela permet au modèle de renforcer sa compréhension des caractéristiques appartenant à la distribution tout en supprimant le bruit hors distribution, sans étiquettes ni accès aux données sources. NC-TTT démontre de solides performances sous divers types de changements à la distribution, notamment les entrées corrompues ainsi que les différences entre les domaines synthétiques et réels.
Dans la deuxième contribution, nous étendons l’adaptation au temps d’évaluation aux Modèles Vision-Langage (MLV), en particulier CLIP, qui a gagné en popularité grâce à ses capacités de faire des prédictions pour des nouvelles classes (zero-shot). Nous introduisons CLIPArTT, une méthode qui exploite la compositionnalité inhérente au langage pour adapter les invites textuelles (text prompts) au moment de l’évaluation. Plutôt que d’utiliser des invites fixes et préétablies, nous proposons une stratégie pour construire dynamiquement des invites en utilisant les propres prédictions top-K du modèle et les scores de similarité multi-modaux. Cette adaptation guidée par pseudo-étiquettes permet à CLIP de réaligner ses prédictions avec les distributions cibles, améliorant ainsi la précision de classification sur divers ensembles de données corrompus et décalés de domaine.
Notre troisième contribution principale explore le potentiel de l’adaptation multi-modèle dans les MVL à travers une méthode appelée WATT (Weight Averaged Test-Time Adaptation). Ici, nous adaptons CLIP à la distribution cible en utilisant plusieurs modèles textuels divers, chacun représentant une formulation linguistique différente des classes. Plutôt que de sélectionner un seul meilleur modèle, nous agrégeons les poids du modèle appris en utilisant une stratégie d’agrégation par moyenne des poids. Le résultat est un modèle plus stable et généralisable qui exploite la diversité des invites tout en évitant le sur-apprentissage de toute perspective linguistique unique.
Ensemble, ces contributions forment une approche cohérente et prospective pour construire des modèles de vision robustes, adaptatifs et prêts pour le déploiement. En minimisant la dépendance aux données étiquetées et à l’accès au domaine source, et en privilégiant la modularité et la flexibilité architecturale, cette thèse ouvre la voie à une nouvelle génération de systèmes intelligents qui apprennent non seulement pendant l’entraînement, mais évoluent également continuellement pendant l’inférence.
| Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
|---|---|
| Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 119-126). |
| Mots-clés libres: | adaptation au temps d’inférence, entrainement au temps d’inférence, changement de distribution, modèles vision-langage |
| Directeur de mémoire/thèse: | Directeur de mémoire/thèse Desrosiers, Christian |
| Codirecteur: | Codirecteur Ben Ayed, Ismail |
| Programme: | Doctorat en génie > Génie |
| Date de dépôt: | 17 nov. 2025 14:53 |
| Dernière modification: | 17 nov. 2025 14:53 |
| URI: | https://espace.etsmtl.ca/id/eprint/3732 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement