Transductive few-shot learning

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Boudiaf, Malik (2023). Transductive few-shot learning. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (3MB) | Prévisualisation

Résumé

Deep learning models have achieved unprecedented success, approaching human-level performances when trained on large-scale labeled data. However, the generalization of such models might be seriously challenged when dealing with new (unseen) classes, with only a few labeled instances per class. Humans, however, can learn new tasks rapidly from a handful of instances, by leveraging context and prior knowledge. To bridge this gap, the few-shot learning community has relied on meta-training strategies, in an attempt to provide the model with intrinsic generalization abilities.

In this thesis, we see the few-shot problem in a different light. Noticing the opportunities emerging from foundation models, those large pre-trained models training once on billion-scaled datasets, we shift from the usual training-centered paradigm to an inference-centered one. Throughout this thesis, we aim to develop modular inference procedures that can efficiently adapt any model, regardless of its architecture or how it was trained, to few-shot tasks. To achieve that challenging task, we explore the benefits and limitations of transduction as an inference principle, demonstrating promising results on few-shot classification and few-shot segmentation tasks.

As a first contribution, we tackle the most popular problem of few-shot image classification. We develop a highly modular, transductive inference procedure based on the maximization of the mutual information between extracted features and label predictions. We observe very promising results, in both standard few-shot settings, and with domain shift between labeled and unlabeled samples.

As a second contribution, we explore the impact on transductive methods of introducing class imbalance in the unlabeled test data of each task. Our findings demonstrate strong adverse effects for all transductive methods, leading some to underperform inductive baselines. To cope with that setting, we diagnose and extend the mutual information-based inference procedure previously described with a-divergences, whose gradients allow more deviation from the uniform prior encoded in the mutual information. Empirically, we observe substantial gains in the class-imbalanced scenario.

As a third contribution, we continue to explore potential adverse properties of the unlabeled data on transductive methods. In particular, we investigate the few-shot open-set problem, in which distracting classes can be introduced in the unlabeled data. Motivated by the observation that existing transductive methods perform poorly in open-set scenarios, we propose a generalization of the maximum likelihood principle, in which latent scores down-weighing the influence of potential outliers are introduced alongside the usual parametric model. We show that this method surpasses existing inductive and transductive methods on both aspects of open-set recognition, namely closed-set classification and outlier detection.

As a final contribution, we examine the challenging setting of few-shot segmentation, which exhibits both adverse effects mentioned above: class imbalance and openness. We present the first method to completely forego meta-learning and custom architectures. Instead, it uses a standard backbone, trained with standard cross-entropy, and focuses on formulating a per-image transductive inference for each new task. Beyond simplicity, we find this new approach exhibits strong advantages, including a much-improved capacity to leverage an increasing amount of supervision, surpassing by 6 % mIoU previous state-of-the-art in the 10-shot scenario, on the most popular few-shot benchmark.

Titre traduit

Apprentissage few-shot par transduction

Résumé traduit

Les modèles d’apprentissage profond ont connu un succès sans précédent, atteignant des performances proches de celles des humains lorsqu’ils sont entraînés sur des données étiquetées à grande échelle. Cependant, la capacité de généralisation de ces modèles peut être sérieusement remise en question lorsqu’il s’agit de traiter de nouvelles classes (non vues), avec seulement quelques instances étiquetées par classe. Les humains, en revanche, peuvent apprendre de nouvelles tâches rapidement à partir d’une poignée d’exemples, en exploitant le contexte et les connaissances préalables. Pour combler cet écart, la communauté en apprentissage automatique a développé au fil des années, des stratégies de méta-entraînement, dans le but de doter le modèle de capacités de généralisation intrinsèques.

Dans cette thèse, nous abordons le problème de l’apprentissage en quelques exemples sous un angle différent. Exploitant les opportunités qui émergent des modèles de fondation, ces grands modèles pré-entraînés une fois sur des ensembles de données comprenant des milliards d’exemples, nous transitionnons d’un paradigme centré sur l’entraînement à un paradigme centré sur l’inférence. Au travers de cette thèse, notre objectif est de développer des procédures d’inférence modulaires qui peuvent adapter efficacement n’importe quel modèle, indépendamment de son architecture ou de sa méthode d’entraînement, à des tâches d’apprentissage avec quelques exemples seulement. Pour accomplir cette tâche difficile, nous explorons les avantages et les limites de la transduction en tant que principe d’inférence, démontrant ainsi des résultats prometteurs sur des tâches de classification et de segmentation en quelques exemples.

En tant que première contribution, nous abordons la tâche courante de classification d’images en quelques exemples. Nous développons une procédure d’inférence transductive hautement modulaire, basée sur la maximisation de l’information mutuelle entre les caractéristiques extraites et les prédictions d’étiquettes. Nous observons des résultats très prometteurs, tant sur les benchmark expérimentaux usuels de l’apprentissage en quelques exemples que sur les benchmark présentant des écarts de domaine.

En tant que seconde contribution, nous explorons l’impact sur les méthodes transductives de l’introduction d’un déséquilibre de classes dans les données de test non étiquetées de chaque tâche. Nos résultats démontrent de forts effets indésirables pour toutes les méthodes transductives, conduisant certaines à sous-performer par rapport aux méthodes inductives de référence. Pour faire face à ce problème, nous diagnostiquons et étendons la procédure d’inférence basée sur l’information mutuelle décrite précédemment avec des divergences a, dont les gradients permettent une plus grande déviation de la distribution uniforme codée dans l’information mutuelle. Sur le plan empirique, nous observons des gains substantiels dans le scénario de déséquilibre de classes.

En tant que troisième contribution, nous continuons à explorer les propriétés potentiellement nuisibles des données non étiquetées sur les méthodes transductives. En particulier, nous étudions le problème d’open-set, dans lequel des classes perturbatrices peuvent être introduites dans les données non étiquetées. Motivés par l’observation que les méthodes transductives existantes présentent de mauvaises performances dans les scénarios d’open-set, nous proposons une généralisation du principe du maximum de vraisemblance, dans laquelle des scores latents réduisant l’influence des valeurs aberrantes potentielles sont introduits aux côtés du modèle paramétrique habituel. Nous montrons que cette méthode surpasse les méthodes inductives et transductives existantes sur les deux aspects de la reconnaissance open-set, à savoir la classification et la détection des valeurs aberrantes.

En guise de contribution finale, nous nous penchons sur la tâche difficile de la segmentation en quelques exemples, qui se caractérise par la présence combinée de tous les effets néfastes mentionnés ci-dessus: déséquilibre de classes et open-set. Nous présentons la première méthode qui abandonne complètement le méta-apprentissage et les architectures customisées. A la place, notre méthode utilise un modèle profond standard, entraîné par entropie croisée, et se concentre sur la formulation d’une inférence transductive par image pour chaque nouvelle tâche. Au-delà de la simplicité, nous trouvons que cette nouvelle approche de la segmentation en quelques exemples présente de forts avantages, notamment une capacité considérablement améliorée à exploiter une quantité croissante de supervision, dépassant de 6 % le précédent état de l’art en mIoU dans le scénario à 10 exemples, sur le benchmark le plus populaire.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 123-134).
Mots-clés libres:	apprentissage few-shot, classification, segmentation sémantique, transduction
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Ben Ayed, Ismail
Codirecteur:	Codirecteur Piantanida, Pablo
Programme:	Doctorat en génie > Génie
Date de dépôt:	19 juin 2023 14:27
Dernière modification:	19 juin 2023 14:27
URI:	https://espace.etsmtl.ca/id/eprint/3240

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt