Learning visual recognition models with limited data

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Mounsaveng, Saypraseuth (2023). Learning visual recognition models with limited data. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of MOUNSAVENG_Saypraseuth.pdf]

Prévisualisation

PDF
Télécharger (3MB) | Prévisualisation

Résumé

Deep learning, particularly through deep neural networks, has achieved remarkable success in computer vision. Large-scale models with millions of parameters have revolutionized the field, capturing complex patterns and improving performance across tasks like image classification, object detection, or semantic segmentation. Training with extensive datasets is key to enhancing model generalization, enabling accurate predictions on new data and adaptability to real-world complexities. However, despite the exceptional benefits, challenges arise due to the cost associated with data acquisition and the potential distribution shift between train and test data. This thesis aims at tackling those challenges and explores different ways to optimize the learning and adaptation of deep neural networks while maintaining or enhancing performance. In a first work, we explore the usage of generative models to generate images useful for a downstream task. More particularly, we leverage the power of generative adversarial networks (GAN) to generate new augmented samples useful to improve the training of an image classifier and increase its robustness and performance. Unlike traditional heuristic transformations, the approach presented learns data augmentation directly from training data using an encoder-decoder architecture and a spatial transformer network, producing more complex samples within the same class. In a second work, we further explore data augmentation and propose an efficient approach to reduce the computational power needed to define the best data augmentation parameters, improving generalization without requiring domain knowledge or an exhaustive search. We optimize augmentation parameters using a validation set through bi-level optimization, removing the need for an expensive external validation loop. We validated the method on natural images but also on histological images. Finally, in a third work, we explore test-time adaptation (TTA) and present a categorization of selected orthogonal TTA techniques interesting for adapting models to data drifts, such as small batch normalization, stream rebalancing, reliable sample selection, and network confidence calibration. We give insights into their impact on different scenarios, highlighting trade-offs in accuracy, computational power, and model complexity, while also revealing the synergies that arise from combining techniques. The presented works open up new avenues for further research, offering insights and practical solutions for training and adapting deep neural networks under challenging conditions.

Titre traduit

Apprentissage de modèles de reconnaissance visuelle dans un contexte de données et de ressources de calcul limitées

Résumé traduit

L’apprentissage profond, en particulier à travers l’usage des réseaux neuronaux profonds, a connu un franc succès dans le domaine de la vision par ordinateur. Les modèles à grande échelle, constitués de millions de paramètres, ont révolutionné le domaine en capturant des schémas complexes pour offrir des performances compétitives dans des tâches telles que la classification d’images, la détection d’objets ou la segmentation sémantique. L’entraînement avec des bases de données de grande taille est essentiel pour améliorer la généralisation des modèles, et permet des prédictions précises sur de nouvelles données. Malgré les performances exceptionnelles de ces modèles, des défis subsistent en raison des difficultés pouvant survenir lors de l’acquisition des données et du potentiel décalage entre les distributions des données d’entraînement et de test.Cette thèse vise à relever ces défis en explorant différentes façons d’optimiser l’apprentissage et l’adaptation des réseaux neuronaux profonds.Dans un premier chapitre, nous explorons l’utilisation de modèles génératifs pour créer de nouvelles images utiles pour une tâche sousjacente. Plus particulièrement, nous exploitons la capacité des réseaux antagonistes génératifs (GAN) à générer de nouveaux échantillons augmentés permettant d’améliorer la robustesse et les performances d’un classificateur d’images. Contrairement aux transformations traditionnelles choisies de façon heuristique, l’approche présentée apprend l’augmentation de données optimale directement à partir des données d’entraînement en utilisant une architecture encodeur-décodeur et un réseau transformateur spatial, produisant des échantillons plus complexes au sein de la même classe.Dans un second chapitre, nous proposons une approche visant à réduire les calculs nécessaires pour déterminer la meilleure augmentation de données possible. Nous optimisons les paramètres d’augmentation à l’aide d’un ensemble de validation par une optimisation bi-niveaux, améliorant ainsi la généralisation du modèle sans avoir besoin d’une boucle de validation externe coûteuse. La méthode a été validée aussi bien sur des images naturelles que sur des images histologiques.Enfin, dans un troisième chapitre, nous explorons l’adaptation pendant l’inférence (TTA) et présentons une sélection et catégorisation de techniques TTA intéressantes pour adapter les modèles aux dérives de données. Ces techniques sont la normalisation par petits lots, le rebalancement des classes du flux, la sélection d’échantillons fiables et l’étalonnage de la confiance du réseau. Nous donnons un aperçu de leur impact dans différents scénarios et mettons en évidence des compromis nécessaires entre précision, puissance de calcul et complexité du modèle. Nous présentons également les synergies qui résultent de la combinaison de ces techniques.Les travaux présentés ouvrent de nouvelles voies pour des recherches futures et offrent des aperçus et des solutions pratiques pour l’entraînement et l’adaptation des réseaux neuronaux profonds dans un contexte de données limitées.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 126-142).
Mots-clés libres:	classification d’images, augmentation de données, réseaux antagonistes génératifs, optimisation bi-niveaux, adaptation au moment du test
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Pedersoli, Marco
Codirecteur:	Codirecteur Ben Ayed, Ismail
Programme:	Doctorat en génie > Génie
Date de dépôt:	01 févr. 2024 18:10
Dernière modification:	01 févr. 2024 18:10
URI:	https://espace.etsmtl.ca/id/eprint/3350

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt