One-shot neural architecture search for computer vision

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Javan Roshtkhari, Mehraveh (2026). One-shot neural architecture search for computer vision. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of JAVAN_ROSHTKHARI_Mehraveh.pdf]

Prévisualisation

PDF
Télécharger (6MB) | Prévisualisation

Résumé

Deep learning has achieved remarkable success in the field of computer vision with the advancement of Convolutional Neural Networks (CNN). However, the design of the optimal CNN models (architectures) for a new application is a time-consuming task, requiring expert knowledge and trial and error. Neural Architecture Search (NAS) has emerged in the past decade as a solution to automate the process of finding optimal architecture design. One-shot methods are one of the main NAS approaches that reduce the computational cost of NAS by training a single supernet that contains all possible architectures in the search space and directly inheriting these weights for architecture performance evaluation. However, a fundamental issue in one-shot NAS is the degradation of the quality of architecture performance estimation based on the supernet due to conflict and co-adaptation of weights during supernet training. This issue can be addressed by reducing the weight sharing by using multiple supernets for various parts of the search space or by focusing only on promising parts of the search space during training by using a sampling method.

This thesis focuses on improving one-shot NAS methods from various aspects. We first provide an introduction to our research and contributions. We then provide general background about CNNs, various architecture designs, Monte-Carlo Tree Search (MCTS), and NAS. For our first contribution, we focus on optimizing the downsampling configuration of CNN as a NAS problem. We propose a balanced mixture of supernets to partition the search space and reduce weight sharing by utilizing distinct supernets for each partition. We propose to learn the partitioning and association of architectures to each partition in a balanced manner to ensure fairness in training multiple supernets. Next, we propose two approaches for learning the hierarchical structure (search tree) of the NAS search space for MCTS simultaneously with supernet training. Our first approach is to learn the hierarchy of the search space in an unsupervised manner. We propose to use the functional similarity of architectures based on their output vector to construct the hierarchy. Unlike previous works, our method does not use a default hierarchical design or inaccurate performance predictions from the supernet. The second approach is an iterative method to refine the hierarchy based on increasingly better performance estimations from the supernet. Both approaches facilitate one-shot NAS by providing a better exploration-exploitation trade-off, improving the final performance with reduced NAS cost. Finally, as our last contribution, we investigate the gradient conflict and cooperation of sampled architectures during supernet training. Since gradient conflict is not uniform in the search space, we focus on the effective training each architecture receives in an optimization step. We propose a gradient density metric that estimates the effective training received by an architecture by measuring how aligned its gradient is with the rest of the search space. We propose a density-aware sampling method to reduce the bias in effective training received during supernet optimization. Finally, we provide a conclusion and future directions for improving one-shot NAS.

Titre traduit

Recherche d’architecture neuronale one-shot pour la vision par ordinateur

Résumé traduit

L’apprentissage profond a connu un succès remarquable dans le domaine de la vision par ordinateur grâce aux avancées des réseaux de neurones convolutifs (CNN). Cependant, la conception de modèles CNN optimaux (architectures) pour une nouvelle application est une tâche fastidieuse qui nécessite une expertise pointue ainsi qu’un long processus d’essais et d’erreurs. La recherche d’architecture neuronale (NAS) est apparue au cours de la dernière décennie comme une solution pour automatiser ce processus de conception. Les méthodes « one-shot » constituent l’une des principales approches de la NAS. Elles permettent de réduire le coût de calcul en entraînant un unique super-réseau contenant toutes les architectures possibles de l’espace de recherche, et en héritant directement de ces poids pour évaluer les performances. Cependant, un problème fondamental de la NAS one-shot est la dégradation de la qualité de l’estimation des performances du super-réseau, due aux conflits et à la co-adaptation des poids lors de l’entraînement. Ce problème peut être résolu en réduisant le partage de poids, soit en utilisant plusieurs super-réseaux pour différentes parties de l’espace de recherche, soit en se concentrant sur les zones prometteuses via une méthode d’échantillonnage.

Cette thèse se concentre sur l’amélioration des méthodes de NAS one-shot sous divers aspects. Nous présentons d’abord une introduction à nos recherches et à nos contributions. Nous fournissons ensuite un contexte général sur les CNN, les différents types d’architectures, la recherche arborescente de Monte-Carlo (MCTS) et la NAS. Pour notre première contribution, nous abordons l’optimisation de la configuration du sous-échantillonnage des CNN comme un problème de NAS. Nous proposons un mélange équilibré de super-réseaux pour partitionner l’espace de recherche et réduire le partage de poids en attribuant des super-réseaux distincts à chaque partition. Nous proposons d’apprendre le partitionnement et l’association des architectures de manière équilibrée afin de garantir l’équité lors de l’entraînement de plusieurs super-réseaux. Ensuite, nous proposons deux approches pour apprendre la structure hiérarchique (arbre de recherche) de l’espace de recherche NAS pour la MCTS, simultanément à l’entraînement du super-réseau. Notre première approche consiste à apprendre la hiérarchie de l’espace de recherche de manière non supervisée. Nous proposons d’utiliser la similitude fonctionnelle des architectures, basée sur leur vecteur de sortie, pour construire cette hiérarchie. Contrairement aux travaux précédents, notre méthode n’utilise pas de conception hiérarchique par défaut ni de prédictions de performance imprécises issues du super-réseau. La seconde approche est une méthode itérative permettant d’affiner la hiérarchie en s’appuyant sur des estimations de performance de plus en plus précises. Ces deux approches facilitent la NAS one-shot en offrant un meilleur compromis entre exploration et exploitation, améliorant ainsi les performances finales tout en réduisant les coûts de recherche. Enfin, pour notre dernière contribution, nous étudions les conflits et la coopération des gradients des architectures échantillonnées pendant l’entraînement du super-réseau. Étant donné que les conflits de gradients ne sont pas uniformes dans l’espace lors d’une étape d’optimisation. Nous proposons une métrique de densité de gradient qui estime l’entrainement effectif reçu par une architecture en mesurant l’alignement de son gradient avec le reste de l’espace de recherche. Nous proposons une méthode d’échantillonnage sensible à la densité afin de réduire le biais dans l’entrainement effectif reçu lors de l’optimisation du super-réseau. Pour conclure, nous présentons une synthèse de nos travaux ainsi que des perspectives futures pour l’amélioration de la NAS one-shot.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment for the degree of Doctor of Philosophy". Comprend des références bibliographiques (pages 147-176).
Mots-clés libres:	vision par ordinateur, apprentissage automatique automatisé, AutoML, recherche d’architecture neuronale, NAS, NAS one-shot, partage de poids
Directeur de mémoire/thèse:	Directeur(-trice) Pedersoli, Marco
Codirecteur:	Codirecteur(-trice) de mémoire/thèse Toews, Matthew
Programme:	Doctorat en génie > Génie
Date de dépôt:	11 juin 2026 14:34
Dernière modification:	11 juin 2026 14:34
URI:	https://espace.etsmtl.ca/id/eprint/3940

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt