Optimization problems for deep neural networks

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Rony, Jérôme (2023). Optimization problems for deep neural networks. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (5MB) | Prévisualisation

Résumé

Deep learning methods heavily rely on gradient descent to solve a variety of pattern recognition problems. Given the known limitations of this optimization method, it is of paramount importance to carefully craft objectives to accurately and efficiently solve learning and verification tasks arising in this domain. In particular, researchers have mostly relied on penalty methods to handle constraints and introduced many hyperparameters to ease the optimization process.

In this thesis, we propose to revisit some of these problems, analyze them through the lens of optimization, and leverage well-known tools from the optimization literature to more accurately and efficiently solve them.

Our first contribution is to take a step back from the deep metric learning literature, and notice that most pairwise methods proposed in recent years have similar objectives. In fact, they all correspond to maximizing the same quantity: the mutual information. Additionally, minimizing the well-known cross-entropy loss can also be viewed as maximizing the mutual information. This suggests that using the cross-entropy to learn the parameters of a deep metric learning model is a viable solution. This is confirmed experimentally, where the simplicity of the cross-entropy yields state-of-the-art results on all commonly used datasets.

As a second contribution, we investigate several problems related to adversarial robustness, and adversarial attacks in particular. These problems can be formulated as the minimization of a discrepancy measure under one (or several) misclassification constraint(s), with additional input space constraints. We develop a first simple algorithm to generate minimal ℓ2-norms adversarial perturbations for classifications models. Like several of the later published adversarial attacks, this method is efficient, but lacks generality as it is customized to one particular distance. Therefore, we develop a second adversarial attack for classification models based on the augmented Lagrangian framework. This attack enjoys the generality of penalty based approaches, as it can handle many smooth discrepancy measures, and the computational efficiency of distance-specific algorithms. Our goal is to provide a general framework that can serve as a starting point to future researchers when designing adversarial attacks for new measures. Finally, we investigate attacks in the context of a dense prediction task: semantic segmentation. Adversarial attacks in this context can be formulated as optimization problems with millions of misclassification constraints. Therefore, we leverage our augmented Lagrangian based method to handle such large numbers of constraints, and combine it with a proximal splitting to minimize the non-smooth ℓ∞-norm. This attack is, to the best of our knowledge, the first to accurately solve the minimal adversarial perturbation problem for semantic segmentation.

Our third contribution focuses on calibration of deep neural networks in classification tasks. Following recent work that showed the advantage of using constraints on the output of a model to improve calibration, we generalize the approach in an augmented Lagrangian framework. In particular, we tackle the constraints with adaptive class-wise penalties. This results in a scalable method that can be applied to classification, as well as segmentation, and obtains state-of-the-art classification and calibration performances.

Titre traduit

Problèmes d’optimisation pour les réseaux de neurones profonds

Résumé traduit

Les méthodes d’apprentissage profond reposent fortement sur la descente de gradient pour résoudre de nombreux problèmes de reconnaissance de forme. Étant donné les limitations connues de cette méthode d’optimisation, il est donc important de soigneusement formuler les objectifs pour résoudre efficacement et avec précision les tâches d’apprentissage et de vérification de ce domaine. En particulier, les chercheurs ont principalement utilisé des méthodes de pénalité pour gérer des contraintes et introduits de nombreux hyperparamètres pour faciliter l’optimisation.

Dans cette thèse, nous proposons de revisiter certains de ces problèmes, de les analyser à travers le prisme de l’optimisation et d’utiliser des outils connus de la littérature d’optimisation pour les résoudre de manière plus précise et efficace.

Notre première contribution est de prendre du recul par rapport à la littérature sur l’apprentissage profond de métrique et remarquer que la plupart des méthodes proposées ces dernières années et basées sur les paires ont des objectifs similaires. En effet, elles cherchent toutes à maximiser la même quantité : l’information mutuelle. En outre, la minimisation de la fonction de coût entropie croisée peut aussi être interprété comme la maximisation de l’information mutuelle. Cela suggère que l’utilisation de l’entropie croisée pour apprendre les paramètres d’un modèle profond d’apprentissage de métrique soit une solution viable. Nous confirmons cela expérimentalement, où la simplicité de l’entropie croisée permet d’obtenir des résultats de pointe sur tous les jeux de données habituellement utilisés.

En deuxième contribution, nous étudions plusieurs problèmes liés à la robustesse adverse, et en particulier, aux attaques adverses. Ces problèmes peuvent être formulés comme la minimisation d’une mesure de différence, combinée à une (ou plusieurs) contrainte(s) de classification erronée, avec des contraintes additionnelles sur les images. Nous développons un premier algorithme simple afin de générer des exemples adverses minimisant la norme ℓ2 pour des modèles de classification. Comme de nombreuses attaques adverses publiées ultérieurement, cette méthode est efficace, mais manque de généralité, car elle est conçue spécialement pour une distance. Par conséquent, nous développons une deuxième attaque adverse pour les modèles de classification, basée sur une approche de Lagrangien augmenté. Cette attaque bénéficie de la généralité des méthodes de pénalité, qui peuvent accommoder de nombreuses mesures de différence lisses, et de l’efficacité des algorithmes spécifiques à une distance. Notre but est de fournir un cadre générique servant de point de départ aux futurs chercheurs lors de la conception d’attaques adverses spécifiques à de nouvelles mesures. Enfin, nous étudions les attaques dans le contexte d’une tâche de prédiction dense : la segmentation sémantique. Dans ce contexte, les attaques adverses peuvent être formulées comme un problème d’optimisation avec des millions de contraintes de classification erronée. Ainsi, nous tirons parti de notre méthode basée sur les Lagrangiens augmentés pour gérer une telle quantité de contraintes, et le combinons avec une méthode de séparation proximale pour minimiser la norme ℓ∞ non lisse. Cette attaque est, à notre connaissance, la première à résoudre précisément le problème des perturbations adverses minimales pour la segmentation sémantique.

Notre troisième contribution concerne l’étalonnage des réseaux de neurones profonds dans les tâches de classification. À la suite de travaux récents qui ont montré l’avantage d’utiliser des contraintes sur la sortie d’un modèle pour améliorer l’étalonnage, nous généralisons cette approche dans le cadre des Lagrangiens augmentés. En particulier, nous abordons les contraintes avec des pénalités adaptatives par classe. Cela permet d’obtenir une méthode extensible pour la classification et la segmentation, qui obtient des résultats de pointe en termes de classification et d’étalonnage.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 213-227).
Mots-clés libres:	apprentissage profond, optimisation, apprentissage de métrique, attaques adverses, calibration
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Ben Ayed, Ismail
Codirecteur:	Codirecteur Granger, Éric
Programme:	Doctorat en génie > Génie
Date de dépôt:	16 juin 2023 18:22
Dernière modification:	16 juin 2023 18:22
URI:	https://espace.etsmtl.ca/id/eprint/3232

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt