Bouchard, Louis-François (2022). Symétrie U(1) et brisure de symétrie dans les couches d’activation de réseaux de neurones convolutifs profonds. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (10MB) | Prévisualisation |
Résumé
Nous présentons un nouveau modèle reliant les réseaux de neurones convolutifs (CNNs) à la vision biologique et à la physique fondamentale des particules. La propagation de l’information dans un CNN est modélisée via une analogie avec un système optique, où l’information est concentrée près d’un goulot d’étranglement où la résolution spatiale 2D s’effondre autour d’un point focal 1 × 1 = 1. Un espace 3D (□, □, □) est défini par les coordonnées (□, □) dans le plan image et la couche CNN □, où un rayon principal (□, 0, 0) suis la direction de propagation de l’information à travers à la fois l’axe optique et le pixel central de l’image situé à (□, □) = (0, 0), autour duquel la mise au point spatiale la plus nette possible est limitée à un cercle de confusion dans le plan image. Notre idée est de modéliser le rayon optique principal (□, 0, 0) comme géométriquement équivalent au vecteur médian dans l’orthant positif □(□, □) □ □+ d’un espace d’activation des canaux a □ dimensions, par exemple le long du vecteur de niveaux de gris (ou de luminance) (□,□,□) dans l’espace colorimétrique RVB. L’information est ainsi concentrée dans un potentiel d’énergie □(□, □, □) = □(□, □, □) 2, qui, en particulier pour les couches de goulot d’étranglement □ des CNNs génériques, est fortement concentré et symétrique par rapport à l’origine spatiale (□, 0, 0) et présente le potentiel "Sombrero" de la particule de boson bien connu. Cette symétrie est brisée dans la classification où les couches de goulot d’étranglement des modèles CNN génériques préentraînés présentent un biais cohérent spécifique à la classe vers un angle □ □ □(1) défini simultanément dans le plan image et dans l’espace des caractéristiques d’activation. Les observations initiales valident notre hypothèse à partir de cartes d’activation extraites de CNNs génériques préentraînés et d’un schéma de classification basé sur la mémoire (K-NN), sans entraînements supplémentaires ni réglages optimisés. L’entraînement à partir de zéro à l’aide d’une fonction de perte combinant un composant symétrique et un composant antisymétrique, one-hot +□(1), améliore la classification pour toutes les tâches testées, y compris ImageNet, confirmant notre hypothèse de brisure de symétrie lors de la classification et agissant comme preuve de concept introduisant cette théorie. Nous soulignons également la ressemblance entre une image (réguliere, RVB) et une carte de caractéristique.
Titre traduit
U(1) Symmetry-breaking observed in generic CNN bottleneck layers
Résumé traduit
We report on a novel model linking deep convolutional neural networks (CNN) to biological vision and fundamental particle physics. Information propagation in a CNN is modeled via an analogy to an optical system, where information is concentrated near a bottleneck where the 2D spatial resolution collapses about a focal point 1 × 1 = 1. A 3D space (□, □, □) is defined by (□, □) coordinates in the image plane and CNN layer □, where a principal ray (□, 0, 0) runs in the direction of information propagation through both the optical axis and the image center pixel located at (□, □) = (0, 0), about which the sharpest possible spatial focus is limited to a circle of confusion in the image plane. Our novel insight is to model the principal optical ray (□, 0, 0) as geometrically equivalent to the medial vector in the positive orthant □(□, □) □ □+ of a □-channel activation space, e.g. along the greyscale (or luminance) vector (□,□,□) in RGB colour space. Information is thus concentrated into an energy potential □(□, □, □) = □(□, □, □) 2, which, particularly for bottleneck layers □ of generic CNNs, is highly concentrated and symmetric about the spatial origin (□, 0, 0) and exhibits the well-known "Sombrero" potential of the boson particle. This symmetry is broken in classification, where bottleneck layers of generic pre-trained CNN models exhibit a consistent class-specific bias towards an angle □ □ □(1) defined simultaneously in the image plane and in activation feature space. Initial observations validate our hypothesis from generic pre-trained CNN activation maps and a bare-bones memory-based classification scheme, with no training or tuning. Training from scratch using combined one-hot +□(1) loss, including our antisymetric component to the symetric one-hot component, improves classification for all tasks tested including ImageNet, confirming our symmetry breaking hypothesis during classification and acting as proof of concept introducing this theory. We also point out the resemblance between an image (regular, RGB) and a feature map.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire en génie des systèmes". Comprend des références bibliographiques (pages 75-88). |
Mots-clés libres: | vision par ordinateur, reconnaissance de formes, réseaux de neurones convolutifs |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Toews, Matthew |
Programme: | Maîtrise en ingénierie > Génie de la production automatisée |
Date de dépôt: | 08 févr. 2023 18:52 |
Dernière modification: | 08 févr. 2023 19:08 |
URI: | https://espace.etsmtl.ca/id/eprint/3094 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |