La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Recherche de l’information dans les réseaux de neurones convolutifs pré-entraînés

Téléchargements

Téléchargements par mois depuis la dernière année

Plus de statistiques...

Ben Lazreg, Mohsen (2020). Recherche de l’information dans les réseaux de neurones convolutifs pré-entraînés. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[thumbnail of BEN_LAZREG_Mohsen.pdf]
Prévisualisation
PDF
Télécharger (4MB) | Prévisualisation

Résumé

Cette thèse évalue l’utilisation de réseaux neuronaux convolutifs (CNN) pré-entraînés comme extracteurs de caractéristiques génériques pour de nouveaux contextes de classification d’images, une stratégie connue sous le nom d’apprentissage par transfert. Un certain nombre de questions de recherche ouvertes sont abordées, étant donné la disponibilité croissante de diverses architectures de CNN pré-entraînés de haute performance pour l’apprentissage par transfert : Quels sont les réseaux et les couches d’activation de réseau les plus efficaces pour l’apprentissage par transfert ? Est-il possible de combiner différents réseaux pour améliorer la classification ? Comment l’efficacité de la classification diffère-t-elle selon les contextes de données, c’est-à-dire selon les grandes catégories visuelles (par exemple, bâtiments, voitures) et les contextes d’imagerie spécifiques (par exemple, photos du visage ou du cerveau de la même personne ou des membres de la même famille) ?

Un modèle de classification générique basé sur la mémoire est proposé afin d’évaluer et de comparer la précision des architectures CNN, où des cartes d’activation génériques provenant de réseaux arbitraires servent de caractéristiques d’image et où la classification est réalisée par l’indexation du plus proche voisin.

Un certain nombre de modèles de mise en commun et de normalisation des caractéristiques sont évalués, notamment la mise en commun (pooling) maximale, moyenne et moyenne généralisée, et les modèles de normalisation comprennent des cartes d’activation brutes et la normalisation L2. Enfin, un schéma de codage binaire des caractéristiques est proposé pour comprimer les données et améliorer la précision de la classification, où les caractéristiques d’activation individuelles sont binarisées afin de maximiser le gain d’informations. Comme base de référence supplémentaire, la classification est également évaluée à l’aide de caractéristiques d’images traditionnelles extraites via la transformation de caractéristiques invariantes à l’échelle (SIFT).

L’évaluation compare une liste importante et complète d’architectures CNN existantes, toutes pré-entrainées sur l’ensemble de données standard ImageNet (1000 catégories x 1000 images), y compris VGG, Inception, ResNet, Xception, DenseNet, MobileNet,NasLarge, NasMobile etc. Afin d’éviter tout biais potentiel vers les données utilisées dans la préformation des CNN, les expériences de classification sont basées sur des ensembles de données d’images indépendants et des catégories sans rapport avec les données ImageNet. Celles-ci comprennent de larges catégories visuelles issues de l’ensemble de données Caltech101 (Fei-Fei et al. (2004)), et des contextes spécifiques comprenant des images de visages humains issues de l’ensemble de données FERET (Phillips et al. (1998)) et des images de résonance magnétique du cerveau humain issues du projet Human Connectome (HCP) (Van Essen et al. (2013)).

Pour les catégories générales (données Caltech101), les précisions les plus élevées pour chaque réseau vont de 73,29% à 93,02% pour les réseaux (NasMobile couche 739) et (DenseNet201 couche 704), respectivement, ce qui est cohérent aux résultats de l’état de l’art. La concaténation de couches de haute précision provenant de différents réseaux augmente généralement la précision, la précision la plus élevée (94,01%) a été obtenue en combinant (Xception, Resnet, DenseNet, et InceptionResNetV2).

Pour les cas de visages spécifiques (données FERET), la plus grande précision de reconnaissance (parfaite à 100 %) est obtenue à partir des réponses des filtres dans les couches du réseau et pour la correspondance SIFT 2D. Les réponses des filtres à la sortie du réseau sont moins précises (98%).

La binarisation améliore la précision de la classification par sexe (InceptionV3 avec binarisation, AUC=0,981) par rapport à (InceptionV3 sans binarisation, AUC=0,966), ce qui est supérieur à la SIFT 2D (AUC=0,926). Pour les cas de cerveau humain (données HCP), les fonctions CNN préformées combinées aux fonctions SIFT 3D permettent d’obtenir une précision de pointe pour la classification binaire des sexes (DenseNet201 avec binarisation, AUC=0,987), et la classification des membres de famille pour 1010 sujets et 400 familles est (DenseNet201 avec binarisation, AUC=0,925).

Titre traduit

Searching for information in pre-trained convolutional neural networks

Résumé traduit

This thesis evaluates the use of pre-trained convolutional neural networks (CNNs) as generic feature extractors for new image classification contexts, a strategy known as transfer learning. A number of open research questions are addressed, given the increasing availability of diverse, high performance, pre-trained CNN architectures for transfer learning : Which networks and network activation layers are most effective for transfer learning ? Can different networks be combined to improve classification ? How does the effectiveness of classification differ across data contexts, i.e. broad visual categories (e.g. buildings, cars) vs. specific imaging contexts (e.g. face or brain scans of the same person or family members)?

A generic memory-based classification model is proposed in order to evaluate and compare the accuracy of CNN architectures, where generic activation maps from arbitrary networks serve as image features and classification is achieved via nearest neighbor indexing. A number of feature pooling and normalization schemes are evaluated, including maximum, average and generalised mean pooling, and normalisation schemes include raw activation maps, L2 normalization. Finally, a binary feature encoding scheme is proposed to compress data and improve classification accuracy, where individual activation features are binarized in order to maximize information gain. As an additional baseline, classification is also evaluated using traditional hand crafted image features extracted via the scale-invariant feature transform (SIFT).

Evaluation compares a large, comprehensive list of existing CNN architectures, all pre-trained on the standard ImageNet dataset (1000 categories x 1000 images), including VGG, Inception, ResNet, Xception, DenseNet, MobileNet, NasLarge, NasMobile etc. In order to avoid potential bias towards data used in CNN pre-training, classification experiments are based upon independent image datasets and categories unrelated to ImageNet data. These include broad visual categories from Caltech101 dataset (Fei-Fei et al. (2004)), and of specific contexts including human face images from the FERET dataset (Phillips et al. (1998)) and brain magnetic resonance images of the human brain from the Human Connectome Project (HCP) (Van Essen et al. (2013)).

For general categories (Caltech101 data), the highest accuracies for each network range from (73.29% to 93.02%) for networks (NasMobile layer 739) and (DenseNet201 layer 704), respectively, consistent with state-of-the-art performance. Concatenating high-accuracy layers from different networks generally increases accuracy, the highest accuracy (94.01%) was achieved combining (Xnception-Resnet-DenseNet-InceptionResNetV2).

For specific face instances (FERET data), the highest recognition accuracy (perfect 100%) is achieved from filter responses within network layers and for 2D SIFT matching. Filter responses at the network output are less accurate (98%). Binarization improves the accuracy of gender classification (InceptionV3 with binarization, AUC=0.981) vs. (InceptionV3 without binarization, AUC=0.966), improving upon 2D SIFT (AUC=0.926). For human brain instances (HCP data), pre-trained CNN features combined with 3D SIFT features achieves state-of-theart accuracy for binary gender classification (DenseNet201 with binarization, AUC=0.987), and family member classification for 1010 subjects and 400 families is (DenseNet201 with binarization, AUC=0.925).

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: "Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maitrise avec mémoire en génie de la production automatisée". Comprend des références bibliographiques (pages 61-66).
Mots-clés libres: modèles pré-entraînés, apprentissage par transfert, classification des images, caractéristiques binaires, CNN, SIFT
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Toews, Matthew
Programme: Maîtrise en ingénierie > Génie de la production automatisée
Date de dépôt: 29 janv. 2021 19:09
Dernière modification: 29 janv. 2021 19:09
URI: https://espace.etsmtl.ca/id/eprint/2637

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt