Interprétation d’espaces de représentation: caractérisation de métriques quantitatives et recommandations

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Boilard, Jonathan (2022). Interprétation d’espaces de représentation: caractérisation de métriques quantitatives et recommandations. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (3MB) | Prévisualisation

Résumé

Plusieurs ouvrages proposent des modèles d’apprentissage non supervisés permettant de découvrir une variété de représentations génériques d’un ensemble de données. Cependant, l’optimisation de la fonction objective de ces modèles n’assure pas l’obtention de représentations démêlées, soit explicitement utiles sur des tâches connexes ultérieures. Afin de comparer efficacement différentes représentations obtenues, une méthode pour mesurer quantitativement le démêlage est nécessaire. Diverses métriques appropriées à cette problématique ont été proposées. Cependant, il est observé qu’elles sont souvent incohérentes lorsqu’elles sont comparées l'une à l’autre ou comparées à l’évaluation subjective du praticien. Comparer les métriques s’avère difficile dans un contexte typique d’apprentissage de représentations, puisque la nature générique des représentations obtenues empêche de connaître avec certitude la réelle qualité des propriétés mesurées. Afin de rendre les métriques fiables, il est important de démystifier ces incohérences.

Afin de remédier à ce problème, cet ouvrage propose de caractériser les métriques sur des représentations dont les propriétés représentatives sont connues. Une taxonomie est d’abord mise en place permettant d’identifier les similarités entre les métriques. Cette taxonomie n’est cependant pas suffisante pour comprendre le désaccord entre les métriques. Des propriétés de métriques désirables sont définies, et les scénarios proposés servent à procéder à la caractérisation en fonction de ces propriétés.

Dans ce document, il est découvert que plusieurs métriques ont de la difficulté à correctement mesurer des propriétés dont elles devraient être capables de fournir des mesures. Nous identifions DCI comme la plus robuste à l’identification du démêlage selon la qualité explicite, la modularité et la compacité d’une représentation. Dans nos scénarios représentatifs expérimentaux, DCI évite plusieurs instabilités de causes diverses. DCI peut donc être utilisée sans crainte relativement à sa compatibilité à l’ensemble de données et la représentation dans laquelle le praticien désire y mesurer le démêlage. Finalement, nous discutons des différences clés entre les ensembles expérimentaux et réels de données ainsi que différentes considérations pratiques afin d’identifier de futures pistes d’amélioration.

Titre traduit

Disentangled latent spaces: characterisation of supervised metrics and recommendations

Résumé traduit

Several studies offer unsupervised learning models that allow one to discover a variety of generic dataset representations. However, optimizing the objective function of these models does not ensure that disentangled representations are obtained that are explicitly useful on subsequent related tasks. In order to effectively compare different representations obtained, a method for quantitatively measuring disentanglement is needed. Various metrics addressing this problem have been proposed. However, it is observed that they are often inconsistent when compared to each other or compared to a practitioner's subjective assessment. Comparing metrics is difficult in a typical representation learning context, since the generic nature of the representations obtained prevents knowing with certainty the real quality of the measured properties. In order to make metrics reliable, it is important to demystify these inconsistencies.

In order to remedy this problem, this work proposes to characterize the metrics on representations whose representative properties are known. First, a metric taxonomy is put in place to help identify the similarities between them. This taxonomy, however, is not sufficient to understand the disagreement between metrics. Desirable metric properties are defined, and the proposed scenarios are used to characterize against these properties.

In this document, it is discovered that several metrics have difficulty in correctly measuring properties of which they should be able to provide measurements. We identify DCI as the most robust in identifying disentangling according to the explicit quality, modularity and compactness of a representation. In our representative experimental scenarios, DCI avoids several instabilities of various causes. DCI can therefore be used without fear of its compatibility with the data set and the representation in which the practitioner wishes to measure disentanglement therein. Finally, we further discuss key differences between experimental and actual data sets as well as various practical considerations & identify further possibilities for improvement in future studies.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire en génie électrique". Comprend des références bibliographiques (pages 81-83).
Mots-clés libres:	apprentissage machine, apprentissage de représentations, démêlage, métriques
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Gagnon, Ghyslain
Programme:	Maîtrise en ingénierie > Génie électrique
Date de dépôt:	11 août 2022 14:30
Dernière modification:	11 août 2022 14:30
URI:	https://espace.etsmtl.ca/id/eprint/3034

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt