Tremblay, Guillaume (2004). Optimisation d'ensembles de classifieurs non paramétriques avec apprentissage par représentation partielle de l'information. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (5MB) | Prévisualisation |
Résumé
L'un des défis de la reconnaissance de formes (RF) est de concevoir des systèmes à la fois simples (peu de paramètres, faible coût de calcul) et performants (haut taux de reconnaissance). Il est démontré que les ensembles de classifieurs (EoC) peuvent permettre d'obtenir de meilleures performances qu'un classifieur unique, d'où la recherche d'un compromis entre simplicité et performance. L'utilisation de classifieurs non paramétriques de type k-NN ayant une représentation partielle de l'information favorise toutefois la simplicité d'un système de RF. Dans le présent travail, nous avons utilisé un tel ensemble de k-NN pour vérifier s'il était possible de concevoir des EoC par sélection de classifieurs pour améliorer la simplicité tout en augmentant la performance du système.
L'utilisation d'un algorithme d'optimisation pouvant explorer de grands espaces mal définis est nécessaire pour atteindre cet objectif. Afin d'aider la recherche, différentes mesures de «diversité» sont proposées dans la littérature. Nous avons tenté d'optimiser un EoC à l'aide de différentes méthodes de recherche et avons testé l'effet de la maximisation conjointe de la performance avec un échantillon des mesures de diversité les plus populaires. Toutes les expériences ont été répétées 30 fois de façon à pouvoir comparer, à l'aide de tests statistiques, les différentes approches évaluées.
Nous avons découvert que la maximisation conjointe de la simplicité et de la performance était la meilleure façon de créer un ensemble optimisant ces deux objectifs. Par contre, pour générer des ensembles ayant une performance maximale, l'utilisation d'un algorithme de recherche à un seul objectif est préférable. Contrairement à nos attentes, il n'a pas été possible de démontrer un avantage significatif à l'utilisation d'une mesure de diversité comme critère d'optimisation.
À notre connaissance, c'était la première fois qu'était étudiée de manière exhaustive la façon de faire de la sélection de classifieurs de type k-NN basés sur le paradigme des sous-espaces aléatoires. L'application systématique de tests statistiques pour valider les résultats des stratégies de sélection de classifieurs a été rendue possible grâce à l'utilisation d'une grappe d'ordinateurs et à la création de base de données de votes précalculés. Cette validation statistique est rarement mise en oeuvre dans le domaine.
Titre traduit
Optimizing ensembles of nonparametric classifiers trained with partial information representation
Résumé traduit
A challenge in pattern recognition (PR) is to design systems that are simple (few parameters, low calculation costs) and achieve high-performance (high recognition rate). lt has been shawn that ensembles of classifiers (EoC) can achieve better performances than those of a single classifier thus being the source of a trade off between simplicity and performance. However, nonparametric classifiers such as k-NN trained with partial information representation help keeping PR systems simple. In this work, an ensemble of such k-NN was used to assess whether EoC could be designed by classifiers selection, improving simplicity while increasing performance of the system.
A search algorithm which can explore large and poorly understood spaces is necessary to achieve this goal. Moreover, several "diversity" measures have been proposed in recent literature to help this kind of search. As a consequence, we tried to optimize an EoC with several search methods and we tested the effect of joint maximization of bath performance and diversity measures selected among the most popular ones. All the experiments were repeated 30 times in order to compare the various approaches with statistical tests.
We discovered that joint maximization of simplicity and performance was the best way of optimizing bath of these objectives. On the other hand, mono-objective search algorithms are more suitable to generate EoC having the highest recognition rates. Contrary to our expectations, it has not been possible to show that the use of a diversity measure, as an optimization criterion, gives any significant advantage.
To the best of our knowledge, it is the first time that random subspaces based k-NN selection has been studied in such an exhaustive way. Furthermore, systematic application of statistical tests, made possible by cluster computing, had been seldomly implemented in experimental protocols of the PR community.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en génie de la production automatisée". Bibliogr.: f. [168]-174. |
Mots-clés libres: | Apprentissage, Classifieur, Ensemble, Forme, Information, Non, Non-Parametrique, Optimisation, Parametrique, Partiel, Reconnaissance, Representation, Systeme |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Sabourin, Robert |
Programme: | Maîtrise en ingénierie > Génie de la production automatisée |
Date de dépôt: | 04 mai 2011 18:59 |
Dernière modification: | 22 oct. 2016 00:47 |
URI: | https://espace.etsmtl.ca/id/eprint/716 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |