Soleimani Samarin, Roghaiyeh (2020). Learning from imbalanced data in face re-identification using ensembles of classifiers. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Résumé
Face re-identification is a video surveillance application where systems for video-to-video face recognition are designed using faces of individuals captured from video sequences, and seek to recognize them when they appear in archived or live videos captured over a network of video cameras. Video-based face recognition applications encounter challenges due to variations in capture conditions such as pose, illumination etc. Other challenges in this application are twofold; 1) the imbalanced data distributions between the face captures of the individuals to be re-identified and those of other individuals 2) varying degree of imbalance during operations w.r.t. the design data. Learning from imbalanced data is challenging in general due in part to the bias of performance in most two-class classification systems towards correct classification of the majority (negative, or non-target) class (face images/frames captured from the individuals in not to be re-identified) better than the minority (positive, or target) class (face images/frames captured from the individual to be re-identified) because most two-class classification systems are intended to be used under balanced data condition. Several techniques have been proposed in the literature to learn from imbalanced data that either use data-level techniques to rebalance data (by under-sampling the majority class, up-sampling the minority class, or both) for training classifiers or use algorithm-level methods to guide the learning process (with or without cost sensitive approaches) such that the bias of performance towards correct classification of the majority class is neutralized. Ensemble techniques such as Bagging and Boosting algorithms have been shown to efficiently utilize these methods to address imbalance. However, there are issues faced by these techniques in the literature: (1) some informative samples may be neglected by random under-sampling and adding synthetic positive samples through upsampling adds to training complexity, (2) cost factors must be pre-known or found, (3) classification systems are often optimized and compared using performance measurements (like accuracy) that are unsuitable for imbalance problem; (4) most learning algorithms are designed and tested on a fixed imbalance level of data, which may differ from operational scenarios;
The objective of this thesis is to design specialized classifier ensembles to address the issue of imbalance in the face re-identification application and as sub-goals avoiding the abovementioned issues faced in the literature. In addition achieving an efficient classifier ensemble requires a learning algorithm to design and combine component classifiers that hold suitable diversity-accuracy trade off. To reach the objective of the thesis, four major contributions are made that are presented in three chapters summarized in the following. In Chapter 3, a new application-based sampling method is proposed to group samples for under-sampling in order to improve diversity-accuracy trade-off between classifiers of the ensemble. The proposed sampling method takes the advantage of the fact that in face re-identification applications, facial regions of a same person appearing in a camera field of view may be regrouped based on their trajectories found by face tracker. A partitional Bagging ensemble method is proposed that accounts for possible variations in imbalance level of the operational data by combining classifiers that are trained on different imbalance levels. In this method, all samples are used for training classifiers and information loss is therefore avoided.
In Chapter 4, a new ensemble learning algorithm called Progressive Boosting (PBoost) is proposed that progressively inserts uncorrelated groups of samples into a Boosting procedure to avoid loosing information while generating a diverse pool of classifiers. From one iteration to the next, the PBoost algorithm accumulates these uncorrelated groups of samples into a set that grows gradually in size and imbalance. This algorithm is more sophisticated than the one proposed in Chapter 3 because instead of training the base classifiers on this set, the base classifiers are trained on balanced subsets sampled from this set and validated on the whole set. Therefore, the base classifiers are more accurate while the robustness to imbalance is not jeopardized. In addition, the sample selection is based on the weights that are assigned to samples which correspond to their importance. In addition, the computation complexity of PBoost is lower than Boosting ensemble techniques in the literature for learning from imbalanced data because not all of the base classifiers are validated on all negative samples. A new loss factor is also proposed to be used in PBoost to avoid biasing performance towards the negative class. Using this loss factor, the weight update of samples and classifier contribution in final predictions are set according to the ability of classifiers to recognize both classes.
In comparing the performance of the classifier systems in Chapter 3 and 4, a need is faced for an evaluation space that compares classifiers in terms of a suitable performance metric over all of their decision thresholds, different imbalance levels of test data, and different preference between classes. The F-measure is often used to evaluate two-class classifiers on imbalanced data, and no global evaluation space was available in the literature for this measure. Therefore, in Chapter 5, a new global evaluation space for the F-measure is proposed that is analogous to the cost curves for expected cost. In this space, a classifier is represented as a curve that shows its performance over all of its decision thresholds and a range of possible imbalance levels for the desired preference of true positive rate to precision. These properties are missing in ROC and precision-recall spaces. This space also allows us to empirically improve the performance of specialized ensemble learning methods for imbalance under a given operating condition. Through a validation, the base classifiers are combined using a modified version of the iterative Boolean combination algorithm such that the selection criterion in this algorithm is replaced by F-measure instead of AUC, and the combination is carried out for each operating condition.
The proposed approaches in this thesis were validated and compared using synthetic data and videos from the Faces In Action, and COX datasets that emulate face re-identification applications. Results show that the proposed techniques outperforms state of the art techniques over different levels of imbalance and overlap between classes.
Titre traduit
Réidentification faciale : apprendre des données déséquilibrées à l'aide d'ensembles de classificateurs
Résumé traduit
La ré-identification faciale est une application de vidéosurveillance qui fait appel à des engins de reconnaissance faciale qui sont conçus à partir de visages capturés en séquences vidéo, et qui cherche à les reconnaître dans des vidéos archivées ou en direct dans un réseau de caméras vidéo. Les applications vidéo de reconnaissance faciale posent des défis importants en raison des variations de conditions de capture comme la pose ou l’éclairage. Les autres défis sont de deux ordres: 1) la distribution déséquilibrée entre les visages capturés pour les personnes à réidentifier et les autres; 2) le degré variable de déséquilibre pendant les opérations par rapport aux données de conception. En général, il est difficile d’estimer la proportion de données déséquilibrées, en partie à cause de l’incapacité de la plupart des systèmes de classification à identifier correctement la classe majoritaire, négative ou non ciblée (visages ou images de personnes à ne pas ré-identifier) de la classe minoritaire, positive ou ciblée (visages ou images de personnes à ré-identifier), car la plupart de ces systèmes sont conçus pour des conditions de données équilibrées.
Plusieurs techniques sont proposées dans la littérature pour appendre des données déséquilibrées, soit des techniques permettant de rééquilibrer les données (en sous-échantillonnant la classe majoritaire et en sur-échantillonnant la classe minoritaire, ou les deux) pour les classificateurs de formation, soit des algorithmes permettant de guider le processus d’apprentissage (avec ou sans approche sensible aux coûts), neutralisant ainsi l’écart de performance dans la classification de la classe majoritaire. Il a été démontré que les techniques ensemblistes comme le bagging et le boosting exploitent efficacement ces méthodes pour remédier au déséquilibre. Cependant, la littérature fait aussi état de problèmes liés à ces techniques: (1) certains échantillons informatifs sont délaissés par suite d’un sous-échantillonnage aléatoire, et l’ajout d’échantillons positifs synthétiques par sur-échantillonnage augmente la complexité de la formation; (2) les facteurs de coût doivent être connus à l’avance ou trouvés; (3) les systèmes de classification sont souvent optimisés et comparés selon des mesures de performance (comme la précision) qui ne conviennent pas au problème de déséquilibre; (4) la plupart des algorithmes d’apprentissage sont conçus et testés d’après un niveau fixe de données déséquilibrées qui peut différer des scénarios opérationnels. Cette thèse a pour objectif de concevoir des ensembles de classificateurs spécialisés pour traiter la question du déséquilibre dans l’application de réidentification faciale et, comme sous-objectifs, d’éviter les problèmes précités repérés dans la littérature. De plus, obtenir un ensemble de classificateurs efficace nécessite un algorithme d’apprentissage pour concevoir et combiner les classificateurs de composants offrant le bon compromis entre diversité et précision. Pour réaliser cet objectif, quatre contributions majeures sont présentées dans trois chapitres, dont voici un résumé.
Au chapitre 3, une nouvelle méthode d’échantillonnage sous forme d’application regroupera les échantillons du sous-échantillonnage afin d’améliorer le compromis entre diversité et précision des classificateurs de l’ensemble. Dans les applications de ré-identification faciale, la méthode d’échantillonnage proposée tire parti du fait que les régions du visage d’une même personne apparaissant dans le champ de vision d’une caméra peuvent être regroupées en fonction des trajectoires enregistrées par le localisateur facial (face tracker). Une méthode ensembliste de Bagging X est proposée pour tenir compte des variations possibles du niveau de déséquilibre des données opérationnelles en combinant des classificateurs formés à différents niveaux de déséquilibre. Dans cette méthode, tous les échantillons servent aux classificateurs de formation, minimisant ainsi la perte d’information. Au chapitre 4, un nouvel algorithme d’apprentissage ensembliste, le Boosting progressif (PBoost), insère progressivement des groupes d’échantillons non corrélés dans un processus de Boosting pour éviter la perte d’information tout en générant un groupe diversifié de classificateurs. D’une itération à l’autre, l’algorithme PBoost accumule ces groupes d’échantillons non corrélés dans un ensemble qui augmente progressivement en taille et en déséquilibre. Cet algorithme est plus sophistiqué que celui que l’on propose au chapitre 3, car au lieu de former les classificateurs de base sur cet ensemble, on les forme sur des sous-ensembles équilibrés tirés de cet ensemble et validés sur tout l’ensemble. Par conséquent, les classificateurs de base sont plus précis sans compromettre la robustesse face au déséquilibre. De plus, la sélection des échantillons est fondée sur les poids attribués aux échantillons correspondant à leur importance. Aussi, la complexité de calcul de PBoost est inférieure à celle des techniques ensemblistes de Boost dans la littérature, quant à l’apprentissage de données déséquilibrées, parce que les classificateurs de base ne sont pas tous validés sur tous les échantillons négatifs. L’on propose également un nouveau facteur de perte dans PBoost pour éviter de biaiser les performances vers la classe négative. Ce facteur de perte permet de mettre à jour le poids des échantillons et de fixer la contribution des classificateurs dans les prédictions finales en fonction de la capacité des classificateurs à reconnaître les deux classes.
Pour comparer les performances des systèmes de classification vus aux chapitres 3 et 4, il faut disposer d’un espace d’évaluation qui compare les classificateurs en fonction d’une mesure de performance appropriée sur tous leurs seuils de décision, les différents niveaux de déséquilibre des données d’essai et les différentes préférences entre les classes. La mesure F sert souvent à évaluer des classificateurs binaires par rapport aux données déséquilibrées, et aucun espace global d’évaluation de cette mesure n’a été repéré dans la littérature. Par conséquent, au chapitre 5, un nouvel espace global d’évaluation est proposé pour la mesure F, analogue aux courbes de coût par rapport au coût prévu. Dans cet espace, un classificateur est représenté par une courbe montrant sa performance sur tous ses seuils de décision et les niveaux possibles de déséquilibre quant au taux positif réel souhaité par rapport à la précision. Ces propriétés ne paraissent pas dans les espaces ROC (Receiver Operating Characteristic) et de précision rappel. Cet espace nous permet également d’améliorer empiriquement la performance des méthodes spécialisées d’apprentissage d’ensembles déséquilibrés dans une condition opérationnelle particulière. Par la validation, les classificateurs de base sont combinés d’après une version modifiée de l’algorithme itératif de combinaison booléenne, de sorte que le critère de sélection dans cet algorithme est remplacé par la mesure F au lieu de l’aire sous la courbe AUC (area under curve), et la combinaison est effectuée pour chaque condition de fonctionnement. Les approches proposées dans cette thèse ont été validées et comparées à partir des bases de données synthétiques et des bases vidéo Faces In Action et COX qui émulent les applications de ré-identification faciale. Les résultats montrent que les techniques proposées sont plus performantes que les techniques actuelles quant aux différents niveaux de déséquilibre et de chevauchement entre les classes.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 167-181). |
Mots-clés libres: | déséquilibre des classes, apprentissage d’ensemble, bagging, boosting, mesure de la performance, mesure-F, outils de visualisation, ré-identification du visage, vidéo surveillance |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Granger, Éric |
Codirecteur: | Codirecteur Fumera, Giorgio |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 29 mai 2020 18:16 |
Dernière modification: | 29 mai 2020 18:16 |
URI: | https://espace.etsmtl.ca/id/eprint/2475 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |