Adaptive multi-classifier systems for face re-identification applications

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

De la Torre Gomora, Miguel Angel (2015). Adaptive multi-classifier systems for face re-identification applications. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (6MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (4MB) \| Prévisualisation

Résumé

In video surveillance, decision support systems rely more and more on face recognition (FR) to rapidly determine if facial regions captured over a network of cameras correspond to individuals of interest. Systems for FR in video surveillance are applied in a range of scenarios, for instance in watchlist screening, face re-identification, and search and retrieval. The focus of this Thesis is video-to-video FR, as found in face re-identification applications, where facial models are designed on reference data, and update is archived on operational captures from video streams. Several challenges emerge from the task of recognizing individuals of interest from faces captured with video cameras. Most notably, it is often assumed that the facial appearance of target individuals do not change over time, and the proportions of faces captured for target and non-target individuals are balanced, known a priori and remain fixed. However, faces captured during operations vary due to several factors, including illumination, blur, resolution, pose expression, and camera interoperability. In addition, facial models used matching are commonly not representative since they are designed a priori, with a limited amount of reference samples that are collected and labeled at a high cost. Finally, the proportions of target and non-target individuals continuously change during operations.

In literature, adaptive multiple classifier systems (MCSs) have been successfully applied to video-to-video FR, where the facial model for each target individual is designed using an ensemble of 2-class classifiers (trained using target vs. non-target reference samples). Recent approaches employ ensembles of 2-class Fuzzy ARTMAP classifiers, with a DPSO strategy to generate a pool of classifiers with optimized hyperparameters, and Boolean combination to merge their responses in the ROC space. Besides, the skew-sensitive ensembles were recently proposed to adapt the fusion function of an ensemble according to class imbalance measured on operational data. These active approaches estimate target vs. non-target proportions periodically during operations distance, and the fusion of classifier ensembles are adapted to such imbalance. Finally, face tracking can be used to regroup the system responses linked to a facial trajectory (facial captures from a single person in the scene) for robust spatio-temporal recognition, and to update facial models over time using operational data.

In this Thesis, new techniques are proposed to adapt the facial models for individuals enrolled to a video-to-video FR system. Trajectory-based self-updating is proposed to update the system, considering gradual and abrupt changes in the classification environment. Then, skew-sensitive ensembles are proposed to adapt the system to the operational imbalance.

In Chapter 2, an adaptive framework is proposed for partially-supervised learning of facial models over time based on facial trajectories. During operations, information from a face tracker and individual-specific ensembles is integrated for robust spatio-temporal recognition and for self-update of facial models. The tracker defines a facial trajectory for each individual in video. Recognition of a target individual is done if the positive predictions accumulated along a trajectory surpass a detection threshold for an ensemble. If the accumulated positive predictions surpass a higher update threshold, then all target face samples from the trajectory are combined with non-target samples (selected from the cohort and universal models) to update the corresponding facial model. A learn-and-combine strategy is employed to avoid knowledge corruption during self-update of ensembles. In addition, a memory management strategy based on Kullback-Leibler divergence is proposed to rank and select the most relevant target and non-target reference samples to be stored in memory as the ensembles evolves. The proposed system was validated with synthetic data and real videos from Face in Action dataset, emulating a passport checking scenario. Initially, enrollment trajectories were used for supervised learning of ensembles, and videos from three capture sessions were presented to the system for FR and self-update. Transaction-level analysis shows that the proposed approach outperforms baseline systems that do not adapt to new trajectories, and provides comparable performance to ideal systems that adapt to all relevant target trajectories, through supervised learning. Subject-level analysis reveals the existence of individuals for which self-updated ensembles provide a considerable benefit. Trajectory-level analysis indicates that the proposed system allows for robust spatio-temporal video-to-video FR.

In Chapter 3, an extension and a particular implementation of the ensemble-based system for spatio-temporal FR is proposed, and is characterized in scenarios with gradual and abrupt changes in the classification environment. Transaction-level results show that the proposed system allows to increase AUC accuracy by about 3% in scenarios with abrupt changes, and by about 5% in scenarios with gradual changes. Subject-based analysis reveals the difficulties of FR with different poses, affecting more significantly the lamb- and goat-like individuals. Compared to reference spatio-temporal fusion approaches, the proposed accumulation scheme produces the highest discrimination.

In Chapter 4, adaptive skew-sensitive ensembles are proposed to combine classifiers trained by selecting data with varying levels of imbalance and complexity, to sustain a high level the performance for video-to-video FR. During operations, the level of imbalance is periodically estimated from the input trajectories using the HDx quantification method, and pre-computed histogram representations of imbalanced data distributions. Ensemble scores are accumulated of trajectories for robust skew-sensitive spatio-temporal recognition. Results on synthetic data show that adapting the fusion function with the proposed approach can significantly improve performance. Results on real data show that the proposed method can outperform reference techniques in imbalanced video surveillance environments.

Titre traduit

Systèmes multi-classificateur adaptatifs pour la reconnaissance de visage en applications deréidentification

Résumé traduit

Dans la vidéo-surveillance, les systèmes décisionnels reposent de plus en plus sur la reconnaissance de visage (RV) pour déterminer rapidement si les régions faciales capturées sur un réseau de caméras correspondent à des personnes d’intérêt. Les systèmes RV en vidéo-surveillance sont utilisés dans de nombreux scénarios, par exemple pour la détection d’individus sur la liste noire, la ré-identification de visages, et recherche et récupération. Cette thèse se concentre sur la RV vidéo-à-vidéo, où les modèles de visages sont créés avec des données de référence, puis mis à jour avec de nouvelles donées collectées dans des flux vidéo. La reconnaissance d’individus d’intérêt à partir d’images de visages capturées avec des caméras vidéo est une tâche qui représente de nombreux défis. Plus particulièrement, il est souvent supposé que l’aspect du visage des personnes cibles ne change pas au fil du temps, ainsi que les proportions des visages capturés pour des individus cibles et non-cibles sont équivalentes, connues a priori et fixes. Cependant, de nombreuses variations peuvent se manifester dans les conditions d’observation, par exemple l’éclairage, le brouillage, la résolution, l’expression, la pose et l’interopérabilité avec la caméra. De plus, les modèles de visages utilisés pour calculer des correspondances ne sont généralement pas représentatifs car désignés a priori, avec une quantité limitée d’échantillons de référence qui sont collectés et étiquetés à un coût élevé. Enfin, les proportions des individus cibles et non-cibles changent continuellement durant le fonctionnement du système.

Dans la littérature, des systèmes adaptatifs multi-classificateur (en anglais, multiple classifier systems, MCS) ont été utilisés avec succès pour la RV vidéo-à-video, où les modèles de visages de chaque individu cible sont générés en utilisant un ensemble de classificateurs à 2-classes (entraînés avec des échantillons cibles et non-cibles). Des approches plus récentes utilisent des ensembles de classificateurs Fuzzy ARTMAP à deux classes, entraîné avec une stratégie DPSO (dynamic particle swarm optimization) pour générer un groupement de classificateurs dont les paramètres sont optimisés, ainsi que la combinaison Booléenne pour la fusion de leur réponses dans l’espace ROC (Receiver Operating Characteristics). Des ensembles actifs de classificateurs sensibles au biais ont été récemment proposés, pour adapter la fonction de fusion d’un ensemble selon le débalancement des classes mesuré sur des données opérationnelles. Ces approches estiment les proportions cibles contre non-cibles périodiquement au cours des opérations. La fusion des ensembles de classificateurs est ensuite adaptée à ce débalancement des classes. Finalement, le suivi du visage peut être utilisé pour regrouper les réponses du système liées à une trajectoire du visage (captures du visage d’une seule personne dans la scène) pour une reconnaissance spatio-temporelle robuste, ainsi que pour mettre à jour les modèles du visage au cours du temps à l’aide des données opérationnelles.

Dans cette thèse, des nouvelles techniques sont proposées pour adapter les modèles de visages pour des individus enrôlés dans un système de RV vidéo-à-vidéo. L’utilisation de stratégies d’auto-mise à jour basées sur l’utilisation de trajectoires est proposée pour mettre à jour le système, en considérant les changements brusques et progressifs dans l’environnement de classification. Ensuite, des classificateurs adaptatifs sensibles au biais sont proposés pour l’adaptation du système au débalancement des classes lors de la phase opérationnelle.

Dans le chapitre 2, un cadre adaptatif est proposé pour l’apprentissage partiellement supervisé des modèles de visages au fil du temps en fonction des trajectoires capturées. Lors des opérations, des informations recueillies à l’aide d’un suivi de visages et des ensembles de classificateurs spécifiques à l’individu sont intégrés pour la reconnaissance spatio-temporelle robuste et l’auto-mise à jour des modèles du visage. Le suiveur définit une trajectoire de visage pour chaque personne qui apparaît dans une vidéo. La reconnaissance d’un individu cible passe si les prédictions positives accumulées d’une trajectoire dépassent un seuil de détection pour un ensemble. Lorsque le nombre de prédictions positives dépassent un seuil de mise à jour, tous les échantillons du visage de la cible de la trajectoire sont combinés avec des échantillons non-cibles (choisi parmi le modèle cohorte et le modèle universel) pour mettre à jour le modèle du visage correspondant. Une stratégie learn-and-combine est utilisée pour éviter la corruption de la connaissance lors de l’auto-mise à jour des ensembles. En outre, une stratégie de gestion de la mémoire basée sur la divergence Kullback-Leibler est proposée pour ordonner et sélectionner des échantillons de référence cible et non-cible les plus pertinents. Ensuite, les échantillons choisis sont stockés dans la mémoire alors que les ensembles évoluent. Pour une preuve de concept, le système proposé a été validé avec des données synthétiques et vidéos de la base de données Face in Action, émulant un scénario de vérification passeport. Les résultats mettent en valeur la réponse des systèmes proposés à des changements graduels et brusques dans l’apparence des visages des individus, tels que l’on trouve dans la vidéo-surveillance, dans des conditions semi-contrôlées ou non contrôlées de capture. Initialement, les trajectoires capturées à partir de vidéos de référence sont utilisées pour l’apprentissage supervisé des ensembles. Ensuite, des vidéos de plusieurs scénarios opérationnels ont été présentés au système, qui a été automatiquement mis-à-jour avec des trajectoires de haut niveau de confiance. Une analyse des résultats image par image avec des données réelles montre que l’approche proposée surpasse les systèmes de référence qui ne s’adaptent pas aux nouvelles trajectoires. De plus, le système proposé offre des performances comparables à des systèmes idéaux qui s’adaptent à toutes les trajectoires cibles concernées, à travers l’apprentissage supervisé. Une analyse par individu révèle la présence d’individus particuliers, pour lesquels les ensembles automatiquement mis à jour avec les trajectoires de visages sans étiquette présentent un avantage considérable. Enfin, une analyse au niveau des trajectoires révèle que le système proposé permet une RV vidéo-à-vidéo robuste.

Dans le chapitre 3, une extension et une mise en oeuvre particulière du système de RV spatiotemporelle utilisant des ensembles est proposée, et il est caractérisé en scénarios avec des changements progressifs et brusques dans l’environnement de classification. L’analyse des résultats image par image montrent que le système proposé permet d’augmenter la précision AUC (surface sous la courbe ROC) d’environ 3 % dans les scénarios avec des changements brusques, et d’environ 5 % dans les scénarios avec des changements graduels. Une analyse par sujet révèle les limitations de la reconnaissance de visage avec des variations de pose, affectant plus de façon significative les individus de type agneaux et chèvre. Par rapport à des approches de fusion spatio-temporelle de référence, les résultats montrent que l’approche proposé présente une meilleure capacité de discrimination.

Dans le chapitre 4, des ensembles adaptatifs sont proposés pour combiner des classificateurs entraînés avec des niveaux de débalancement et complexité variables pour améliorer la performance dans la RV vidéo-à-video. Lors des opérations, le niveau de débalancement est périodiquement estimé à partir des trajectoires d’entrée utilisant la méthode de quantification HDx, et des représentations d’histogrammes pré-calculés de la distribution des données débalancées. Les réponses des ensembles sont accumulées pour la reconnaissance vidéo-à-vidéo sensible au débalancement. Les résultats sur les données synthétiques montrent qu’en utilisant l’approche proposée, on observe une amélioration significative de la performance. Les résultats sur des données réelles montrent que la méthode proposée surpasse la performance des techniques de référence dans des environnements de surveillance vidéo.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment of the requirements for the degree of doctor of philosophy". Bibliographie : pages 253-268.
Mots-clés libres:	Reconnaissance des visages (Informatique) Systèmes adaptatifs (Informatique) Apprentissage supervisé (Intelligence artificielle) Vidéosurveillance. systèmes multi-classificateur, reconnaissance adaptatif de visages, apprentissage semi-supervisé, combinaison sensible au biais, débalancement de classes
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Granger, Éric
Codirecteur:	Codirecteur Sabourin, Robert
Programme:	Doctorat en génie > Génie
Date de dépôt:	01 avr. 2015 16:18
Dernière modification:	10 déc. 2016 16:51
URI:	https://espace.etsmtl.ca/id/eprint/1441

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt