La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Adaptive classifier ensembles for face recognition in video-surveillance

Pagano, Christophe (2015). Adaptive classifier ensembles for face recognition in video-surveillance. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (1MB) | Prévisualisation
[img]
Prévisualisation
PDF
Télécharger (1MB) | Prévisualisation

Résumé

Lors de l’implémentation de systèmes de sécurité tels que la vidéo-surveillance intelligente, l’utilisation d’images de visages présente de nombreux avantages par rapport à d’autres traits biométriques. En particulier, cela permet de détecter d’éventuels individus d’intérêt de manière discrète et non intrusive, ce qui peut être particulièrement avantageux dans des situations comme la détection d’individus sur liste noire, la recherche dans des données archivées ou la ré-identification de visages.

Malgré cela, la reconnaissance de visages reste confrontée à de nombreuses difficultés propres à la vidéo surveillance. Entre autres, le manque de contrôle sur l’environnement observé implique de nombreuses variations dans les conditions d’éclairage, la résolution de l’image, le flou de mouvement, l’orientation et l’expression des visages. Pour reconnaître des individus, des modèles de visages sont habituellement générés à l’aide d’un nombre limité d’images ou de vidéos de référence collectées lors de sessions d’inscription. Cependant, ces acquisitions ne se déroulant pas nécessairement dans les mêmes conditions d’observation, les données de référence représentent pas toujours la complexité du problème réel. D’autre part, bien qu’il soit possible d’adapter les modèles de visage lorsque de nouvelles données de référence deviennent disponibles, un apprentissage incrémental basé sur des données significativement différentes expose le système à un risque de corruption de connaissances. Enfin, seule une partie de ces connaissances est effectivement pertinente pour la classification d’une image donnée.

Dans cette thèse, un nouveau système est proposé pour la détection automatique d’individus d’intérêt en vidéo-surveillance. Plus particulièrement, celle-ci se concentre sur un scénario centré sur l’utilisateur, où un système de reconnaissance de visages est intégré à un outil d’aide à la décision pour alerter un opérateur lorsqu’un individu d’intérêt est détecté sur des flux vidéo. Un tel système se doit d’être capable d’ajouter ou supprimer des individus d’intérêt durant son fonctionnement, ainsi que de mettre à jour leurs modèles de visage dans le temps avec des nouvelles données de référence. Pour cela, le système proposé se base sur de la détection de changement de concepts pour guider une stratégie d’apprentissage impliquant des ensembles de classificateurs. Chaque individu inscrit dans le système est représenté par un ensemble de classificateurs à deux classes, chacun étant spécialisé dans des conditions d’observation différentes, détectées dans les données de référence. De plus, une nouvelle règle pour la fusion dynamique d’ensembles de classificateurs est proposée, utilisant des modèles de concepts pour estimer la pertinence des classificateurs vis-à-vis de chaque image à classifier. Enfin, les visages sont suivis d’une image à l’autre dans le but de les regrouper en trajectoires, et accumuler les décisions dans le temps.

Au Chapitre 2, la détection de changement de concept est dans un premier temps utilisée pour limiter l’augmentation de complexité d’un système d’appariement de modèles adoptant une stratégie de mise à jour automatique de ses galeries. Une nouvelle approche sensible au contexte est proposée, dans laquelle seules les images de haute confiance capturées dans des conditions d’observation différentes sont utilisées pour mettre à jour les modèles de visage. Des expérimentations ont été conduites avec trois bases de données de visages publiques. Un système d’appariement de modèles standard a été utilisé, combiné avec un module de détection de changement dans les conditions d’illumination. Les résultats montrent que l’approche proposée permet de diminuer la complexité de ces systèmes, tout en maintenant la performance dans le temps.

Au Chapitre 3, un nouveau système adaptatif basé des ensembles de classificateurs est proposé pour la reconnaissance de visages en vidéo-surveillance. Il est composé d’un ensemble de classificateurs incrémentaux pour chaque individu inscrit, et se base sur la détection de changement de concepts pour affiner les modèles de visage lorsque de nouvelles données sont disponibles. Une stratégie hybride est proposée, dans laquelle des classificateurs ne sont ajoutés aux ensembles que lorsqu’un changement abrupt est détecté dans les données de référence. Lors d’un changement graduel, les classificateurs associés sont mis à jour, ce qui permet d’affiner les connaissances propres au concept correspondant. Une implémentation particulière de ce système est proposée, utilisant des ensembles de classificateurs de type Fuzzy-ARTMAP probabilistes, générés et mis à jour à l’aide d’une stratégie basée sur une optimisation par essaims de particules dynamiques, et utilisant la distance de Hellinger entre histogrammes pour détecter des changements. Les simulations réalisées sur la base de donnée de vidéo-surveillance Faces in Action (FIA) montrent que le système proposé permet de maintenir un haut niveau de performance dans le temps, tout en limitant la corruption de connaissance. Il montre des performances de classification supérieure à un système similaire passif (sans détection de changement), ainsi qu’a des systèmes de référence de type kNN probabiliste, et TCM-kNN.

Au Chapitre 4, une évolution du système présenté au Chapitre 3 est proposée, intégrant des mécanismes permettant d’adapter dynamiquement le comportement du système aux conditions d’observation changeantes en mode opérationnel. Une nouvelle règle de fusion basée sur de la pondération dynamique est proposée, assignant à chaque classificateur un poids proportionnel à son niveau de compétence estimé vis-à-vis de chaque image à classifier. De plus, ces compétences sont estimées à l’aide des modèles de concepts utilisés en apprentissage pour la détection de changement, ce qui permet un allègement des ressources nécessaires en mode opérationnel. Une évolution de l’implémentation proposée au Chapitre 3 est présentée, dans laquelle les concepts sont modélisés à l’aide de l’algorithme de partitionnement Fuzzy C-Means, et la fusion de classificateurs réalisée avec une moyenne pondérée. Les simulation expérimentales avec les bases de données de vidéo-surveillance FIA et Chokepoint montrent que la méthode de fusion proposée permet d’obtenir des résultats supérieurs à la méthode de sélection dynamique DSOLA, tout en utilisant considérablement moins de ressources de calcul. De plus, la méthode proposée montre des performances de classification supérieures aux systèmes de référence de type kNN probabiliste, TCM-kNN et Adaptive Sparse Coding.

Titre traduit

Ensembles de classificateurs adaptatifs pour la reconnaissance de visage en vidéo-surveillance

Résumé anglais

In the past decades, face recognition (FR) has received a growing attention in security applications such as intelligent video surveillance (VS). Embedded in decision support tools, FR allows to detect the presence of individuals of interest in video streams in a discrete and nonintrusive way, which is of a particular interest for applications such as watchlist screening, search and retrieval or face re-identification. However, recognizing faces corresponding to target individuals remains a challenging problem in VS. FR systems are usually presented with videos exhibiting a wide range of variations caused by uncontrolled observation conditions, most notably in illumination condition, image resolution, motion blur, facial pose and expression. To perform recognition, facial models of target individuals are typically designed with a limited number of reference stills or videos captured during an enrollment process, and these variations contribute to a growing divergence between these models and the underlying data distribution. Although facial models can be adapted when new reference videos that may become available over time, incremental learning with faces captured under different conditions remains challenging, as it may lead to knowledge corruption. Furthermore, only a subset of this knowledge may be relevant to classify a given facial capture, and relying on information related to different capture conditions may even deteriorate system performance.

In this thesis, a new framework is proposed for the automatic detection of individuals of interest for VS applications. A human-centric scenario is considered, where a FR system is Embedded in a decision support tool that alerts an analyst to the presence of individuals of interest in multiple video feeds. Individuals can be added or removed from the system by the analyst, and their facial models can be refined over time with new reference sequences. In this framework, the use of concept change detection is proposed to guide an ensemble learning strategy. Each enrolled individual is modeled by a dedicated ensemble of two-class classifiers, each one specialized in a different conditions detected in reference sequences. In addition, this Framework allows for a dynamic adaptation of its behavior to changing capture conditions during operations. A dynamic ensemble fusion rule is proposed, relying on concept models to estimate the relevance of each classifier w.r.t. each operational input. Finally, system decisions are accumulated over tracks following faces across consecutive frames, to provide robust spatio-temporal recognition.

In Chapter 2, concept change detection is first investigated to reduce the growth in complexity of a self-updating template-matching system for FR in video. A context-sensitive approach is proposed for self-updating, where galleries of reference images are only updated with highlyconfident captures exhibiting significant changes in capture conditions. Proof of concept experiments have been conducted with a standard template matching system detecting changes in illumination conditions, using thee publicly-available face databases. Simulation results indicate that the proposed approach allows to maintain system performance while mitigating the growth in system complexity. It exhibits the level of performance than a regular self-updating template matching system, with gallery sizes reduced by half.

In Chapter 3, a new framework for an adaptive multi-classifier system is proposed for FR in VS. It is comprised of an ensemble of incremental learning classifiers per enrolled individual, and relies on concept change detection to refine facial models with new reference data available over time while mitigating knowledge corruption. An hybrid strategy is proposed, where individual-specific ensembles are only augmented with new classifiers when an abrupt change is detected in reference data. When a gradual change is detected, knowledge about corresponding concepts is refined through incremental update of corresponding classifiers. For proof of concept experiments, a particular implementation is proposed, using ensembles of probabilistic Fuzzy-ARTMAP classifiers generated and updated with dynamic Particle Swarm Optimization, and the Hellinger Drift Detection Method for change detection. Experimental results with the FIA video surveillance database indicate that the proposed framework allows to maintain system performance over time, effectively mitigating the effects of knowledge corruption. It exhibits higher classification performance than a similar passive system, and reference probabilistic kNN and TCM-kNN systems.

In Chapter 4, an evolution of the framework presented in Chapter 3 is presented, that allows to adapt system behavior to changing operating conditions. A new dynamic weighting fusing rule is proposed for ensembles of classifiers, where each classifier is weighted by its competence to classify each operational input. Furthermore, to provide a lightweight competence estimation that doesn’t interfere with live operations, classifier competence is estimated from the concept models used for change detection during training. An evolution of the particular implementation presented in Chapter 3 is proposed, where concept models are estimated with the Fuzzy C-Means clustering algorithm, and ensemble fusion is performed through dynamic weighted score-average. Experimental simulations with the FIA and ChokePoint videosurveillance datasets shows that the proposed dynamic fusion method provides a higher classification performance than the DS-OLA dynamic selection method, for a significantly lower computational complexity. In addition, the proposed system exhibits higher performance than reference probabilistic kNN, TCM-kNN and Adaptive Sparse Coding systems.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment of the requirements for the degree of doctor of philosophy". Bibliographie : pages 181-190.
Mots-clés libres: Reconnaissance des visages (Informatique) Systèmes adaptatifs (Informatique) Apprentissage automatique. Vidéosurveillance. Identification biométrique. changement, classificateur, détection, dynamique, fusion, multi, multi-classificateur, apprentissage incrémental, détection de changement, sélection et fusion dynamique
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Granger, Éric
Co-directeurs de mémoire/thèse:
Co-directeurs de mémoire/thèse
Sabourin, Robert
Programme: Doctorat en génie > Génie
Date de dépôt: 02 déc. 2015 16:39
Dernière modification: 02 déc. 2015 16:39
URI: http://espace.etsmtl.ca/id/eprint/1571

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...