La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Face recognition in video surveillance from a single reference sample through domain adaptation

Téléchargements

Téléchargements par mois depuis la dernière année

Bashbaghi, Saman (2017). Face recognition in video surveillance from a single reference sample through domain adaptation. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of BASHBAGHI_Saman.pdf]
Prévisualisation
PDF
Télécharger (3MB) | Prévisualisation
[thumbnail of BASHBAGHI_Saman-web.pdf]
Prévisualisation
PDF
Télécharger (694kB) | Prévisualisation

Résumé

Face recognition (FR) has received significant attention during the past decades in many applications, such as law enforcement, forensics, access controls, information security and video surveillance (VS), due to its covert and non-intrusive nature. FR systems specialized for VS seek to accurately detect the presence of target individuals of interest over a distributed network of video cameras under uncontrolled capture conditions. Therefore, recognizing faces of target individuals in such environment is a challenging problem because the appearance of faces varies due to changes in pose, scale, illumination, occlusion, blur, etc. The computational complexity is also an important consideration because of the growing number of cameras, and the processing time of state-of-the-art face detection, tracking and matching algorithms.

In this thesis, adaptive systems are proposed for accurate still-to-video FR, where a single (or very few) reference still or a mug-shot is available to design a facial model for the target individual. This is a common situation in real-world watch-list screening applications due to the cost and feasibility of capturing reference stills, and managing facial models over time. The limited number of reference stills can adversely affect the robustness of facial models to intra-class variations, and therefore the performance of still-to-video FR systems. Moreover, a specific challenge in still-to-video FR is the shift between the enrollment domain, where high-quality reference faces are captured under controlled conditions from still cameras, and the operational domain, where faces are captured with video cameras under uncontrolled conditions. To overcome the challenges of such single sample per person (SSPP) problems, 3 new systems are proposed for accurate still-to-video FR that are based on multiple face representations and domain adaptation. In particular, this thesis presents 3 contributions. These contributions are described with more details in the following statements.

In Chapter 3, a multi-classifier framework is proposed for robust still-to-video FR based on multiple and diverse face representations of a single reference face still. During enrollment of a target individual, the single reference face still is modeled using an ensemble of SVM classifiers based on different patches and face descriptors. Multiple feature extraction techniques are applied to patches isolated in the reference still to generate a diverse SVM pool that provides robustness to common nuisance factors (e.g., variations in illumination and pose). The estimation of discriminant feature subsets, classifier parameters, decision thresholds, and ensemble fusion functions is achieved using the high-quality reference still and a large number of faces captured in lower quality video of non-target individuals in the scene. During operations, the most competent subset of SVMs are dynamically selected according to capture conditions. Finally, a head-face tracker gradually regroups faces captured from different people appearing in a scene, while each individual-specific ensemble performs face matching. The accumulation of matching scores per face track leads to a robust spatio-temporal FR when accumulated ensemble scores surpass a detection threshold. Experimental results obtained with the Chokepoint and COX-S2V datasets show a significant improvement in performance w.r.t. reference systems, especially when individual-specific ensembles (1) are designed using exemplar-SVMs rather than one-class SVMs, and (2) exploit score-level fusion of local SVMs (trained using features extracted from each patch), rather than using either decision-level or feature-level fusion with a global SVM (trained by concatenating features extracted from patches).

In Chapter 4, an efficient multi-classifier system (MCS) is proposed for accurate still-to-video FR based on multiple face representations and domain adaptation (DA). An individual-specific ensemble of exemplar-SVM (e-SVM) classifiers is thereby designed to improve robustness to intra-class variations. During enrollment of a target individual, an ensemble is used to model the single reference still, where multiple face descriptors and random feature subspaces allow to generate a diverse pool of patch-wise classifiers. To adapt these ensembles to the operational domains, e-SVMs are trained using labeled face patches extracted from the reference still versus patches extracted from cohort and other non-target stills mixed with unlabeled patches extracted from the corresponding face trajectories captured with surveillance cameras. During operations, the most competent classifiers per given probe face are dynamically selected and weighted based on the internal criteria determined in the feature space of e-SVMs. This chapter also investigates the impact of using different training schemes for DA, as well as, the validation set of non-target faces extracted from stills and video trajectories of unknown individuals in the operational domain. The results indicate that the proposed system can surpass state-of-the-art accuracy, yet with a significantly lower computational complexity.

In Chapter 5, a deep convolutional neural network (CNN) is proposed to cope with the discrepancies between facial regions of interest (ROIs) isolated in still and video faces for robust still-to-video FR. To that end, a face-flow autoencoder CNN called FFA-CNN is trained using both still and video ROIs in a supervised end-to-end multi-task learning. A novel loss function containing a weighted combination of pixel-wise, symmetry-wise and identity preserving losses is introduced to optimize the network parameters. The proposed FFA-CNN incorporates a reconstruction network and a fully-connected classification network, where the former reconstructs a well-illuminated frontal ROI with neutral expression from a pair of low-quality non-frontal video ROIs and the latter is utilized to compare the still and video representations to provide matching scores. Thus, integrating the proposed weighted loss function with a supervised end-to-end training approach leads to generate high-quality frontal faces and learn discriminative face representations similar for the same identities. Simulation results obtained over challenging COX Face DB confirm the effectiveness of the proposed FFA-CNN to achieve convincing performance compared to current state-of-the-art CNN-based FR systems.

Titre traduit

Reconnaissance de visages en vidéosurveillance à partir d'un échantillon de référence unique à par l'adaptation de domaine

Résumé traduit

Au cours des dernières décennies, la reconnaissance de visage (RV) a connu une attraction importante dans de nombreuses applications, telles que l’application de la loi, la médecine légale, le contrôle d’accès, la sécurité de l’information et la vidéosurveillance, en raison de sa nature cachée et non intrusive. Les systèmes RV spécialisés pour la vidéosurveillance cherchent à détecter avec précision la présence d’individus d’intérêt sur un réseau distribué de cameras vidéo dans des conditions de capture incontrôlées. Par conséquent, reconnaître les visages des individus ciblés dans un tel environnement est un problème complexe parce que l’apparence des visages varie en raison des changements de pose, d’échelle, d’illumination, d’occlusion, de flou, etc. La complexité de calcul est également une considération importante en raison du nombre croissant de caméras, le temps de calcul des algorithmes de détection de visage, de suivi d’objet et de classification à la fine pointe de la technologie.

Dans cette thèse, des systèmes adaptatifs sont proposés pour une RV fidèle à la vidéo, où un seul (ou très peu) échantillon de références de visage est disponible pour concevoir un modèle de visage de chaque individu d’intérêt. Cette situation correspond à un mode d’utilisation reel et courant dans les applications de surveillance à partir d’une liste de contrôle en raison du coût de la capture d’images de référence, de leur et faisabilité ardue et de la gestion complexe des modèles de visage en évolution dans le temps. De plus, le nombre limité de references faciales peut avoir une incidence défavorable sur la robustesse des modèles de visages dû aux faibles variations intra classes de ceux-ci, ce qui affecte par conséquent la performance des systèmes de RV sur vidéos. En outre, un défi spécifique pour la RV de type image-à-video sont les différences perçues entre le domaine d’enregistrement, où les visages de référence de haute qualité sont acquises avec des conditions de capture contrôlées à partir de caméras fixes, et le domaine opérationnel, où les visages sont acquises à l’aide de caméras vidéo sujettes aux conditions de capture incontrôlées. Pour surmonter le défi introduit à partir d’un unique échantillon de visage par personne, 3 nouveaux systèmes sont proposés. Ceux-ci reposent sur des représentations multiples de visages et une adaptation de domaine pour assurer une RV fidèle à la vidéo. En particulier, cette thèse présentera 3 contributions qui seront sommairement présentées aux paragraphes qui suivront. Ces contributions seront décrites en plus grand details aux chapitres correspondants.

Au chapitre 3, une approche multi-classificateurs est proposée pour une RV image-à-vidéo robuste basée sur des représentations de visage multiples et diverses de la référence image unique d’un même individu. Lors de l’enregistrement d’un individu d’intérêt dans le système, le visage de référence unique est toujours modélisé en utilisant un ensemble de classificateurs SVM basés sur des descripteurs extraits à partir de subdivisions différentes du visage de l’individu. Plusieurs techniques d’extraction de caractéristiques sont appliquées aux subdivisions isolées dans l’image de référence pour générer un groupe de SVM diversifié qui fournit une robustesse contre les facteurs nuisibles courants (ex : variations d’éclairage et de pose). L’estimation des sous-ensembles de caractéristiques discriminantes, des paramètres des classificateurs, des seuils de décision et des fonctions de fusion d’ensemble est obtenue à l’aide d’une image de référence de haute qualité et d’un grand nombre de visages capturés dans une vidéo de qualité inférieure des individus non ciblés dans la scène. Lors de la mise en opération, le sousensemble de SVM le plus compétent est sélectionné dynamiquement en fonction des conditions de capture observées. Enfin, un algorithme de suivi de visage regroupe graduellement les visages capturés par personnes correspondantes apparaissant dans la scène, tandis que chaque ensemble spécifique à l’individu effectue une classification de visage. L’accumulation de scores correspondants par trajectoire de visage mène vers une RV spatio-temporelle robuste lorsque les scores d’ensemble cumulés dépassent un seuil de détection. Les résultats expérimentaux obtenus avec les bases de données Chokepoint et COX-S2V montrent une amélioration significative de la performance par rapport aux systèmes de référence, en particulier lorsque les ensembles spécifiques à chaque individu (1) sont conçus en utilisant des SVM exemplaires plutôt que des SVM à classe unique, et (2) exploitent la fusion au niveau des scores des SVM locaux (formés à l’aide des fonctionnalités extraites de chaque subdivision du visage), plutôt que d’utiliser soit la fusion au niveau de la décision ou au niveau des caractéristiques avec un SVM global (forms par une concaténation des descripteurs de caractéristiques extraits des subdivisions du visage).

Au chapitre 4, un système multi-classificateurs (SMC) efficace est proposé pour une RV fidèle à la vidéo en fonction des représentations multiples et de l’adaptation de domaine (AD). Un ensemble de classificateurs exemplaires SVM (e-SVM) par individu est ainsi conçu pour améliorer la robustesse face aux variations intra classes. Lors de l’enregistrement d’un individu cible dans le système, un ensemble de classificateurs est encore une fois utilisé pour modéliser chaque référence unique, où les descripteurs de visage multiples et les sous-espaces de caractéristiques sélectionnées aléatoirement permettent de générer un groupe diversifié de classificateurs pour chaque subdivision de visage. Pour adapter ces ensembles au domaine opérationnel, les e-SVM sont entraînés à l’aide des subdivisions de visage étiquetées et extraites de l’image de référence de l’individu d’intérêt contre celles extraites des images fixes de référence correspondant à plusieurs autres individus non ciblées, en plus des subdivisions de visages non étiquettées extraites à partir des trajectoires vidéos capturées par des caméras de surveillance. Pendant la phase opérationnelle, les classificateurs les plus compétents par visage de test donné sont sélectionnés dynamiquement et pondérés en fonction des critères internes predetermines avec l’espace de caractéristiques des e-SVM. Ce chapitre présentera également une étude de l’impact associée à l’utilisation de différents schémas d’entraînement pour l’AD, ainsi que l’utilisation d’un ensemble de validation de visages formé des images fixes d’individus non ciblées et des trajectoires vidéos d’individus inconnus dans le domaine opérationnel. Les résultats indiquent que le système proposé peut dépasser la précision des techniques utilisées dans la littérature, mais avec une complexité de calcul nettement inférieure.

Au chapitre 5, un réseau de neurones convolutif (RNC) profond est proposé pour faire face aux divergences observées entre les régions d’intérêt du visage isolées dans les images fixes et celles sur vidéo pour une RV robuste. À cette fin, un auto-encodeur de visage RNC appelé FFACNN est entraîné à l’aide de régions d’intérêt fixes et sur vidéos à l’aide d’un apprentissage multi-tâches supervisé de bout en bout du réseau. Une nouvelle fonction de coût combinant une pondération des coûts liés aux pixels, à la symétrie et la conservation de l’identité est introduite pour optimiser les paramètres de ce réseau de neurones. Le système FFA-CNN proposé integer à la fois un réseau de reconstruction et un réseau de classification entièrement connecté, où le premier reconstruit une région d’intérêt frontale bien éclairée avec une expression de visage neutre à partir d’une paire de régions d’intérêt vidéo non frontales de basse qualité, et où le second est utilisé pour comparer les représentations d’image fixe et sur vidéo pour fournir des scores de classification. Ainsi, l’intégration de la fonction de perte pondérée proposée avec une approche d’apprentisage supervisé de bout en bout permet de générer des visages frontaux de haute qualité et d’apprendre des représentations de caractéristiques de visage discriminatives similaires pour de mêmes identités données. Les résultats de simulation obtenus avec la competition COX Face DB confirment l’efficacité de la technique FFA-CNN proposée pour obtenir des performances convaincantes par rapport aux systèmes RV de type RNC dans la littérature.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Thesis presented to École de technologie supérieure in partial fulfillment for the degreee of doctor of philosophy". Bibliographie : pages 133-143.
Mots-clés libres: Reconnaissance des visages (Informatique) Vidéosurveillance. Systèmes adaptatifs (Informatique) Appariement de gabarits (Traitement d'images) Systèmes de classeurs. Réseaux neuronaux (Informatique) Apprentissage automatique. adaptation, classificateur, domaine, multi, échantillon unique par personne, méthodes par ensembles, SVMs exemplaires, méthodes de sous-espace aléatoires, sélection dynamique de classificateur, architectures d’apprentissage profond, réseaux de neurones convolutifs
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Granger, Éric
Codirecteur:
Codirecteur
Sabourin, Robert
Bilodeau, Guillaume-Alexandre
Programme: Doctorat en génie > Génie
Date de dépôt: 05 janv. 2018 16:27
Dernière modification: 15 janv. 2018 21:03
URI: https://espace.etsmtl.ca/id/eprint/1980

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt