Mokhayyeri, Faniya (2020). Domain-specific face synthesis for still-to-video face recognition. Thèse de doctorat électronique, Montréal, École de technologie.
Prévisualisation |
PDF
Télécharger (6MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (2MB) | Prévisualisation |
Résumé
Face recognition (FR) has attracted a considerable amount of interest from both academia and industry due to the wide range of applications as found in surveillance and security. Despite the recent progress in computer vision and machine learning, designing a robust system for video-based FR in real-world surveillance applications has been a long-standing challenge. One key issue is the visual domain shift between faces from source domain, where high-quality reference faces are captured under controlled conditions from still cameras, and those from the target domain, where video frames are captured with video cameras under uncontrolled conditions with variations in pose, illumination, expression, etc. The appearance of the faces captured in the videos corresponds to multiple non-stationary data distributions can differ considerably from faces captured during enrollment. Another challenge in video-based FR is the limited number of reference stills that are available per target individual to design facial models. This is a common scenario in security and surveillance applications, as found in, e.g., biometric authentication and watch-list screening. The performance of video-based FR systems can decline significantly due to the limited information available to represent the intra-class variations seen in video frames. This thesis proposes 3 data augmentation techniques based on face synthesis to overcome the challenges of such visual domain shift and limited training set. The main advantage of the proposed approaches is the ability to provide a compact set that can accurately represent the original reference face with relevant intra-class variations corresponding to the capture conditions in the target domain. In particular, this thesis presents new systems for domain-invariant still-to-video FR that are based on augmenting the reference gallery set synthetically which are described with more details in the following.
As a first contribution, a face synthesis approach is proposed that exploits the representative intra-class variational information available from the generic set in target domain. The proposed approach, called domain-specific face synthesis, generates a set of synthetic faces that resemble individuals of interest under the capture conditions relevant to the target domain. In a particular implementation based on sparse representation, the generated synthetic faces are employed to form a cross-domain dictionary that accounts for structured sparsity where the dictionary blocks combine the original and synthetic faces of each individual. Experimental results obtained with videos from the Chokepoint and COX-S2V datasets reveal that augmenting the reference gallery set of still-to-video FR systems using the proposed face synthesizing approach can provide a significantly higher level of accuracy compared to state-of-the-art approaches.
As a second contribution, a paired sparse representation model is proposed allowing for joint use of generic variational information and synthetic face images. The proposed model, called synthetic plus variational model, reconstructs a probe image by jointly using (1) a variational dictionary designed with generic set and (2) a gallery dictionary augmented with a set of synthetic images generated over a wide diversity of pose angles. The augmented gallery dictionary is then encouraged to share the same sparsity pattern with the variational dictionary for similar pose angles by solving a simultaneous sparsity-based optimization problem. Experimental results obtained on Chokepoint and COX-S2V datasets, indicate that the proposed approach can outperform state-of-the-art methods for still-to-video FR with a single sample per person.
As a third contribution, a deep Siamese network, referred as SiamSRC, is proposed where performs face matching using sparse coding. The proposed approach extends the gallery using a set of synthetic face images and exploits sparse representation with a block structure for pairwise face matching that finds the representation of a probe image that requires the minimum number of blocks from the gallery. Experimental results obtained using the Chokepoint and COX-S2V datasets suggest that the proposed SiamSRC network allows for efficient representation of intra-class variations with only a moderate increase in time complexity. Results show that the performance of still-to-video FR systems based on SiamSRC can improve through face synthesis, with no need to collect a large amount of training data.
Results indicate that our proposed techniques which are the integration of face synthesis and generic learning can effectively resolve the challenges of the visual domain shift and limited number of reference stills and provide a higher level of accuracy compared to state-of-the-art approaches under unconstrained surveillance conditions.
Titre traduit
Génération de visages synthétiques pour la reconnaissance de visages sur vidéo
Résumé traduit
La reconnaissance faciale (FR) en vidéo continue de susciter un intérêt considérable de la part des milieux universitaires et de l’industrie en raison du large éventail d’applications dans les domaines de la surveillance et de la sécurité. Malgré les progrès récents en matière de vision par ordinateur et d’apprentissage machine, la conception d’un système robuste pour de reconnaissance faciale en temps réel pour les applications de surveillance reste un défi important. Un problème clé est la divergence entre les visages du domaine source, où les visages de référence sont de haute qualité et capturés dans des conditions contrôlées par des caméras fixes, et ceux du domaine cible, où les images vidéo sont capturées avec des caméras vidéo dans des conditions non contrôlées avec des variations de pose, éclairage, flou, etc. L’apparence des visages capturés dans les vidéos correspond à de multiples distributions de données pouvant différer considérablement des visages initialement capturés. Un autre défi de la vidéo est le nombre limité de photos de référence disponibles par personne cible pour la conception de modèles de visage. Ce scénario est courant dans les applications de sécurité et de surveillance basées sur la vidéo, comme par exemple l’authentification biométrique et le triage avec une liste de surveillance. Les performances des systèmes vidéos peuvent diminuer considérablement en raison de la quantité limitée d’information disponible pour représenter les variations intra-classe observées dans les images.
Cette thèse propose des techniques d’augmentation des données basées sur la synthèse des visages pour surmonter les défis posés par la variation des visages et le nombre limité d’images d’entraînement. Le principal avantage des approches proposées est la possibilité de fournir un ensemble compact capable de représenter avec précision le visage de référence d’origine avec des variations pertinentes aux condition de capture dans le domaine cible. En particulier, cette thèse présente 3 nouveaux systèmes pour une reconnaissance faciale robuste en vidéo qui sont basés sur l’augmentation synthétique des galeries de référence.
Dans une première contribution, une approche de synthèse de visage exploitant les informations de variation représentatives intra-classe du domaine cible est proposée. Cette approche, appelée synthèse de visages spécifique à un domaine, génère un ensemble compact de visages synthétiques qui ressemblent à des individus d’intérêt dans les conditions de capture pertinentes pour le domaine cible. Dans une implémentation particulière basée représentation clairsemée, les visages synthétiques générés sont utilisés pour former un dictionnaire interdomaine tenant compte de la structure de la clarté, où les blocs de dictionnaire combinent les visages d’origine et synthétique de chaque individu. Les résultats expérimentaux obtenus avec des vidéos des bases de données Chokepoint et COX-S2V révèlent qu’augmenter le nombre de galeries de référence de systèmes la FR en vidéo en utilisant l’approche proposée par une approche synthèse de visage peut fournir un niveau de précision nettement supérieur à celui de l’état de l’art.
Dans un deuxième temps, nous proposons un modèle de représentation par paires fragmentées permettant l’utilisation d’informations conjointe variationnelles et d’images de visage synthétiques. Le modèle proposé, appelé modèle de synthèse plus variationnel, reconstruit une image sonde en utilisant conjointement (1) un dictionnaire variationnel conçu avec un ensemble générique et (2) un dictionnaire de galerie complété par un ensemble d’images synthétique générées sur une grande diversité des angles de pose. Le dictionnaire de galerie augmentée est ensuite encouragé à partager le même motif de parcimonie avec le dictionnaire de variation pour d’angles de pose similaires en résolvant un problème d’optimisation simultané basé sur la parcimonie. Les résultats expérimentaux obtenus sur les données Chokepoint et COX-S2V, indiquent que l’approche proposée peut surpasser les méthodes représentation clairsemé de pointe pour la FR en vidéo continue avec un seul échantillon par personne.
Troisièmement, un réseau siamois profond, appelé SiamSRC, est proposé pour effectuer une mise en correspondance des visages à l’aide d’une représentation clairsemée. L’approche proposée étend la galerie en utilisant un ensemble d’images de visage synthétiques et exploite la représentation clairsemé avec une structure de blocs pour la correspondance des visages par paires qui trouve la représentation d’une image sonde nécessitant le nombre minimal de blocs de la galerie. Les résultats expérimentaux obtenus avec les bases de données Chokepoint et COX-S2V suggèrent que le réseau SiamSRC proposé permet une représentation efficace des variations intra-classe avec une augmentation modérée de la complexité temporelle. Les résultats ont montré que les performances des systèmes d’images fixes à vidéo continue basées sur SiamSRC peuvent être améliorées grâce à la synthèse des visages, sans qu’il soit nécessaire de collecter une grande quantité de données d’entraînement.
Des expérimentations approfondies ont été menées sur deux ensembles de données de surveillance disponibles au public. Les résultats ont indiqué que la synthèse de visage à elle seule ne peut pas résoudre efficacement les défis du échantillons limités et les problèmes de changement de domaine visuel. Les techniques proposées, à savoir l’intégration de la synthèse des visages et de l’apprentissage générique, peuvent fournir un niveau de précision supérieur à celui des approches de pointe avec un seul échantillon par personne.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 153-162). |
Mots-clés libres: | Reconnaissance de visage, synthèse de visage, reconstruction du visage en 3D, surveillance vidéo, adaptation de domaine, représentation clairsemée, apprentissage générique |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Granger, Éric |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 30 juin 2020 14:30 |
Dernière modification: | 30 juin 2020 14:30 |
URI: | https://espace.etsmtl.ca/id/eprint/2494 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |