Local quality-based matching of faces for watchlist screening applications

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Amara, Ibtihel (2016). Local quality-based matching of faces for watchlist screening applications. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (7MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (792kB) \| Prévisualisation

Résumé

Video surveillance systems are often exploited by safety organizations for enhanced security and situational awareness. A key application in video surveillance is watchlist screening where target individuals are enrolled to a still-to-video Face Recognition (FR) system using single still images captured a priori under controlled conditions.

Watchlist Screening is a very challenging application. Indeed, the latter must provide accurate decisions and timely recognition using limited number of reference faces for the system’s enrolment. This issue is often called the "Single Sample Per Person" (SSPP) problem. Added to that, uncontrolled factors such as variations in illumination pose and occlusion is unpreventable in real case video surveillance which causes the degradation of the FR system’s performance. Another major problem in such applications is the camera interoperability. This means that there is a huge gap between the camera used for taking the still images and the camera used for taking the video surveillance footage in terms of quality and resolution. This issue hinders the classification process then decreases the system‘s performance.

Controlled and uniform lighting is indispensable for having good facial captures that contributes in the recognition performance of the system. However, in reality, facial captures are poor in illumination factor and are severely affecting the system’s performance. This is why it is important to implement a FR system which is invariant to illumination changes. The first part of this Thesis consists in investigating different illumination normalization (IN) techniques that are applied at the pre-processing level of the still-to-video FR. Afterwards IN techniques are compared to each other in order to pinpoint the most suitable technique for illumination invariance. In addition, patch-based methods for template matching extracts facial features from different regions which offers more discriminative information and deals with occlusion issues. Thus, local matching is applied for the still-to-video FR system. For that, a profound examination is needed on the manner of applying these IN techniques. Two different approaches were conducted: the global approach which consists in performing IN on the image then performs local matching and the local approach which consists in primarily dividing the images into non overlapping patches then perform on individually on each patch each IN technique. The results obtained after executing these experiments have shown that the Tan and Triggs (TT) and Multi ScaleWeberfaces are likely to offer better illumination invariance for the still-to-video FR system. In addition to that, these outperforming IN techniques applied locally on each patch have shown to improve the performance of the FR compared to the global approach.

The performance of a FR system is good when the training data and the operation data are from the same distribution. Unfortunately, in still-to-video FR systems this is not satisfied. The training data are still, high quality, high resolution and frontal images. However, the testing data are video frames, low quality, low resolution and varying head pose images. Thus, the former and the latter do not have the same distribution. To address this domain shift, the second part of this Thesis consists in presenting a new technique of dynamic regional weighting exploiting unsupervised domain adaptation and contextual information based on quality. The main contribution consists in assigning dynamic weights that is specific to a camera domain.This study replaces the static and predefined manner of assigning weights. In order to assess the impact of applying local weights dynamically, results are compared to a baseline (no weights) and static weighting technique. This context based approach has proven to increase the system’s performance compared to the static weighting that is dependent on the dataset and the baseline technique which consists of having no weights.

These experiments are conducted and validated using the ChokePoint Dataset. As for the performance of the still-to-video FR system, it is evaluated using performance measures, Receiver operating characteristic (ROC) curve and Precision-Recall (PR) curve analysis.

Titre traduit

Appariement local des modèles de visages basée sur la qualité de l'image en vidéo surveillance

Résumé traduit

Les systèmes de vidéo surveillance occupent une place importante dans les organisations publiques et privées. En effet, leur utilisation se répend grâce à la démocratisation des appareils peu coûteux de vidéo surveillance. Une des applications importantes est la reconnaissance d’un individu appartenant à une liste noire (watchlist screening). Ce qui distingue cette application des autres systèmes de reconnaissance de visage (RV) en vidéo surveillance est le fait que les suspects sont abonnés au système de RV à partir d’une seule image statique.

La reconnaissance d’un individu appartenant à une liste noire utilise un nombre limité d’images de références (une seule image par personne dans notre situation) pour construire la galerie des modèles de visages. Ces derniers sont une série de représentation (formes, paramètres ou vecteurs caractéristiques) permettant de décrire un visage. Ce nombre limité d’informations rend le système de RV vulnérable et incapable de donner une décision correcte. Ce problème est appelé « seule échantillon par personne » (single sample per personne). Par ailleurs, on trouve aussi la présence des variations incontrôlables au niveau des captures de visages tels que les variations d’éclairage, un effet de flou et les changements de position de tête. En outre, parmi les difficultés qu’on trouve pour un système de RV, plus particulièrement pour les applications de RV dans une liste noire, est la différence au niveau de caméras utilisées : les images capturées pour les références sont souvent de haute qualité, tandis que celles capturées de la scène de surveillance sont souvent des images faibles en résolution et bruitées.

Il est certain qu’un éclairage uniforme est indispensable pour avoir de bonnes captures de visages. Néanmoins, dans un cas réel de vidéo surveillance, les visages capturés sont pauvres en illumination ce qui peut dégrader sévèrement la performance du système de RV. Pour cette raison, la première partie de ce mémoire consiste à explorer les différentes techniques de normalisation d’illumination qui seront appliquées au niveau du prétraitement du notre système de RV. Ensuite, une comparaison entre ces techniques de normalisation est effectuée pour pouvoir désigner la technique qui offre une meilleure invariance à l’illumination. La division en blocs des régions d’intérêt de visages pour l’appariement des modèles est adoptée dans ce travail car elle permet l’extraction des caractéristiques de manière discriminative. D’ailleurs, ces informations spatiales donnent plus de détails sur les différentes parties du visage. La division en bloc permet donc d’éviter les problèmes d’occlusions. Une étude approfondie est menée sur la manière d’appliquer ces techniques de normalisation sur l’image. Deux approches différentes sont comparées : l’approche globale dans laquelle on applique les techniques sur toute l’image et l’approche locale qui consiste à isoler les blocs, puis à appliquer sur chacun de ces blocs une technique de normalisation. Les résultats expérimentaux ont montré que l’approche Tan and Triggs (TT) et Multi-ScaleWeberfaces (MSW) offrent une meilleure invariance d’illumination pour les systèmes de RV. En plus, ces deux techniques de normalisation appliquées localement ont aussi contribué à l’amélioration de la performance du système par rapport à l’approche globale.

Pour avoir un bon fonctionnement du système de RV, il faut que les données utilisées pour l’apprentissage et celles utilisées pour le test aient la même distribution. Dans notre application (RV dans une liste noire), les données pour l’apprentissage sont des images frontales, de haute qualité et haute résolution, alors que les données pour le test proviennent des vidéos de faible qualité, faible résolution et présentent des variations de position de tête. Pour surmonter ce décalage des domaines, on propose dans la deuxième partie de ce mémoire une nouvelle technique de pondération des régions locales tout en exploitant les concepts d’adaptation des domaines non supervisés (unsupervised domain adaptation) et les informations contextuelles avec les métriques de qualités d’images. La principale contribution est le calcul dynamique des pondérations qui sont spécifiques à une caméra (adaptation selon une vue de caméra). Cette étude contextuelle et adaptive selon les domaines offre une meilleure performance par rapport à la pondération statique et prédéfinie et par rapport aux systèmes sans pondération.

Ces expériences sont validées sur la base de données ChokePoint. Les performances du systèmes sont évaluées avec les mesures de performances, les courbes de Receiver operating characteristic (ROC) et les courbes de Precision-Recall.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment of the requirements for a master's degree with thesis in electrical engineering". Bibliographie : pages 138-153.
Mots-clés libres:	Reconnaissance des visages (Informatique) Vidéosurveillance. Vidéo Éclairage. Imagerie (Technique) Qualité de l'image. Appariement de gabarits (Traitement d'images) éclairage, illumination, normalisation, classification locale, adaptation des domaines, information contextuelle, appariement local des modèles, pondération dynamique, base de données chokePoint
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Granger, Éric
Codirecteur:	Codirecteur Hadid, Abdenour
Programme:	Maîtrise en ingénierie > Génie électrique
Date de dépôt:	17 févr. 2016 20:40
Dernière modification:	10 déc. 2016 17:08
URI:	https://espace.etsmtl.ca/id/eprint/1619

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt