Adaptation of deep siamese neural networks for video face recognition

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Lemoine St-André, Hugo (2021). Adaptation of deep siamese neural networks for video face recognition. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[thumbnail of LEMOINE_ST_ANDRÉ_Hugo.pdf]

Prévisualisation

PDF
Télécharger (4MB) | Prévisualisation

Résumé

Face recognition for static face images has been well explored and is generally very successful, but video face images taken in unconstrained environments pose more difficult challenges as the image samples suffer from more issues such as pose variation, blur, illumination variation, lower resolution and lower quality. This thesis, addresses face recognition for video-based applications. First, we explore face re-identification for video surveillance applications, attempting pairwise face matching to identify a person in a database using a deep Siamese network. Next, we explore video description, attempting to capture the distribution of the identity samples from a movie using the same Siamese network with clustering techniques. To address this problem, other researchers have labeled a large amount of data in order to enhance their model, which is problematic as it is time- and resource-intensive. The objective is to a adapt deep Siamese network trained on public datasets of static face images to the unconstrained video domain in an unsupervised manner, removing the need to label data manually. To this end, we use triplet loss to learn and adapt discriminative face features in a practical manner for real-world video applications.

Recentwork in video surveillance has used supervised adaptation to close the domain gap between static images and videos. Other researchers have used weakly-supervised or unsupervised domain adaptation, but there are very few works based on a deep Siamese network. These require the target domain to be either a closed-set problem or have a very large amount of unlabeled data, both of which impractical. In this thesis, we introduce an unsupervised domain adaptation named Dual-Triplet learning which is a variant of triplet learning. It simultaneously uses triplets from source and target domains to adapt robust static representation to newly installed video sources using only a few unlabeled samples. The methodology is validated with the COX-S2V dataset whith which we are able to get 3% to 7% gain in classification accuracy.

In regards to video description, we intend to use a deep Siamese network with tracklet information to group face samples of the same identity. With such a tool, it will be possible to describe faces on any video automatically. To this end, robust static face CNN backbones are adapted to a movie using unlabeled data from the movie itself. By using spatio-temporal information (tracklets) of video samples, it is possible to produce positive and negative pairs for triplet loss training. With this, we attempt self-supervised learning with a deep Siamese network, using the first episode of the television series The Big Bang Theory, to learn robust and discriminative features of face samples from the movie. We show that self-supervised learning can enhance the clustering V measure by 15%. We also show that with a sufficient number of samples, the tracklets can be used as a single representation to perform faster and more accurate clustering.

Titre traduit

Adaptation de réseaux de neurones profonds siamois pour la reconnaisance de visage dans des vidéo

Résumé traduit

La reconnaissance faciale pour des images statiques de visage a été très explorée et généralement avec succès, mais des images vidéo de visages capturés dans des environnements non contraints pose des défis plus difficiles puisque les images souffrent plus de variation de pose, de flou, d’illumination, de basse résolution et de basse qualité. Dans cette thèse, nous adressons la reconnaissance faciale pour des applications vidéo. Premièrement, nous explorons la reidentification faciale pour des applications vidéos en essayant de comparer des paires de visages pour identifier une personne dans une base de données en utilisant un réseau Siamois profond. Après, nous explorons la description vidéo en essayant de capturer la distribution des identités d’un film en utilisant un réseau Siamois avec une technique de catégorisation. Pour adresser ce problème, d’autres recherches utilisent une quantité large de données annotées pour entraîner leurs modèles, ce qui est problématique puisque l’annotation est couteuse en temps et ressources. L’objectif est d’adapter un réseau Siamois profond entrainé avec des bases de données publiques composées d’images statiques de visage à un domaine vidéo non contraint d’une manière non supervisée, ce qui enlèverait la nécessité d’annoter manuellement. À cette fin, nous utilisons triplet-loss pour apprendre et adapter une représentation faciale discriminante d’une manière pratique pour des applications réelles.

Des recherches récentes en vidéo surveillance utilisent de l’adaptation supervisé pour réduire l’écart entre les images statiques et vidéos. D’autres recherches utilisent de l’adaptation de domaine faiblement-supervisé ou non supervisé, mais peu utilisent des réseaux Siamois profonds. Ceux-ci requièrent que le domaine ciblé soit un problème avec un nombre de classes prédéterminé ou d’avoir une grande quantité de données non annotées ce qui n’est pas pratique. Dans cette thèse, nous introduisons l’apprentissage par duo de triplet qui est une variante de l’apprentissage par triplet. Nous utilisons simultanément des triplets du domaine source et vidéo pour adapter les représentations robustes d’image statiques à une source vidéo nouvellement installée en utilisant peu de données non annotées. La méthodologie est validée avec la base de donnée COX-S2V où nous obtenons un gain en précision de classification de 3% à 7%.

En ce qui concerne la description vidéo, nous utilisons des réseaux Siamois profonds avec l’information de tracklet pour grouper les visages de même identité. Avec un tel outil, il serait possible de décrire des visages de n’importe quel vidéo automatiquement. À cette fin, nous adaptons un CNN robuste de visage statique à un film en utilisant les visages non annotés de ce même film. En utilisant l’information spatio-temporelle de la vidéo, il est possible de produire des pairs de visage pour l’apprentissage par triplet. Avec cela, nous essayons l’apprentissage auto-supervisé avec un réseau Siamois profond, utilisant le premier épisode de la série télévisée The Big Bang Theory, pour apprendre des caractéristiques robustes des visages présents dans le film. Nous démontrons que l’apprentissage auto-supervisé peut améliorer le score de regroupement (mesure V) de 15%. De plus, avec un nombre suffisant de données, les trackets peuvent être utilisés comme représentation simple pour faire du regroupement plus rapidement et précisément.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure In partial fulfillment for a master’s degree With thesis in system engineering". Comprend des références bibliographiques (pages 73-75).
Mots-clés libres:	reconnaissance faciale, apprentissage profond, réseau Siamois, vidéo surveillance, vidéo description
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Granger, Éric
Codirecteur:	Codirecteur Dahmane, Mohamed
Programme:	Maîtrise en ingénierie > Technologie des systèmes
Date de dépôt:	24 janv. 2022 16:58
Dernière modification:	24 janv. 2022 16:58
URI:	https://espace.etsmtl.ca/id/eprint/2851

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt