Remigereau, Félix (2023). Multi-target domain adaptation for person re-identification. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (2MB) | Prévisualisation |
Résumé
Re-identification of individuals (ReID) involves matching images of pedestrians captured by a network of multiple cameras that do not capture conditions or fields of view. Given a query image captured for an individual, the system must automatically find all other images of the same individual in a pedestrian image gallery. Several factors make this task difficult, such as the difference in camera viewpoints, visual occlusions, pose, and illumination variations over time. This research area has important applications in the automation of video surveillance monitoring and biometrics. Recent advances in deep learning and the availability of large annotated databases have enabled modern systems to train efficiently and achieve very high accuracy.
Although these solutions work well with sufficient training data captured for a given camera network, also known as a "domain", performance drops significantly when processing images from another operational domain. In the application of a ReID system, we consider two types of data: source data coming from a controlled environment that is labeled, and target data, generally unlabeled, coming from the operational domain in which the system is deployed. Indeed, the different domains diverge because of their different characteristics, such as camera position, image resolution, lighting, and background, to name a few. Since the cost of generating a new labeled dataset for each new operational domain is very high, unsupervised domain adaptation (UDA) techniques have been developed to leverage data from a labeled source dataset and an unlabeled target dataset to improve performance on the operational data. However, another problem arises when multiple target domains are present. Each target domain diverges in its specific characteristics and requires a unique adaptation. Adapting a customized ReID model for each target domain is a simple but impractical solution in real applications where computing resources are limited. On the other hand, training a single model on all targets simultaneously can reduce accuracy due to insufficient model capacity, when dealing with highly varied data. The optimal solution must therefore have high accuracy on each target while minimizing the memory complexity of the resulting model.
Very few works tackle multi-target unsupervised domain adaptation (MTDA) methods for person ReID. These methods are often not accurate and do not consider the complexity of the solution during evaluation. The success of a system depends on the data used, the capacity of the CNN, and the MTDA method employed. Therefore, it is essential to consider the complexity of the trained CNN as well as the datasets used when evaluating an MTDA method.
This work tackles the MTDA problem for person ReID using Knowledge Distillation (KD). The objective is to train a compact CNN model capable of matching two pedestrian images captured by different cameras. The Deep Learning (DL) model will be able to perform this task on images from several target domains. We evaluate the solution according to (1) the accuracy of the model when trained for many target domains, and (2) the time and memory complexity during inference. In this dissertation, we present two main contributions related to these criteria.
The first contribution, presented in Chapter 4, is the development of a knowledge distillationbased MTDA technique for person ReID entitled KD-ReID. Using a cost function tailored specifically for ReID, we adapt a set of "Teacher" CNN models, each one to a specific target domain, and then distill the knowledge to a single "Student" CNN model. The resulting model is accurate for all target domains while remaining low cost for a real-world application. We show that this approach outperforms existing state-of-the-art approaches in terms of accuracy and model complexity. Furthermore, we show that KD-ReID is very flexible, allowing us to use Teacher models of different architecture and training techniques. This flexibility reinforces the potential of KD-ReID to be used in real applications. This contribution has been accepted and published in the IEEE International Conference on Image Processing 2022 (ICIP2022).
The second contribution, presented in Chapter 5, is a comprehensive comparative study of KD-MTDA techniques, to maximize the relationship between system complexity and accuracy for the ReID task. Using a compact model, we adapt various techniques to our MTDA problem. More precisely, we analyze and compare four techniques: domain-specific BN layers, multibranch model, domain adapters, and distillation adapters. The techniques studied aim to increase accuracy on multiple targets at the cost of increasing the number of model parameters. In addition to allowing optimization of our solution in a resource-constrained situation, this study allows us to draw important conclusions on the trade-off between the accuracy of specialized MTDA methods for our task.
Titre traduit
Adaptation de domaine à cible multiple pour la réidentification de personnes
Résumé traduit
La ré-identification de personnes (ReID) consiste à faire correspondre des images de piétons capturées par un réseau de caméras multiples qui ne partagent pas les conditions de capture et dont les champs de vision ne s’entrecroisent pas. À partir d’une image de requête, dites "query", capturée pour un individu, le système doit automatiquement trouver toutes les autres images du même individu dans une galerie d’images de piétons. Plusieurs facteurs rendent cette tâche difficile, tels que la différence entre les points de vue des caméras, les occlusions visuelles, la pose du piéton et les variations d’éclairage de la scène. Ce domaine de recherche a des applications importantes dans l’automatisation de la surveillance vidéo et de la biométrie. Les progrès récents en matière d’apprentissage profond et la disponibilité de grandes bases de données annotées ont permis aux systèmes modernes de s’entraîner efficacement et d’atteindre un niveau de précision très élevé.
Si ces solutions fonctionnent bien avec suffisamment de données d’entraînement capturées pour un réseau de caméras donné, également connu sous le nom de "domaine", les performances chutent de manière significative lors du traitement d’images provenant d’un autre domaine opérationnel. Dans l’application d’un système ReID, nous considérons deux types de données : les données sources provenant d’un environnement contrôlé et étiqueté, et les données cibles, généralement non étiquetées, provenant du domaine opérationnel dans lequel le système est déployé. En effet, les différents domaines divergent en raison de leurs caractéristiques différentes, telles que la position de la caméra, la résolution de l’image, l’éclairage et l’arrière-plan, pour n’en citer que quelques-unes. Étant donné que le coût de génération d’un nouvel ensemble de données étiquetées pour chaque nouveau domaine opérationnel est très élevé, des techniques d’adaptation de domaine non supervisée (UDA) ont été développées pour exploiter un ensemble de données source étiqueté et des ensembles de données cibles non étiquetés afin de maximiser la performance sur les données opérationnelles. Cependant, un autre problème se pose lorsque plusieurs domaines cibles sont présents. Chaque domaine cible diverge dans ses caractéristiques spécifiques et nécessite une adaptation unique. L’adaptation d’un modèle ReID personnalisé pour chaque domaine cible est une solution simple mais peu pratique dans les applications réelles où les ressources informatiques sont limitées. D’autre part, l’apprentissage d’un modèle unique sur toutes les cibles simultanément peut réduire la précision en raison de la capacité insuffisante du modèle, lorsqu’il s’agit de données très variées. La solution optimale doit donc offrir une grande précision sur chaque cible tout en minimisant la complexité de la mémoire du modèle résultant.
Très peu de recherches s’intéressent aux méthodes d’adaptation de domaines non supervisée multi-cibles (MTDA) pour la ReID. Ces méthodes sont souvent peu précises et ne prennent pas en compte la complexité de la solution lors de l’évaluation. Le succès d’un système dépend des données utilisées, de la capacité du CNN et de la méthode MTDA employée. Il est donc essentiel de prendre en compte la complexité du CNN entraîné ainsi que les ensembles de données utilisés lors de l’évaluation d’une méthode MTDA.
Ce travail aborde le problème du MTDA pour l’identification des personnes à l’aide de la distillation des connaissances (KD). L’objectif est d’entraîner un modèle CNN compact capable de faire correspondre deux images de piétons capturées par des caméras différentes. Le modèle de Deep Learning (DL) sera capable d’effectuer cette tâche sur des images provenant de plusieurs domaines cibles. Nous évaluons la solution en fonction de (1) la précision du modèle lorsqu’il est entraîné pour de nombreux domaines cibles, et (2) le temps d’inférence et le nombre de paramètres du modèle au moment de l’inférence. Dans cette thèse, nous présentons deux contributions principales liées à ces critères.
La première contribution, présentée au Chapitre 4, est le développement d’une technique MTDA basée sur KD pour la ReID de personnes, intitulée KD-ReID. À l’aide d’une fonction de coût spécialement conçue pour la ReID, nous adaptons un ensemble de modèles CNN "teacher", chacun à un domaine cible spécifique, puis nous distillons les connaissances dans un seul modèle CNN "student". Le modèle résultant est précis pour tous les domaines cibles tout en restant peu coûteux pour une application réelle. Nous montrons que cette approche est plus performante que les approches de pointe existantes en termes de précision et de complexité du modèle. En outre, nous montrons que KD-ReID est très flexible, permettant d’utiliser des modèles d’enseignants d’architecture et de techniques d’apprentissage différentes. Cette flexibilité renforce le potentiel de KD-ReID à être utilisé dans des applications réelles. Cette contribution a été acceptée et publiée dans l’IEEE International Conference on Image Processing 2022 (ICIP2022).
Notre deuxième contribution, présentée au Chapitre 5, est une étude comparative complète des techniques KD-MTDA, afin de maximiser le rapport entre la complexité du système et la précision pour la tâche ReID. À l’aide d’un modèle compact, nous adaptons diverses techniques à notre problème MTDA. Plus précisément, nous analysons et comparons quatre techniques : les couches de BN spécifiques à un domaine, le modèle multi-branches, les adaptateurs de domaine et les adaptateurs de distillation. Les techniques étudiées visent à augmenter la précision sur des cibles multiples au prix d’une augmentation du nombre de paramètres du modèle. En plus de permettre l’optimisation de notre solution dans une situation de ressources limitées, cette étude nous permet de tirer des conclusions importantes sur le compromis entre la précision des méthodes MTDA spécialisées pour notre tâche.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in electrical engineering". Comprend des références bibliographiques (pages 81-92). |
Mots-clés libres: | video-surveillance, distillation de connaissance, adaptation de domaine à cible multiple, ré-identification de personnes, adapteur de domaines, normalisation de batch |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Granger, Éric |
Codirecteur: | Codirecteur Menelau Cruz, Rafael |
Programme: | Maîtrise en ingénierie > Génie électrique |
Date de dépôt: | 25 oct. 2023 15:38 |
Dernière modification: | 10 nov. 2023 16:27 |
URI: | https://espace.etsmtl.ca/id/eprint/3304 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |