La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Metric learning with siamese networks for re-identification and tracking

Téléchargements

Téléchargements par mois depuis la dernière année

Kiran, Madhu (2024). Metric learning with siamese networks for re-identification and tracking. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of KIRAN_Madhu.pdf]
Prévisualisation
PDF
Télécharger (4MB) | Prévisualisation

Résumé

Visual object tracking (VOT) and person re-identification (ReID) go hand in hand for a wide range of monitoring and video surveillance, like multi-camera target tracking, pedestrian tracking for autonomous driving, access control in biometrics, etc. Once a person has been detected, VOT produces continuous bounding boxes for that person over a video sequence given an initial location. At the same time, ReID identifies lost tracks of a person or identifies persons or objects seen in different cameras. They suffer from common challenges, particularly in scenarios with occlusion and changing target appearances. Learning objectives for tracking and ReID are similar to similarity-matching tasks using Siamese network architectures. The update of a tracker is performed online as object appearance or prototype needs to be learned over time with changes in appearance. ReID does not involve explicit online learning; it is more about using video sequences to represent an object best and match it with a database of objects.

Challenges related to online learning in tracking, where methods like classical approaches or deep convolutional neural network (CNN) methods aim to learn target appearance during tracking to prevent target drift over time. However, model adaptation using samples from a tracker can be hindered by noise introduced through drifting. Detecting and managing drifts becomes crucial, and improper sample selection can impact model robustness. For instance, inadequate diversity in training samples during adaptation can significantly lead to model drift when the target’s appearance changes due to variations in, e.g., lighting and viewpoint. In video-based person ReID, leveraging person tracklets in queries can address challenges like occlusion, inaccurate bounding box positioning, and variations in appearance due to lighting and viewpoint changes. Improvements are sought in feature aggregation methods for video sequences, considering limitations in sequence length and potential overfitting. Occlusion poses a significant challenge in online learning for tracking and person ReID, causing feature extractors to focus on non-object regions, leading to false matches. Developing computationally efficient solutions for handling occlusion is crucial for real-time applications. This thesis focused on three main problems: online learning with dynamic template/sample selection for tracking, video representation, and occlusion-aware representation learning.

The first contribution in this thesis primarily concentrates on enhancing online learning in VOT models, with a specific focus on addressing challenges related to concept drift and occlusion. Concept drift encompasses changes in the appearance of the tracked object, categorized as gradual, abrupt, and recurring. Our research highlights the adaptability benefits of gradual concept drift while acknowledging that abrupt changes often result from distractions like occlusion, necessitating cautious handling of model updates. Moreover, recurring drifts occur when the object’s previous appearance reoccurs, and we found that maintaining a sample buffer with high variance proves effective for online tracking.

The second contribution in this thesis focuses on video person ReID within video analytics and surveillance, aiming to overcome existing limitations such as changing appearance, viewpoint variation across cameras, and occlusion. To address this, incorporate the motion patterns of individuals as an additional cue for ReID. Our proposed solution introduces the Flow-Guided Mutual Attention network, merging bounding box and optical flow sequences over tracklets. This utilizes a 2D-CNN backbone to encode both temporal and spatial appearance information. Furthermore, we present a novel method for aggregating features from extended input streams to enhance video sequence-level representation. Experimental results show a significant improvement in ReID accuracy compared to traditional gated-attention networks and current state-of-the-art methods in video-based person ReID. This research highlights the potential of motion-pattern-guided attention mechanisms in enhancing the capabilities of deep learning models for robust video ReID applications.

Our next introduces a novel Holistic-Generative (HG) student-teacher model designed for occluded person ReID, eliminating the need for image identity labels and resource-intensive processes focused solely on visible parts of occluded regions. The proposed HG teacher uses the Distribution of CLass Distances (DCD) across samples in a comprehensive dataset to train a student model, allowing the generation of attention maps and addressing challenges posed by occlusion. Unlike prevalent approaches in the literature that use external supervision like pose for visibility cues, our method relies on holistic data distribution during training, treating it as a soft label. Consequently, during testing, our model seamlessly operates without needing external cues like pose, with the overall parameters comprising only the backbone Encoder and a compact embedding for attention map generation during feature extraction. Additionally, joint learning of a denoising autoencoder enhances the model’s ability to self-recover from occlusion. Empirical evaluations on diverse and challenging datasets demonstrate the superior performance of our HG methodology, surpassing state-of-the-art models in Occluded-ReID and Holistic ReID tasks.

Our final contribution explores the space for dissimilarity in Person ReID to solve the problem of overlap between classes caused by computationally efficient models with relatively smaller capacities and limited training data. We propose applying dichotomy transformation to feature space and classifying sample pairs as similar or dissimilar with a max-margin classifier. Endto- end learning of a classifier in the dissimilarity space has been observed to improve retrieval accuracy for Person ReID tasks.

Results in this thesis indicate that effective online learning with careful sample selection based on techniques for drift detection can allow long-term tracking with minimal updates to the tracker, thereby low overall complexity. In addition, it has also been shown that a good representation can be learned by choosing long video sequences. Occlusion is a challenge in both tracking and ReID applications. It has been shown that with occlusion-aware learning, there can be an overall improvement in both tracking and ReID performances. It solves this problem for the practical scenario with minimalistic occlusion labeled data.

Titre traduit

Apprentissage métrique avec des réseaux siamois pour la ré-identification et le suivi

Résumé traduit

Le suivi d’objets visuels (VOT) et la réidentification de personnes (ReID) sont essentiels pour une large gamme de surveillances et de suivis vidéo, tels que le suivi de cibles multi-caméras, le suivi de piétons pour la conduite autonome, le contrôle d’accès biométrique, etc. Une fois une personne détectée, le VOT produit des cadres englobants continus pour cette personne sur une séquence vidéo à partir d’un emplacement initial. Parallèlement, le ReID identifie les traces perdues d’une personne ou reconnaît des personnes ou objets observés à travers différentes caméras. Ils rencontrent des défis communs, notamment dans les scénarios avec occlusion et changements d’apparence de la cible. Les objectifs d’apprentissage pour le suivi et le ReID sont similaires aux tâches de correspondance de similarités utilisant des architectures de réseaux Siamese. La mise à jour d’un traceur est effectuée en ligne car l’apparence de l’objet ou le prototype doit être appris au fil du temps avec les changements d’apparence. Le ReID n’implique pas d’apprentissage en ligne explicite; il s’agit plutôt d’utiliser des séquences vidéo pour représenter au mieux un objet et le faire correspondre à une base de données d’objets.

Les défis liés à l’apprentissage en ligne dans le suivi, où des méthodes comme les approches classiques ou les méthodes de réseau neuronal convolutif profond (CNN) visent à apprendre l’apparence de la cible pendant le suivi pour éviter la dérive de la cible au fil du temps. Cependant, l’adaptation du modèle à l’aide d’échantillons d’un traceur peut être entravée par le bruit introduit par la dérive. Détecter et gérer les dérives devient crucial, et une sélection inappropriée des échantillons peut affecter la robustesse du modèle. Par exemple, une diversité inadéquate dans les échantillons de formation lors de l’adaptation peut entraîner une dérive significative du modèle lorsque l’apparence de la cible change en raison de variations, par exemple, de l’éclairage et du point de vue.

Dans la ReID de personnes basée sur la vidéo, l’utilisation de tracklets de personnes dans les requêtes peut relever des défis tels que l’occlusion, le positionnement inexact des cadres englobants, et les variations d’apparence dues aux changements d’éclairage et de point de vue. Des améliorations sont recherchées dans les méthodes d’agrégation de caractéristiques pour les séquences vidéo, en tenant compte des limites de la longueur des séquences et du risque de surajustement. L’occlusion pose un défi important dans l’apprentissage en ligne pour le suivi et le ReID de personnes, amenant les extracteurs de caractéristiques à se concentrer sur des régions non-objectives, conduisant à des correspondances erronées. Développer des solutions efficaces du point de vue computationnel pour gérer l’occlusion est crucial pour les applications en temps réel. Cette thèse se concentre sur trois problèmes principaux : l’apprentissage en ligne avec sélection dynamique de modèles/échantillons pour le suivi, la représentation vidéo et l’apprentissage de représentations conscientes de l’occlusion.

La première contribution de cette thèse se concentre principalement sur l’amélioration de l’apprentissage en ligne dans les modèles VOT, avec un accent particulier sur les défis liés à la dérive conceptuelle et à l’occlusion. La dérive conceptuelle englobe les changements dans l’apparence de l’objet suivi, catégorisés comme graduels, abrupts et récurrents. Notre recherche souligne les avantages de l’adaptabilité de la dérive conceptuelle graduelle tout en reconnaissant que les changements abrupts résultent souvent de distractions comme l’occlusion, nécessitant une gestion prudente des mises à jour du modèle. De plus, les dérives récurrentes se produisent lorsque l’apparence précédente de l’objet se reproduit, et nous avons constaté qu’il est efficace de maintenir un tampon d’échantillons à haute variance pour le suivi en ligne.

La deuxième contribution de cette thèse se concentre sur la ReID de personnes dans l’analyse vidéo et la surveillance, visant à surmonter les limitations existantes telles que l’apparence changeante, la variation de point de vue à travers les caméras, et l’occlusion. Pour y remédier, incorporez les motifs de mouvement des individus comme indice supplémentaire pour le ReID. Notre solution proposée introduit le réseau d’Attention Mutuelle Guidée par le Flux, fusionnant les séquences de cadres englobants et de flux optique sur des tracklets. Ceci utilise un backbone CNN 2D pour coder à la fois les informations d’apparence temporelle et spatiale. De plus, nous présentons une méthode novatrice pour agréger les caractéristiques à partir de flux d’entrée étendus pour améliorer la représentation au niveau de la séquence vidéo. Les résultats expérimentaux montrent une amélioration significative de la précision du ReID par rapport aux réseaux d’attention traditionnels et aux méthodes actuelles de pointe dans le ReID de personnes basé sur la vidéo. Cette recherche met en évidence le potentiel des mécanismes d’attention guidés par des motifs de mouvement pour améliorer les capacités des modèles d’apprentissage profond pour des applications robustes de ReID vidéo.

Notre prochaine introduction concerne un modèle étudiant-enseignant Holistique-Génératif (HG) conçu pour le ReID de personnes occlues, éliminant le besoin d’étiquettes d’identité d’image et de processus intensifs en ressources axés uniquement sur les parties visibles des régions occlues. L’enseignant HG proposé utilise la Distribution de Classe Discriminative (DCD) à travers des échantillons dans un ensemble de données complet pour former un modèle étudiant, permettant la génération de cartes d’attention et abordant les défis posés par l’occlusion. Contrairement aux approches prévalentes dans la littérature qui utilisent une supervision externe comme la pose pour des indices de visibilité, notre méthode repose sur la distribution holistique des données pendant l’entraînement, la traitant comme une étiquette douce. Par conséquent, lors des tests, notre modèle fonctionne sans problème sans avoir besoin d’indices externes comme la pose, avec les paramètres globaux comprenant uniquement l’encodeur de base et un embedding compact pour la génération de cartes d’attention lors de l’extraction de caractéristiques. De plus, l’apprentissage conjoint d’un autoencodeur de débruitage améliore la capacité du modèle à se régénérer de l’occlusion. Les évaluations empiriques sur des ensembles de données divers et difficiles démontrent la performance supérieure de notre méthodologie HG, surpassant les modèles de pointe dans les tâches Occluded-ReID et Holistic ReID.

Notre dernière contribution explore l’espace pour la dissimilarité dans le ReID de personnes afin de résoudre le problème de chevauchement entre les classes causé par des modèles efficaces sur le plan computationnel avec des capacités relativement plus petites et des données d’entraînement limitées. Nous proposons d’appliquer une transformation de dichotomie à l’espace des caractéristiques et de classer les paires d’échantillons comme similaires ou dissimilaires avec un classificateur à marge maximale. L’apprentissage de bout en bout d’un classificateur dans l’espace de la dissimilarité a été observé pour améliorer la précision de récupération pour les tâches de ReID de personnes.

Les résultats de cette thèse indiquent qu’un apprentissage en ligne efficace avec une sélection soignée des échantillons basée sur des techniques de détection de dérive peut permettre un suivi à long terme avec des mises à jour minimales du traceur, entraînant ainsi une faible complexité globale. De plus, il a également été démontré qu’une bonne représentation peut être apprise en choisissant de longues séquences vidéo. L’occlusion représente un défi dans les applications de suivi et de ReID. Il a été démontré qu’avec un apprentissage conscient de l’occlusion, il peut y avoir une amélioration globale à la fois des performances de suivi et de ReID. Cela résout ce problème pour le scénario pratique avec des données étiquetées minimales d’occlusion.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 147-183).
Mots-clés libres: suivi d’objets visuels, réidentification de personnes, apprentissage en ligne, apprentissage conscient de l’occlusion, réseaux siamois, flux optique, espace de dissimilarité
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Granger, Éric
Codirecteur:
Codirecteur
Menelau Cruz, Rafael
Programme: Doctorat en génie > Génie
Date de dépôt: 08 mai 2025 13:50
Dernière modification: 08 mai 2025 13:50
URI: https://espace.etsmtl.ca/id/eprint/3599

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt