Josi, Arthur (2023). Deep visual-infrared fusion for multimodal person re-identification in the wild. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Résumé
Person re-identification (ReID) is a crucial video surveillance task, allowing one to match images of individuals captured by non-overlapping cameras. This task poses significant challenges due to factors such as varying camera positions, capture conditions (e.g., illumination, weather, background), complex body shapes, and diverse clothing styles. These factors result in a wide range of potential capture conditions leading to datasets that only cover a small fraction of the potential scenarios, and consequently to models’ learning and evaluation data unsuited to the design of a robust framework. Under these constraints, a cost-effective model must be built to capture the complex and discriminative personal features while allowing to perform real-time data processing.
Among the previous aspects, the visible modality commonly used in traditional ReID frameworks is highly dependent on the prevailing luminosity. Low-light conditions can severely affect the quality of captured scenes, resulting in inaccurate ReID. This introduces an additional obstacle in the person ReID task, compounded by the potential presence of noisy or blurry captures. Infrared cameras can mitigate the issues caused by lighting conditions because they do not rely on light information for scene encoding, but do not capture color information and are similarly affected by sensor encoding issues. Therefore, visible and infrared sensors are versatile and relevant sensors in the context of person ReID, but relying solely on one of these modalities compromises the effectiveness of the framework in outdoor conditions or under complex capture conditions.
In this thesis, the multimodal setting and especially the fusion of visible and infrared (V-I) modalities are considered to address these challenges. By having a distinct encoding process while capturing videos from the same individuals, V-I cameras allow for correlated captures while limiting the effect of eventual encoding issues.
Chapter 1 provides some background on deep learning models and techniques for person ReID. Then, a review of multimodal fusion techniques and real-world data for person ReID is provided in Chapter 2, allowing us to assess the key challenges in the area. As such, multiple aspects must be considered. First, multimodal fusion models are seen to neglect modality-specific features, mostly focusing on shared knowledge instead, and consequently missing an important part of discriminant information. In addition, recent approaches emphasize the need to deepen evaluation protocols by artificially corrupting datasets but also to implement specific learning strategies in this regard. However, while such approaches have been explored and shown to be effective in the unimodal setting, this has yet to be done for fusion algorithms, similarly affected by real-world unpredictability.
This work presents a novel multimodal model architecture Chapter 3 to fully exploit modality knowledge and handle real-world data. The model is composed of three backbones, two concentrate on extracting modality-specific features, while the third leverage shared knowledge from a fused modality representation. Furthermore, attention-based approaches are investigated to enable dynamic feature selection, which is likely suitable for multimodal feature fusion under challenging operational conditions. These conditions are reproduced through the proposed V-I corrupted datasets that replicate realistic and highly challenging conditions for both co-located and not co-located camera scenarios, allowing an in-depth model evaluation. For co-located cameras, eventual corruptions correlations are considered, not expected, and consequently not applied for not co-located cameras since each V and I cameras are at distinct locations. Finally, a multimodal data augmentation that enhances the multimodal model’s capacity for generalization is proposed and works at promoting collaboration among modalities and priming the model to face modality-specific local or global corruptions.
The use of three datasets and two corrupted evaluation scenarios through twenty V and I corruptions allowed us to show that the multimodal ReID strategy can improve ReID accuracy while conserving moderate system complexity. Specifically, with the appropriate learning approach, the proposed multimodal model can outperform related state-of-the-art systems under ideal and challenging noisy real-world conditions.
Titre traduit
Fusion profonde visible-infrarouge pour la ré-identification multimodale de personnes dans des conditions réelles
Résumé traduit
La ré-identification (ReID) de personnes est une tâche cruciale de vidéo-surveillance permettant de faire correspondre des images d’individus entre elles, ces images provenant de caméras observant des scènes distinctes. Cette tâche pose d’importants défis en raison de facteurs tels que les différentes positions des caméras, les conditions de capture (l’éclairage, les conditions météorologiques, l’arrière plan), les formes corporelles complexes et les différents styles vestimentaires. Ces facteurs entraînent un large éventail de conditions de capture potentielles, conduisant à des bases de données ne couvrant qu’une fraction des scénarios éventuels. Par extension, cela conduit à des données d’apprentissage et d’évaluation de modèles ne convenant pas à la conception d’un système robuste. Sous ces contraintes, un modèle doit être construit pour capturer les caractéristiques personnelles complexes et discriminantes tout en permettant d’effectuer un traitement des données en temps réel.
Parmi les aspects précédents, la modalité visible, couramment utilisée dans les approches traditionnelles, dépend fortement de la luminosité ambiante. Les conditions de faibles luminosités peuvent avoir un impact important sur la qualité des scènes capturées, ce qui se traduit par une ReID imprécise. Cet aspect s’ajoute à la présence potentielle de captures bruitées ou floues, introduisant un obstacle supplémentaire dans la tâche de ré-identification de personnes. Les caméras infrarouges règlent les problèmes liés aux conditions d’éclairage en ne dépendant pas de celles-ci pour encoder la scène, mais ne capturent pas l’information de couleurs et sont affectées de la même manière par différentes corruptions lors de l’encodage. Par conséquent, les capteurs visibles et infrarouges apparaissent comme polyvalents et pertinents dans le contexte de la ReID, mais le fait de s’appuyer uniquement sur l’une de ces modalités compromet l’efficacité de l’approche en extérieur ou sous des conditions de capture complexes.
Dans ce mémoire, la fusion des modalités visible et infrarouge (V-I) est proposée pour relever ces défis. En encodant la scène de manière indépendante et en capturant des vidéos des mêmes individus, les caméras V-I permettent des captures corrélées tout en limitant l’effet des eventuels problèmes d’encodage.
Le chapitre 1 fournit des informations générales sur les modèles d’apprentissage profonds et les techniques pour l’identification des personnes. Ensuite, une étude des techniques de fusion et des techniques relatives à l’évaluation de modèles sous des conditions réalistes est proposée chapitre 2, permettant de soulever les challenges clés du domaine. À ce titre, multiples aspects doivent être pris en compte. Tout d’abord, les modèles de fusion multimodale sont présentés comme négligeant les caractéristiques propre à chaque modalité, se concentrant principalement sur celles partagées entre elles et manquant alors une partie importante de l’information discriminante. De plus, de récentes approchent soulignent la nécessité d’approfondir les protocoles d’évaluation en corrompant artificiellement les ensembles de données tout en mettant en œuvre des stratégies d’apprentissage spécifiques à cet égard. Toutefois, bien que ces approches aient été explorées et se soient révélées efficaces dans le cadre unimodal, cela reste à explorer pour les algorithmes de fusion, également affectés par l’imprévisibilité du monde réel.
Ce travail présente une nouvelle architecture de modèle multimodal dans le Chapitre 3 afin d’exploiter pleinement les modalités quelles que soient les conditions de captures. Le modèle est composé de trois réseaux de neurones convolutifs, deux se concentrant sur l’extraction de caractéristiques spécifiques à chaque modalité, tandis que le troisième exploite les caractéristiques partagées via une représentation fusionnée. De plus, des approches basées sur le principe d’attention sont étudiées pour permettre une sélection dynamique des caractéristiques, prometteur dans la fusion de données multimodales sous des conditions opérationnelles difficiles. Ces conditions difficiles sont par ailleurs reproduites grâce aux ensembles de données corrompues V-I proposés, reproduisant des conditions réalistes adaptées aux scénarios de caméras co-localisées ou non, et permettant une évaluation approfondie des modèles. Pour les caméras co-localisées, d’éventuelles corrélations de corruptions sont prises en compte, ce qui n’est pas attendu et n’est donc pas appliqué pour les caméras non co-localisées, chaque caméra V et I se trouvant à des positions distinctes. Enfin, nous proposons une approche d’augmentation de données multimodales qui renforce la capacité de généralisation du modèle multimodal en favorisant la collaboration entre les modalités et en préparant le modèle à faire face à des corruptions locales ou globales spécifiques à chaque modalité.
L’utilisation de trois bases de données et de deux scénarios d’évaluations avec des données corrompues comptabilisant vingt différentes corruptions visibles et infrarouges nous permettent de montrer que la configuration multimodale V-I de ReID est une excellente stratégie pour améliorer la précision de la ReID tout en conservant une complexité compétitive. En particulier, avec un apprentissage approprié, le modèle multimodal proposé peut surpasser les systèmes à l’état de l’art sous des conditions idéales tout comme bruitées et difficiles.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis". Comprend des références bibliographiques (pages 139-153). |
Mots-clés libres: | réseaux neuronaux profonds, fusion multimodale, images corrompues, augmentation de données, ré-identification visible-infrarouge de personnes |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Granger, Éric |
Codirecteur: | Codirecteur Menelau Cruz, Rafael |
Programme: | Maîtrise en ingénierie > Génie de la production automatisée |
Date de dépôt: | 10 nov. 2023 16:30 |
Dernière modification: | 10 nov. 2023 16:30 |
URI: | https://espace.etsmtl.ca/id/eprint/3313 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |