Rapela Medeiros, Heitor (2025). Adaptation of deep object detectors for new modalities. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (23MB) | Prévisualisation |
Résumé
The performance of deep object detectors significantly deteriorates when deployed across different sensing modalities, such as RGB, infrared, and depth. This degradation arises from the shift between modalities, which drastically affects the performance of the models. Existing adaptation methods, such as pixel-level translation and feature-space alignment, are often limited to specific modalities or require extensive retraining, leading to increased computational cost and potential loss of previously acquired knowledge. In contrast to the dominant approach of adapting the model, here we investigated the potential of adapting the input, or making minor changes, preserving as much prior knowledge while incorporating new modality knowledge. In this context, this thesis studies modality adaptation strategies to bridge the gap between modalities while preserving detection performance on the source pre-trained RGB model.
In this thesis, we first introduce our search and contributions. Then, in the first chapter, we provided a general background to understand the current different strategies presented in this thesis with different mechanisms used to adapt object detectors, ranging from input-level (image modification) to middle-level (mechanisms in backbones) to output-level (adaptation of boxes or pseudo-level modifications). In the second chapter, we study how to incorporate knowledge of two different modalities in a single modality-agnostic shared encoder for detectors in an efficient and powerful way. Then, in the third chapter, we explore progressive modality adaptation, first adapting the detector knowledge from the RGB source data (e.g., COCO dataset) to the target RGB dataset (e.g., LLVIP RGB) and then adapting the input from IR data (e.g., LLVIP IR) to a pseudo-RGB representation with this detector feedback. In the fourth chapter, we focused on input modality adaptation, preserving the knowledge of the source pre-trained model (e.g, COCO dataset) and adapting directly to the IR dataset (e.g., LLVIP IR), without the intermediate step of the prior chapter, and focusing on maximizing the detection performance while keeping the source zero-shot knowledge. In the fifth chapter, we explored how to incorporate language in the input modality adaptation for visual-language object detectors; therefore, our goal was still to preserve zero-shot knowledge of the detector, but also to understand how to incorporate powerful visual modality adaptation techniques, along with prompt adaptation.
Our main contributions include: for the second chapter, we introduced MiPa, a mixed-patch training strategy for transformer-based object detectors that enables a single shared encoder to be modality-agnostic to RGB and infrared inputs. MiPa stochastically samples and combines complementary RGB/IR patches during training, effectively capturing cross-modal information without requiring both modalities at inference. In the fourth chapter, we introduced ModTr, a modality translation framework for adapting pre-trained RGB object detectors to new modalities, such as infrared (IR), without changing the detector’s parameters. ModTr preserves the detector’s original knowledge, enabling a single model to serve multiple modalities through dedicated translators, reducing memory and computation costs. ModTr introduces simple yet effective fusion strategies, such as the Hadamard product–based gating, to blend the translated and original inputs. In the fifth chapter, we introduced ModPrompt, a visual prompt–based framework for adapting open-vocabulary object detectors (OV-ODs) to new visual modalities, such as infrared, depth, and LiDAR, without compromising their zero-shot capabilities. Unlike pixel-level prompt strategies used in classification, ModPrompt employs an encoder–decoder visual prompt module that generates modality-specific prompts tailored to each input image. It further proposes Modality Prompt Decoupled Residuals (MPDR), which enhance adaptation by introducing lightweight, inference-friendly residual parameters, enabling modality alignment without losing pre-trained language knowledge. Finally, in the last part of this thesis, we provided an overall conclusion of our thesis and how we can leverage pre-trained RGB knowledge of detectors while we adapt to new modalities and recommendations for future work.
Titre traduit
Adaptation des détecteurs d’objets basés sur l’apprentissage profond à de nouvelles modalités
Résumé traduit
Les performances des détecteurs d’objets profonds se détériorent considérablement lorsqu’ils sont déployés sur différentes modalités de capteurs, telles que le RGB, l’infrarouge et la profondeur. Cette dégradation provient du décalage entre les modalités, qui affecte drastiquement les performances des modèles. Les méthodes d’adaptation existantes, telles que la traduction au niveau des pixels ou l’alignement dans l’espace des caractéristiques, sont souvent limitées à des modalités spécifiques ou nécessitent un réentraînement important, entraînant un coût computationnel élevé et une perte potentielle des connaissances acquises auparavant. Contrairement à l’approche dominante consistant à adapter le modèle, nous explorons ici le potentiel d’adapter l’entrée, ou d’apporter des modifications mineures, afin de préserver autant que possible les connaissances préalables tout en incorporant celles propres à la nouvelle modalité. Dans ce contexte, cette thèse étudie des stratégies d’adaptation de modalités visant à combler l’écart entre les modalités tout en maintenant les performances de détection du modèle RGB préentraîné sur la source.
Dans cette thèse, nous présentons d’abord notre démarche et nos contributions. Ensuite, dans le premier chapitre, nous fournissons un cadre général permettant de comprendre les différentes stratégies abordées dans cette thèse, avec divers mécanismes utilisés pour adapter les détecteurs d’objets, allant du niveau d’entrée (modification de l’image) au niveau intermédiaire (mécanismes dans les épines dorsales) et au niveau de sortie (adaptation des boîtes ou modifications pseudoniveau). Dans le deuxième chapitre, nous étudions comment incorporer la connaissance de deux modalités différentes dans un seul encodeur partagé et agnostique à la modalité pour les détecteurs, de manière efficace et performante. Ensuite, dans le troisième chapitre, nous explorons une adaptation progressive des modalités : d’abord, l’adaptation des connaissances du détecteur à partir des données RGB sources (par exemple, le jeu de données COCO) vers un jeu de données RGB cible (par exemple, LLVIP RGB), puis l’adaptation de l’entrée à partir des données infrarouges (par exemple, LLVIP IR) vers une représentation pseudo-RGB à l’aide du retour du détecteur. Dans le quatrième chapitre, nous nous concentrons sur l’adaptation de la modalité au niveau de l’entrée, en préservant les connaissances du modèle préentraîné sur la source (par exemple, COCO) et en l’adaptant directement au jeu de données infrarouges (par exemple, LLVIP IR), sans l’étape intermédiaire du chapitre précédent, tout en cherchant à maximiser la performance de détection et à conserver les capacités zéro-shot de la source. Dans le cinquième chapitre, nous explorons comment intégrer le langage dans l’adaptation de la modalité d’entrée pour les détecteurs d’objets visuel-langage ; notre objectif était donc de préserver la connaissance zéro-shot du détecteur tout en comprenant comment intégrer des techniques puissantes d’adaptation de modalité visuelle, combinées à l’adaptation de prompts.
Nos principales contributions incluent : pour le deuxième chapitre, nous introduisons MiPa, une stratégie d’entraînement par patchs mixtes pour les détecteurs d’objets basés sur des transformeurs, permettant à un encodeur partagé d’être agnostique aux modalités RGB et infrarouge. MiPa échantillonne et combine de manière stochastique des patchs complémentaires RGB/IR pendant l’entraînement, capturant efficacement l’information intermodale sans nécessiter les deux modalités à l’inférence. Dans le quatrième chapitre, nous introduisons ModTr, un cadre de traduction de modalités pour adapter les détecteurs d’objets RGB préentraînés à de nouvelles modalités, telles que l’infrarouge (IR), sans modifier les paramètres du détecteur. ModTr préserve les connaissances originales du détecteur, permettant à un seul modèle de gérer plusieurs modalités via des traducteurs dédiés, réduisant ainsi les coûts de mémoire et de calcul. ModTr introduit des stratégies de fusion simples mais efficaces, telles que la fusion basée sur le produit d’Hadamard, pour combiner les entrées traduites et originales. Dans le cinquième chapitre, nous introduisons ModPrompt, un cadre basé sur des prompts visuels pour adapter les détecteurs d’objets à vocabulaire ouvert (OV-OD) à de nouvelles modalités visuelles, telles que l’infrarouge, la profondeur et le LiDAR, sans compromettre leurs capacités zéro-shot. Contrairement aux stratégies de prompts au niveau des pixels utilisées en classification, ModPrompt emploie un module de prompt visuel encodeur-décodeur qui génère des prompts spécifiques à chaque image. Il propose également les Modality Prompt Decoupled Residuals (MPDR), qui améliorent l’adaptation en introduisant des paramètres résiduels légers et compatibles avec l’inférence, permettant un alignement entre modalités sans perte des connaissances langagières préentraînées. Enfin, dans la dernière partie de cette thèse, nous présentons une conclusion générale sur la manière de tirer parti des connaissances RGB préentraînées des détecteurs tout en les adaptant à de nouvelles modalités, ainsi que des recommandations pour les travaux futurs.
| Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
|---|---|
| Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 195-219). |
| Mots-clés libres: | détection d’objets, adaptation de modalités, décalage de domaine, modèles vision–langage, information privilégiée, apprentissage inter-modalités |
| Directeur de mémoire/thèse: | Directeur de mémoire/thèse Pedersoli, Marco |
| Codirecteur: | Codirecteur Granger, Éric |
| Programme: | Doctorat en génie > Génie |
| Date de dépôt: | 22 déc. 2025 15:51 |
| Dernière modification: | 22 déc. 2025 15:51 |
| URI: | https://espace.etsmtl.ca/id/eprint/3755 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement