Learning to localize objects with limited supervision

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Pilakkatt Meethal, Akhil (2023). Learning to localize objects with limited supervision. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of PILAKKATT_MEETHAL_Akhil.pdf]

Prévisualisation

PDF
Télécharger (16MB) | Prévisualisation

Résumé

Deep object detectors are omnipresent in today’s industries meeting many requirements like inspection, automation, surveillance, monitoring, etc. One of the important bottlenecks in developing today’s object detection systems is the need for a huge collection of labeled data to train the data-hungry deep detectors. Labeling images with bounding boxes is expensive and time-consuming. The cost is prohibitively high when strong expertise is needed for labeling, for example, a radiologist labeling medical images. Also, the current successful fully supervised detectors won’t scale for our growing demand as it is practically impossible to label thousands of images for every object detection task we want to solve. Thus to mitigate this annotation challenge for training modern deep detectors, the community is exploring many directions including weakly supervised, self-supervised, semi-supervised, domain adaptation, and fewshot training. To contribute to this effort, in this thesis, we explored weakly supervised and semi-supervised methods for training localization systems for single-object and multi-object localization. We identified the limitations and the training difficulties of the current main-stream weakly supervised and semi-supervised detection techniques. Then we proposed alternate designs and training techniques to mitigate this.

The first contribution of this thesis is a fully convolutional weakly supervised object localization architecture with a learnable localization component. Different from the default architecture CAM(ClassActivation Mapping), our method is fully convolutional and has separate components for learning localization. We used spatial transformers in a convolutional fashion for learning the localization with affine transformations. One of the major challenges of weakly supervised localization methods is the localization focus on discriminative regions. In our architecture, this can be reduced easily by a regularization constraint on the learned parameters. With extensive empirical studies, we established improved localization and flexible control of our proposed fully convolutional weakly supervised localization network.

The second contribution is a method to reuse the existing fully supervised object detection architectures for weak supervision. While there are plenty of object detection architectures proposed for supervised object detection, researchers working on weakly supervised detectors use the WSDDN (Weakly Supervised Deep Detection Networks) architecture because it is straightforward to train WSDDN with weak image-level labels. WSDDN computes class probabilities of region proposals and aggregates these probabilities to produce image-level class probabilities. Given only the global image-level labels in weakly supervised settings, there is no efficient technique to label object regions using them so as to train the system using fully supervised detectors. To address this, we proposed a sampling-based pseudo-label construction method, using which region-level labels are derived from the image labels. With these pseudo-labels for regions, we can train any off-the-shelf fully supervised detection method, thus eliminating the need for customized architectures for weakly supervised object detection. We also showed that the performance of the sampling-based detector can be improved significantly by using a few annotated images.

The third contribution is about adapting the main-stream semi-supervised detectors to train on high-resolution aerial images. Aerial image object detection can benefit significantly if effective semi-supervised detectors can be designed because plenty of images are collected in surveillance applications using drones and satellites. Those images are simply not used during training because of the lack of annotations. We observed that the tiny objects in high-resolution aerial images cannot be pseudo-labeled effectively for semi-supervised training. To fix this, our proposed zoom-in detector uses density crops where regions with high concentrations of small objects are identified and cropped out. These regions are then upscaled for better detection of small objects. This density crop-based training is implemented within the detector giving more pseudo labels for tiny objects which translates to improved semi-supervised object detection on aerial images.

Titre traduit

Apprendre à localiser des objets avec une supervision limitée

Résumé traduit

Les détecteurs d’objets profonds sont omniprésents dans les industries d’aujourd’hui, répondant à de nombreuses exigences telles que l’inspection, l’automatisation, la surveillance, la surveillance, etc. détecteurs profonds affamés. L’étiquetage des images avec des cadres de délimitation est coûteux et prend du temps. Le coût est prohibitif lorsqu’une forte expertise est nécessaire pour l’étiquetage, par exemple, un radiologue étiquetant des images médicales. De plus, les détecteurs entièrement supervisés actuels ne suffiront pas à notre demande croissante car il est pratiquement impossible d’étiqueter des milliers d’images pour chaque tâche de détection d’objet que nous voulons résoudre. Ainsi, pour atténuer ce défi d’annotation pour la formation des détecteurs profonds modernes, la communauté explore de nombreuses directions, y compris la formation faiblement supervisée, auto-supervisée, semi-supervisée, adaptative au domaine et à quelques coups.

Pour contribuer à cet effort, dans cette thèse, nous avons exploré des méthodes faiblement supervisées et semi-supervisées pour entraîner des systèmes de localisation pour la localisation mono-objet et multi-objet. Avec des méthodes faiblement supervisées, nous avons observé que les chercheurs utilisent une architecture par défaut et proposent des techniques pour améliorer sa localisation. Nous avons identifié les limites des architectures par défaut pour la localisation et la détection faiblement supervisées. Ensuite, nous nous sommes concentrés sur des architectures alternatives qui répondent à ces limitations et sont faciles à utiliser. Nos architectures proposées ont également montré des performances améliorées. Pour les méthodes semi-supervisées, nous nous concentrons sur l’amélioration de leur utilisabilité sur des applications utilisant l’imagerie aérienne. L’imagerie aérienne connaît un intérêt croissant de nos jours où de grandes collections d’images sont collectées à l’aide de drones et de satellites en mode surveillance. Il n’est pas possible d’utiliser cette collection sans méthodes semi-supervisées efficaces car les étiqueter n’est tout simplement pas une option. Différent des images naturelles, les images aériennes ont une résolution élevée en pixels et les objets sont minuscules. Une application directe des méthodes modernes de détection semi-supervisée sur ces images ne donnera pas les meilleurs résultats. Nous proposons une détection semi-supervisée sur mesure pour la détection d’objets minuscules sur des images aériennes à haute résolution.

La première contribution de cette thèse est une architecture de localisation d’objet faiblement supervisée entièrement convolutive avec un composant de localisation apprenable. Différente de l’architecture CAM par défaut, notre méthode est entièrement convolutive et possède des composants séparés pour l’apprentissage de la localisation. Nous avons utilisé des transformateurs spatiaux de manière convolutive pour apprendre la localisation sous une forme paramétrique où la paramétrisation est de transformations affines. L’un des défis majeurs des méthodes de localisation faiblement supervisées est la localisation discriminative des régions. Dans notre architecture, cela peut être facilement réduit en spécifiant une contrainte de régularisation sur les paramètres de localisation appris. Grâce à des études empiriques approfondies, nous avons établi une localisation améliorée et un contrôle flexible de notre projet de réseau de localisation entièrement convolutif faiblement supervisé.

La deuxième contribution propose une méthode pour réutiliser les architectures de détection d’objets existantes pour la détection d’objets faiblement supervisés au lieu du choix par défaut WSDDN. Bien qu’il existe de nombreuses architectures de détection d’objets proposées pour la détection d’objets génériques, les chercheurs travaillant sur des détecteurs faiblement supervisés utilisent l’architecture WSDDN car il n’est pas possible de traduire la supervision globale au niveau de l’image fournie par les étiquettes d’image en étiquettes locales au niveau de l’instance. Nous avons proposé une méthode de construction de pseudo-étiquettes basée sur l’échantillonnage à l’aide de laquelle les étiquettes au niveau de l’image peuvent être traduites en étiquettes au niveau de l’instance, entraînant ainsi le détecteur à l’aide de détecteurs prêts à l’emploi. Nous avons également montré que les performances du détecteur basé sur l’échantillonnage peuvent être améliorées de manière significative en utilisant des images annotées.

La troisième contribution concerne l’adaptation des détecteurs semi-supervisés grand public pour s’entraîner sur des images aériennes à haute résolution. La détection d’objets d’images aériennes peut bénéficier de manière significative si des détecteurs semi-supervisés efficaces peuvent être conçus car de nombreuses images sont collectées en mode surveillance à l’aide de drones et de satellites. Ils ne sont tout simplement pas utilisés pendant la formation en raison du manque d’annotations. Nous avons observé que les minuscules objets dans les images aériennes à haute résolution ne peuvent pas être pseudo-étiquetés efficacement pour une formation semi-supervisée. Pour résoudre ce problème, nous avons utilisé des cultures de densité où les régions à forte concentration de petits objets sont identifiées et rognées. Ces régions sont ensuite traitées par mise à l’échelle pour une meilleure détection des petits objets. Cette formation basée sur la densité des cultures est mise en oeuvre dans le détecteur, ce qui donne plus de pseudo-étiquettes pour les objets minuscules, ce qui se traduit par une détection améliorée des objets semi-supervisés sur les images aériennes.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 137-147).
Mots-clés libres:	détection d’objets, localisation, apprentissage faiblement supervisé, apprentissage semi-supervisé
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Pedersoli, Marco
Codirecteur:	Codirecteur Granger, Éric
Programme:	Doctorat en génie > Génie
Date de dépôt:	12 mars 2024 14:49
Dernière modification:	12 mars 2024 14:49
URI:	https://espace.etsmtl.ca/id/eprint/3381

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt