Estimation des disparités par adaptation de domaine pour la détection d’objets 3D à partir d’images stéréoscopiques

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Huyghues-Beaufond, Lucas (2023). Estimation des disparités par adaptation de domaine pour la détection d’objets 3D à partir d’images stéréoscopiques. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[thumbnail of HUYGHUES_BEAUFOND_Lucas.pdf]

Prévisualisation

PDF
Télécharger (14MB) | Prévisualisation

Résumé

Les enjeux écologiques ont aujourd’hui une place importante dans la politique mondiale. Pour lutter contre le réchauffement climatique, de plus en plus de personnes décident d’utiliser le vélo comme alternative à la voiture, qui est l’un des moyens de transport les plus polluants. Cependant, la cohabitation vélo-voiture est difficile et provoque chaque année de nombreux accidents graves, ce qui nécessite la mise en place de solutions efficaces assurant la sécurité des cyclistes. C’est dans ce contexte de sécurité routière que nous nous sommes intéressés à développer un système employant la stéréovision et une méthode de détection 3D en apprentissage profond, dans le but d’estimer la distance de sécurité entre un vélo et un véhicule lors d’un dépassement.

Cependant, les méthodes actuelles de détection 3D par images stéréoscopiques ont des performances très limitées, dont les erreurs proviennent principalement de la méthode de disparité permettant de générer la représentation 3D de la scène avant d’effectuer la détection. En effet, obtenir des cartes de disparité réelles densément annotées est une tache fastidieuse, et la faible quantité de données réelles disponibles ne permet pas d’entraîner efficacement ces méthodes.

Dans ce mémoire, nous allons nous intéresser à la conception d’un modèle de disparité rapide, inspiré du réseau 2D DispNetC, dont on cherchera à améliorer sa précision et ses capacités de généralisation. De plus, dans le but de résoudre le problème de manque de données réelles, nous allons adapter le modèle au domaine d’une manière non-supervisée par le principe d’apprentissage adverse, permettant de réduire l’écart entre les domaines synthétique (annoté) et réel (sans annotation). Un CycleGAN va translater les données d’apprentissage synthétiques vers le domaine réel, et un discriminateur de caractéristiques va rendre invariant au domaine les représentations internes au réseau. La stratégie d’apprentissage proposée permettra d’augmenter la robustesse du modèle face au changement de domaine, et d’améliorer ses performances sur le domaine réel dans le cas non-supervisé. Le modèle final sera associé à une méthode de détection 3D par stéréo pour mesurer sa capacité à produire l’information 3D pour la détection. On l’évaluera sur la base KITTI pour la détection 3D et on validera les résultats des expériences en les comparant avec les méthodes de la littérature.

Titre traduit

Disparity estimation and domain adaptation for stereo-based 3D object detection

Résumé traduit

Today’s world is confronted to several devastating consequences due to pollution. Increasingly, people want to adopt an eco-friendly behavior and find a substitution to the car is the first step to reduce pollution. And the bycicle is the means of transport the most voted in. However, the coexistence between bicycles and cars is difficult and causes many serious accidents every year, which requires effective solutions to ensure the safety of cyclists. In this context of road safety, we have developed a system using stereovision and a 3D detection method in deep learning, with the aim of estimating the safe distance between a bike and a vehicle when passing.

However, the actuals stereo-image based 3D detection methods have limited performance, mostly due to the disparity estimation methods used to produce 3D representation of the scene before detection. Indeed, obtaining real disparity map densly annoted is a tedious task, and the few dataset available does not allow an efficient training of the model.

In this thesis, we will focus on the design of a fast disparity model, inpired by the 2D network DispNetC, whom we will seek to improve its accuracy and generalization. Moreover, in order to solve the problem of lack of real labeled data, the model will be adapted to the real domain in a unsupervied manner by the adversarial learning principle, allowing to reduce the gap between synthetic (annotated) and real (without annotation) domains. The CycleGAN network will translate synthetic learning data into the real domain, and a feature discriminator will make the internal representations of the network invariant to the domain. The proposed learning strategy will increase the robustness of the model facing domain shift, and improve its performance on the real domain in the unsupervised case. The final model will be combined with a image-stereo based 3D detection method to measure its ability to produce 3D informations for detection. It will be evaluated on the KITTI dataset for 3D detection and the results of the experiments will be validated by comparison with literature methods.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire en génie de la production automatisée". Comprend des références bibliographiques (pages 135-144).
Mots-clés libres:	détection 3D, stéréovision, disparité, adaptation de domaine, apprentissage adverse
Directeur de mémoire/thèse:	Directeur(-trice) Pedersoli, Marco
Programme:	Maîtrise en ingénierie > Génie de la production automatisée
Date de dépôt:	13 mars 2023 17:41
Dernière modification:	13 mars 2023 17:41
URI:	https://espace.etsmtl.ca/id/eprint/3200

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt