Robust and generalizable deep geometric representation learning for 3D point clouds

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Bahri, Ali (2026). Robust and generalizable deep geometric representation learning for 3D point clouds. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (8MB) | Prévisualisation

Résumé

Deep learning has revolutionized 3D perception, enabling accurate recognition, segmentation, and reconstruction of point-cloud data across robotics, autonomous navigation, and augmented reality. However, two major challenges remain. First, large-scale 3D models rely heavily on labeled datasets, which are costly and time-consuming to acquire. This motivates the development of self-supervised learning methods that can pretrain models on unlabeled data and learn transferable geometric representations for downstream tasks with limited annotations. Second, models trained under fixed conditions often fail to generalize when exposed to real-world distribution shifts caused by noise, sensor variation, or environmental changes. This challenge motivates the development of learning frameworks that are both robust to distribution shifts and adaptive to new environments without requiring labeled data.

This thesis advances the robustness and generalizability of 3D deep learning through a unified exploration of self-supervised representation learning and test-time learning (TTL). The first part investigates how to construct geometric priors that enable models to learn meaningful and transferable 3D representations. (1) GeoMask3D introduces a geometry-aware masked modeling strategy that explicitly aligns masked pretraining with structural cues of 3D shapes, improving the interpretability and invariance of learned features. 2) Spectral-Informed Mamba extends state-space models to point clouds by leveraging the Laplacian spectrum of the underlying graph manifold, producing an isometry-invariant traversal order that strengthens the quality of self-supervised geometric representations while maintaining linear computational complexity compared to quadratic Transformer designs.

The second part addresses adaptation under unseen test conditions, proposing efficient and reliable methods for test-time training (TTT) and test-time adaptation (TTA). (3) Sampling Variation Weight Averaging (SVWA) presents the first fully TTA strategy for point clouds, combining sampling variation and weight averaging to achieve robust adaptation through f lat-minima optimization. (4) SMART-PC introduces a skeleton-based TTT framework that learns compact geometric abstractions during pretraining, enabling real-time adaptation without backpropagation by updating only BatchNorm statistics.

Together, these contributions establish a cohesive framework for robust and generalizable deep geometric representation learning in 3D. By unifying self-supervised pretraining with efficient test-time learning, this thesis advances toward 3D perception systems that are stable, adaptive, and resilient to real-world distribution shifts while preserving interpretability and computational efficiency.

Titre traduit

Apprentissage profond géométrique robuste et généralisable pour les représentations 3D de nuages de points

Résumé traduit

L’apprentissage profond a révolutionné la perception tridimensionnelle, permettant la reconnaissance, la segmentation et la reconstruction précises des nuages de points dans des domaines tels que la robotique, la navigation autonome et la réalité augmentée. Cependant, deux défis majeurs persistent. Premièrement, les modèles 3D à grande échelle dépendent fortement de jeux de données annotés, dont la création est coûteuse et chronophage. Cela motive le développement de méthodes d’apprentissage auto-supervisé capables de préentraîner des modèles sur des données non annotées et d’apprendre des représentations géométriques transférables pour des tâches en aval disposant de peu d’annotations. Deuxièmement, les modèles entraînés dans des conditions fixes échouent souvent à se généraliser lorsqu’ils sont exposés à des décalages de distribution réels causés par le bruit, les variations des capteurs ou les changements d’environnement. Ce problème motive la conception de cadres d’apprentissage à la fois robustes face aux décalages de distribution et adaptatifs à de nouveaux environnements, sans nécessiter de données annotées.

Cette thèse fait progresser la robustesse et la généralisabilité de l’apprentissage profond 3D à travers une exploration unifiée de l’apprentissage de représentations auto-supervisé et de l’apprentissage en phase de test (TTL). La première partie étudie comment construire des priors géométriques permettant aux modèles d’apprendre des représentations 3D significatives et transférables. (1) GeoMask3D introduit une stratégie de modélisation masquée sensible à la géométrie, alignant explicitement le préentraînement masqué sur les indices structurels des formes 3D, améliorant ainsi l’interprétabilité et l’invariance des caractéristiques apprises. (2) Spectral-Informed Mamba étend les modèles d’espace d’état aux nuages de points en exploitant le spectre laplacien des graphes de variétés, définissant un ordre de parcours invariant à l’isométrie qui améliore la robustesse aux changements de point de vue et la précision de la segmentation, tout en atteignant une complexité computationnelle linéaire par rapport aux conceptions quadratiques des Transformers.

La seconde partie traite de l’adaptation à des conditions de test inédites, en proposant des méthodes efficaces et fiables d’entraînement en phase de test (TTT) et d’adaptation en phase de test (TTA). (3) Sampling-Variation Weight Averaging (SVWA) présente la première stratégie TTAcomplète pour les nuages de points, combinant la variation d’échantillonnage et la moyenne des poids afin d’obtenir une adaptation robuste grâce à une optimisation autour de minima plats. (4) SMART-PC introduit un cadre TTT basé sur le squelette qui apprend des abstractions géométriques compactes durant le préentraînement, permettant une adaptation en temps réel sans rétropropagation en mettant à jour uniquement les statistiques de BatchNorm.

Ensemble, ces contributions établissent un cadre cohérent pour un apprentissage profond géométrique 3D à la fois robuste et généralisable. En unifiant le préentraînement auto-supervisé et l’apprentissage efficace en phase de test, cette thèse fait progresser les systèmes de perception 3D vers des performances stables, adaptatives et résilientes face aux décalages de distribution réels, tout en préservant l’interprétabilité et l’efficacité computationnelle.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of Doctor of Philosophy". Comprend des références bibliographiques (pages 153-166).
Mots-clés libres:	apprentissage auto-supervisé, apprentissage de représentations 3D, adaptation en phase de test, entraînement en phase de test
Directeur de mémoire/thèse:	Directeur(-trice) Desrosiers, Christian
Codirecteur:	Codirecteur(-trice) de mémoire/thèse Ben Ayed, Ismail
Programme:	Doctorat en génie > Génie
Date de dépôt:	15 avr. 2026 15:38
Dernière modification:	15 avr. 2026 15:38
URI:	https://espace.etsmtl.ca/id/eprint/3869

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt