Décomposition autonome et interprétable d’images multispectrales de documents par apprentissage contraint

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Declercq, Kilian (2025). Décomposition autonome et interprétable d’images multispectrales de documents par apprentissage contraint. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (15MB) | Prévisualisation

Résumé

Les archives numérisées recourent de plus en plus à l’imagerie multispectrale (MS) pour révéler des contenus faibles (encres délavées, palimpsestes, annotations, etc.) et séparer le texte du fond. Or, la décomposition spectrale reste difficile : les approches classiques (e.g., PCA, GMM ou NMF avec rang fixe) exigent des réglages ad hoc, des pré/post-traitements lourds et se généralisent mal à la diversité des supports, des encres et des conditions d’acquisition spectrales.

Pour répondre à ces défis, dans un premier temps, nous introduisons un cadre d’apprentissage bout en bout pour la décomposition multispectrale qui combine un auto-encodeur convolutionnel, couplé à une tête de démélange contrainte (non-négativité, interprétabilité, orthogonalité), enrichie de priors de mise en page (bloc d’attention), afin de préserver la structure des glyphes tout en modélisant le contexte spectro-spatial. Cette approche hybride intègre les principes de la NMF dans une architecture d’auto-encodeur, exploitant ainsi les avantages complémentaires des deux approches. Dans un deuxième temps, face au problème ouvert qu’est le choix manuel du rang, nous proposons un mécanisme pour sa sélection automatique via un élagage (pruning) guidé par longueur de description minimale (MDL), appris conjointement. Les composantes peu informatives sont alors progressivement supprimées pour minimiser simultanément l’erreur de reconstruction et la complexité du modèle. Enfin, dans un troisième temps, nous montrons que ce cadre, nommé PRISM, s’applique aux différentes configurations d’images MS, que ce soit pour les cas sur-déterminés (i.e., plus de bandes que de sources) ou sous-déterminés (i.e., moins de bandes, e.g. RVB), et se généralise au-delà des documents multispectraux.

Évalué sur MSBin et MStex, deux ensembles de documents variés (e.g., lettres, formulaires, manuscrits) de différentes périodes et états, PRISM améliore de manière constante la séparation encre/fond de +29.5 points F-score contre la binarisation de Howe et dépasse ACE v2 de +1.32 points (état-de-l’art). De plus, pour décomposition d’images MS non-supervisée, PRISM reste jusqu’à 7.4× plus rapide que VBONMF, la meilleure approche NMF concurrente. Des tests sur des scènes hyperspectrales de référence, Jasper Ridge et Urban, ainsi que sur des images RVB, confirment une bonne transférabilité au-delà du domaine documentaire. Des études d’ablation valident l’apport du pruning MDL et des différents priors. Ces résultats indiquent qu’associer contraintes physiques et contexte spatial permet des décompositions interprétables et adaptatives, utiles pour la transcription et la restauration. Le code, les poids et les hyperparamètres de PRISM sont disponibles sur Github et accompagnent le mémoire, dont les contributions ont été intégrées dans une publication acceptée au workshop VisionDocs de la conférence ICCV 2025.

Titre traduit

Autonomous and interpretable decomposition of multispectral document images through constrained learning

Résumé traduit

Digitized archives are increasingly using multispectral (MS) imaging to reveal weak content (faded inks, palimpsests, annotations, etc.) and separate text from background. However, spectral decomposition remains difficult : conventional approaches (e.g., fixed-rank NMF, PCA or GMM) require ad hoc settings, cumbersome pre/post-processing and generalize poorly to the diversity of substrates, inks and spectral acquisition conditions.

To address these challenges, we first introduce an end-to-end learning framework for multispectral decomposition that combines a convolutional auto-encoder, coupled with a constrained unmixing head (non-negativity, interpretability, orthogonality), enriched with layout priors (attention block), to preserve glyph structure while modeling the spectro-spatial context. This hybrid approach integrates NMF principles into an auto-encoder architecture, exploiting the complementary advantages of both approaches. Secondly, in response to the open problem of manual rank selection, we propose a mechanism for its automatic selection via pruning guided by minimum description length (MDL), learned jointly. Uninformative components are then progressively removed to simultaneously minimize reconstruction error and model complexity. Finally, in a third step, we show that this framework, named PRISM, holds for different MS image configurations, for both overdetermined (i.e., more bands than sources) and underdetermined (i.e., fewer bands, e.g. RGB) cases, and generalizes beyond multispectral documents.

Evaluated on MSBin and MStex, two varied document datasets (e.g., letters, forms, manuscripts) from different periods and states, PRISM consistently improves ink/background separation by +29.5 F-score points against Howe’s binarization and outperforms ACE v2 by +1.32 points (state-of-the-art). Furthermore, for unsupervised MS image decomposition, PRISM remains up to 7.4× faster than VBONMF, the best competing NMF approach. Tests on reference hyperspectral scenes, Jasper Ridge and Urban, as well as on RGB images, confirm good transferability beyond the documentary domain. Ablation studies validate the contribution of the MDL pruning and the various priors. These results show that combining physical constraints and spatial context enables interpretable and adaptive decompositions, useful for transcription and restoration. PRISM code, weights and hyperparameters are available on Github and accompany this thesis, whose contributions have been integrated into an ICCV 2025 VisionDocs workshop publication.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire". Comprend des références bibliographiques (pages 125-139).
Mots-clés libres:	factorisation matricielle non-négative, apprentissage automatique interprétable, élagage de réseaux neuronaux, imagerie multispectrale et hyperspectrale, apprentissage non supervisé, documents historiques
Directeur de mémoire/thèse:	Directeur(-trice) Cheriet, Mohamed
Programme:	Maîtrise en ingénierie > Génie de la production automatisée
Date de dépôt:	22 déc. 2025 15:53
Dernière modification:	22 déc. 2025 15:53
URI:	https://espace.etsmtl.ca/id/eprint/3756

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt