Ghasemi Nafchi, Amin (2025). From edges to pages: boundary-aware binarization and two-stage reconstruction of historical documents. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (5MB) | Prévisualisation |
Résumé
Historical documents often suffer from severe degradations such as bleed-through, stains, fading, and physical losses, which compromise both human readability and machine analysis. Historical document restoration must therefore recover legible text and faithful backgrounds while ensuring structural authenticity and usability for archival workflows. Conventional pipelines either blur fine strokes or fail to maintain visual integrity, limiting their effectiveness in practice. This thesis introduces a two-part restoration framework that jointly optimizes stroke fidelity and background reconstruction at scale.
In the first part, we propose BA-GAN (Boundary-Aware Generative Adversarial Network), a robust end-to-end framework for restoring heavily degraded historical document images. BA-GAN features a single generator guided by two discriminators: one focused on objectlevel content and another on contour-level information. By leveraging both global and local information concurrently, the model improves stroke edge extraction, enhances binarization results, and ensures precise reconstruction of text boundaries. Experiments on HDIBCO 2017/2018 demonstrate state-of-the-art performance, achieving, for example, DIBCO 2018 metrics: Fm 89.28, PSNR 18.44 dB, and DRD 4.10.
Beyond binarization, BA-GAN integrates a full document reconstruction framework that restores both text and background. A two-stage inpainting strategy is employed: initial background estimation via pixel-based interpolation, followed by deep learning-based GAN inpainting to seamlessly reconstruct missing content, remove noise, and correct ink bleed-through artifacts. Experiments on READ 2016 using VDQAM scores show higher evaluation scores after reconstruction, demonstrating improved visual fidelity and text legibility. This approach enables robust reconstruction of entire historical documents while preserving structural integrity and historical authenticity.
Key contributions include: (i) a novel adversarial binarization framework modeled as a three-player game; (ii) a dual-discriminator cGAN architecture enabling superior stroke edge preservation; (iii) state-of-the-art performance on DIBCO benchmarks; and (iv) a documentcentric restoration pipeline combining binarization with inpainting, validated on real-world degraded manuscripts. While challenges remain in ultra-low-contrast and cross-bleed scenarios, future directions include multispectral fusion, self-supervised pretraining, and stronger contentpreservation priors.
Titre traduit
Des contours aux pages : binarisation sensible aux frontières et reconstitution en deux étapes des documents d’archives
Résumé traduit
Les documents historiques souffrent souvent de dégradations sévères telles que le bleed-through (translucidité de l’encre), les taches, la décoloration et les pertes physiques, qui compromettent à la fois la lisibilité humaine et l’analyse automatique. La restauration de ces documents doit permettre de récupérer un texte lisible et un arrière-plan fidèle, tout en préservant l’authenticité structurelle et l’utilisabilité dans les flux de travail archivistiques. Les méthodes conventionnelles brouillent souvent les traits fins ou ne parviennent pas à maintenir l’intégrité visuelle, limitant ainsi leur efficacité pratique. Cette thèse propose un cadre de restauration en deux étapes qui optimise conjointement la fidélité des traits et la reconstruction de l’arrière-plan à grande échelle.
Dans la première partie, nous présentons BA-GAN (Boundary-Aware Generative Adversarial Network), un cadre robuste de bout en bout pour la restauration d’images de documents historiques fortement dégradés. BA-GAN s’appuie sur un générateur unique guidé par deux discriminateurs : l’un centré sur le contenu global et l’autre sur les contours. En exploitant simultanément les informations globales et locales, le modèle améliore l’extraction des contours de traits, renforce les résultats de binarisation et assure une reconstruction précise des limites textuelles. Les expériences menées sur HDIBCO 2017/2018 démontrent des performances à l’état de l’art, atteignant par exemple, sur DIBCO 2018, un Fm de 89,28, un PSNR de 18,44 dB et un DRD de 4,10.
Au-delà de la binarisation, BA-GAN intègre un cadre complet de reconstruction de documents qui restaure à la fois le texte et l’arrière-plan. Une stratégie d’inpainting en deux étapes est mise en oeuvre : une estimation initiale de l’arrière-plan par interpolation pixelique, suivie d’un inpainting basé sur GAN pour reconstruire sans discontinuité le contenu manquant, supprimer le bruit et corriger les artefacts liés au bleed-through (translucidité de l’encre). Les expériences sur READ 2016, évaluées avec les scores VDQAM, montrent des améliorations notables après reconstruction, confirmant une meilleure fidélité visuelle et une lisibilité textuelle accrue. Cette approche permet une restauration robuste de documents historiques entiers tout en préservant leur intégrité structurelle et leur authenticité historique.
Les principales contributions de ce travail sont : (i) la proposition d’un cadre novateur de binarisation adversariale formulé comme un jeu à trois acteurs ; (ii) le développement d’une architecture cGAN à double discriminateur permettant une meilleure préservation des contours de traits ; (iii) l’obtention de performances à l’état de l’art sur les benchmarks DIBCO ; et (iv) la conception d’un pipeline de restauration centré sur le document, combinant binarisation et inpainting, validé sur des manuscrits dégradés du monde réel.
Bien que des défis subsistent dans les cas de traits à très faible contraste et de forte translucidité croisée, les perspectives futures incluent la fusion multispectrale, l’auto-apprentissage non supervisé et l’intégration de contraintes structurelles plus fortes pour la préservation du contenu.
| Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
|---|---|
| Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in information technologies engineering". Comprend des références bibliographiques (pages 65-69). |
| Mots-clés libres: | restauration de documents historiques, réseaux antagonistes génératifs, binarisation sensible aux contours, inpainting de texte, correction de dégradations d’image |
| Directeur de mémoire/thèse: | Directeur de mémoire/thèse Cheriet, Mohamed |
| Programme: | Maîtrise en ingénierie > Génie des technologies de l'information |
| Date de dépôt: | 22 déc. 2025 16:52 |
| Dernière modification: | 22 déc. 2025 16:52 |
| URI: | https://espace.etsmtl.ca/id/eprint/3764 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement