Visual unsupervised deep learning model design for historical document image analysis

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Omrani Tamrin, Milad (2022). Visual unsupervised deep learning model design for historical document image analysis. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (9MB) | Prévisualisation

Résumé

Historical documents are one of the most crucial influences that drive scientific and historical development. Some historical documents are present and can be used through classical models to be analyzed. Other documents do not meet the quality and minimum visibility required by information retrieval systems. Furthermore, the ancient manuscript analysis models include various algorithms and techniques to make document images more understandable for computers. Although classical techniques have mostly overcome the issue of analyzing and extracting information from such documents, the task of visual information, including enhancement and segmentation, is still a demanding task. Due to the complex characteristics of historical documents and their nature of degradation, document image processing has always been an essential task. Many existing approaches, including text and ornament recognition, achieve the information by measuring the width, height, and aspect ratio. Since most historical documents are handwritten, such approaches fail to analyze such sensitive data. Besides, the issues at the technical levels are the enhancements because of poor segmentation results at the noisy level of historical document images. Exploring and pursuing the actual visual objects that enhance the entire ancient manuscript would help us convey a more reliable historical document representation. These visual objects can be tables, figures, characters, ornaments, shapes, and also the entire page.

This thesis concerns the design of machine learning tools for more accurate detection of various objects on historical documents and establishing a framework for each of the driven objectives. The proposed approaches promote the usage of deep learning models for compactly enhancing the quality of data. In particular, we will argue how to learn from mapping colour data onto binary (noise-free) in order to remove the degradation. Then, we will describe an unsupervised approach for simultaneous object segmentation in an unsupervised manner.

Have it all over, in this thesis, we focus on two such techniques, namely historical document image enhancement, where we will highlight an inference of generative adversarial networks for extracting pixels from an image in order to produce the final binary document image result with better quality. In the present study, we propose an effective deep convolutional generative adversarial network with a few additional parameters that can be trained on various document images to manage the complexity of historical documents and remove degradation. Furthermore, the deep segmentation network can accurately segment the visual objects of historical documents through mapping their data points in the different clusters. The generalization capability and robustness of the proposed framework can remove degradations and segment pages containing characters and ornament regardless of their texture and layouts.

This depiction enhances upon document binarization and provides more actual estimation. Experimental results are shown on numerous databases, including READ-BAD, c-BAD, IAMHist, DSSE and DIVA-HistDB.We also present the results of our two articles which are published in ICPR 2020.

Titre traduit

Conception de modèle d’apprentissage en profondeur visuel non supervisé pour l’analyse d’images de documents historiques

Résumé traduit

Les documents historiques sont l’une des influences les plus cruciales qui animent le développement scientifique et historique. Certains documents historiques sont présents et peuvent être exploités à travers des modèles classiques pour être analysés. D’autres documents ne répondent pas à la qualité et à la visibilité minimale requise par les systèmes d’rechechres d’information. De plus, les anciens modèles d’analyse de manuscrits incluent divers algorithmes et techniques pour rendre les images de documents plus compréhensibles pour les ordinateurs. Bien que les techniques classiques aient pour la plupart surmonté le problème de l’analyse et de l’extraction d’informations à partir de tels documents, la tâche d’information visuelle, y compris l’amélioration et la segmentation, reste une tâche exigeante. En raison des caractéristiques complexes des documents historiques et de leur nature de dégradation, le traitement des images documentaires a toujours été une tâche essentielle. De nombreuses approches existantes, y compris la reconnaissance de texte et d’ornements, obtiennent les informations en mesurant la largeur, la hauteur et le rapport d’aspect. Étant donné que la plupart des documents historiques sont écrits à la main, de telles approches ne parviennent pas à analyser ces données sensibles. En outre, les problèmes au niveau technique sont les améliorations en raison des mauvais résultats de segmentation au niveau bruyant des images de documents historiques. L’exploration et la poursuite des objets visuels réels qui améliorent l’ensemble du manuscrit ancien nous aideraient à transmettre une représentation plus fiable des documents historiques. Ces éléments peuvent être des tableaux, des figures, des personnages, des ornements, des formes et aussi la page entière.

Ce mémoire porte sur la conception d’outils d’apprentissage automatique permettant une détection plus précise de divers objets sur des documents historiques et établissant un cadre pour chacun des objectifs poursuivis. Les approches proposées favorisent l’utilisation de modèles d’apprentissage en profondeur pour améliorer de manière compacte la qualité des données. En particulier, nous expliquerons comment apprendre du mappage des données de couleur sur le binaire (sans bruit) afin de supprimer la dégradation. Ensuite, nous décrirons une approche non supervisée pour la segmentation simultanée d’objets.

Pour résumer, dans ce mémoire, nous nous concentrons sur deux de ces techniques, à savoir la restauration d’images de documents historiques, où nous mettrons en évidence une inférence de réseaux antagonistes génératifs pour extraire des pixels d’une image afin de produire le résultat final d’image de document binaire avec une meilleure qualité. Dans la présente étude, nous proposons un réseau antagoniste génératif à convolution profonde efficace avec quelques paramètres supplémentaires qui peuvent être entraînés sur diverses images de documents pour gérer la complexité des documents historiques et supprimer la dégradation. De plus, le réseau de segmentation profonde peut segmenter avec précision les objets visuels des documents historiques en cartographiant leurs points de données dans les différents clusters. La capacité de généralisation et la robustesse du framework proposé permettent de supprimer les dégradations et de segmenter les pages contenant des caractères et des ornements quelles que soient leur texture et leur mise en page.

Cette représentation améliore la binarisation du document et fournit une estimation plus réelle. Les résultats expérimentaux sont affichés sur de nombreuses bases de données, notamment READ-BAD, c-BAD, IAM-Hist, DSSE et DIVA-HistDB. Nous présentons également les résultats de nos deux articles publiés dans ICPR 2020.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis". Comprend des références bibliographiques (pages 73-77).
Mots-clés libres:	document historique, réseau antagoniste génératif, amélioration, suppression de la dégradation, binarisation, segmentation
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Cheriet, Mohamed
Programme:	Maîtrise en ingénierie > Génie de la production automatisée
Date de dépôt:	18 août 2022 19:08
Dernière modification:	18 août 2022 19:08
URI:	https://espace.etsmtl.ca/id/eprint/3040

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt