A framework for ancient and machine-printed manuscripts categorization

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Arabnejad, Ehsan (2018). A framework for ancient and machine-printed manuscripts categorization. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (7MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (832kB) \| Prévisualisation

Résumé

Document image understanding (DIU) has attracted a lot of attention and became an of active fields of research. Although, the ultimate goal of DIU is extracting textual information of a document image, many steps are involved in a such a process such as categorization, segmentation and layout analysis. All of these steps are needed in order to obtain an accurate result from character recognition or word recognition of a document image. One of the important steps in DIU is document image categorization (DIC) that is needed in many situations such as document image written or printed in more than one script, font or language. This step provides useful information for recognition system and helps in reducing its error by allowing to incorporate a category-specific Optical Character Recognition (OCR) system or word recognition (WR) system. This research focuses on the problem of DIC in different categories of scripts, styles and languages and establishes a framework for flexible representation and feature extraction that can be adapted to many DIC problem. The current methods for DIC have many limitations and drawbacks that restrict the practical usage of these methods. We proposed an efficient framework for categorization of document image based on patch representation and Non-negative Matrix Factorization (NMF). This framework is flexible and can be adapted to different categorization problem.

Many methods exist for script identification of document image but few of them addressed the problem in handwritten manuscripts and they have many limitations and drawbacks. Therefore, our first goal is to introduce a novel method for script identification of ancient manuscripts. The proposed method is based on patch representation in which the patches are extracted using skeleton map of a document images. This representation overcomes the limitation of the current methods about the fixed level of layout. The proposed feature extraction scheme based on Projective Non-negative Matrix Factorization (PNMF) is robust against noise and handwriting variation and can be used for different scripts. The proposed method has higher performance compared to state of the art methods and can be applied to different levels of layout.

The current methods for font (style) identification are mostly proposed to be applied on machine-printed document image and many of them can only be used for a specific level of layout. Therefore, we proposed new method for font and style identification of printed and handwritten manuscripts based on patch representation and Non-negative Matrix Tri-Factorization (NMTF). The images are represented by overlapping patches obtained from the foreground pixels. The position of these patches are set based on skeleton map to reduce the number of patches. Non-Negative Matrix Tri-Factorization is used to learn bases from each fonts (style) and then these bases are used to classify a new image based on minimum representation error. The proposed method can easily be extended to new fonts as the bases for each font are learned separately from the other fonts. This method is tested on two datasets of machine-printed and ancient manuscript and the results confirmed its performance compared to the state of the art methods.

Finally, we proposed a novel method for language identification of printed and handwritten manuscripts based on patch representation and Non-negative Matrix Tri-Factorization (NMTF). The current methods for language identification are based on textual data obtained by OCR engine or images data through coding and comparing with textual data. The OCR based method needs lots of processing and the current image based method are not applicable to cursive scripts such as Arabic. In this work we introduced a new method for language identification of machine-printed and handwritten manuscripts based on patch representation and NMTF. The patch representation provides the component of the Arabic script (letters) that can not be extracted simply by segmentation methods. Then NMTF is used for dictionary learning and generating codebooks that will be used to represent document image with a histogram. The proposed method is tested on two datasets of machine-printed and handwritten manuscripts and compared to n-gram features (text-based), texture features and codebook features (imagebased) to validate the performance.

The above proposed methods are robust against variation in handwritings, changes in the font (handwriting style) and presence of degradation and are flexible that can be used to various levels of layout (from a textline to paragraph). The methods in this research have been tested on datasets of handwritten and machine-printed manuscripts and compared to state-of-the-art methods. All of the evaluations show the efficiency, robustness and flexibility of the proposed methods for categorization of document image. As mentioned before the proposed strategies provide a framework for efficient and flexible representation and feature extraction for document image categorization. This frame work can be applied to different levels of layout, the information from different levels of layout can be merged and mixed and this framework can be extended to more complex situations and different tasks.

Titre traduit

Un cadre pour la catégorisation des manuscrits anciens et imprimés

Résumé traduit

La compréhension de l’image documentaire (DIU) a attiré beaucoup d’attention et est devenue l’un des domaines de recherche actifs. Bien que le but ultime de DIU soit d’extraire des informations textuelles d’une image de document, de nombreuses étapes sont impliquées dans un tel processus tel que la catégorisation, la segmentation et l’analyse de mise en page. Toutes ces étapes sont nécessaires pour obtenir un résultat précis à partir de la reconnaissance de caractères ou de la reconnaissance de mots d’une image de document. L’une des étapes importantes dans DIU est la catégorisation d’image de document (DIC) qui est nécessaire dans de nombreuses situations telles que l’image de document multi-script ou multi-polices ou multi-langue. Cette étape fournit des informations utiles pour le système de reconnaissance et aide à réduire son erreur en permettant d’incorporer un système de reconnaissance optique de caractères (OCR) ou un système de reconnaissance de mots (WR) spécifique à une catégorie. Cette recherché se concentre sur le problème de DIC dans différents niveaux de script, de style et de langage et établit un cadre pour la représentation flexible et l’extraction de caractéristiques qui peuvent être adaptées à de nombreux problèmes DIC. Les méthodes actuelles pour DIC ont de nombreuses limitations et inconvénients qui limitent l’utilisation pratique de ces méthodes. Nous proposons des nouvelles méthodes de catégorisation de l’image de document en fonction de la représentation des patches et la «Non-negative Matrix Factorization (NMF)».

De nombreuses méthodes existent pour l’identification par script de l’image du document, mais peu d’entre elles ont abordé le problème dans les manuscrits imprimés et elles ont beaucoup de limites et d’inconvénients. Par conséquent, notre premier objectif est d’introduire une nouvelle méthode pour l’identification des manuscrits anciens. La méthode proposée est basée sur une représentation de patches dans laquelle les patches sont extraits à l’aide de la carte squelette d’une image de document. Cette représentation surmonte la limitation des méthodes actuelles sur le niveau spécifique de mise en page. Le schéma proposé d’extraction de caractéristiques basé sur la «Projective Non-negative Matrix Factorization (PNMF)» est robuste contre les variations de bruit et d’écriture et peut être utilisé pour différents scripts. La méthode propose est plus performante que les méthodes de pointe et peut être appliquée à différents niveaux de mise en page.

Les méthodes actuelles d’identification de police de caractères (ou style d’écriture) sont principalement proposées pour être appliquées sur une image de document imprimée à la machine et beaucoup d’entre elles ne peuvent être utilisées que pour une niveau de mise en page spécifique. Par conséquent, nous proposons une nouvelle méthode pour l’identification de police et de style des manuscrits imprimés et manuscrits basés sur la représentation de patch et «Non-negative Matrix Tri-Factorization (NMTF)». Les images sont représentées par des patches superposés qui ont obtenus à partir des pixels de premier plan. La position de ces patches est définie en fonction de la carte du squelette afin de réduire le nombre de patches. NMTF est utilisée pour apprendre les bases de chaque police de caractères (ou style), puis ces bases sont utilisées pour classer une nouvelle image basée sur de erreur de représentation minimale. La méthode proposée peut facilement être étendue à des nouvelles polices de caractères car les bases de chaque police de caractères sont apprises séparément des autres polices de caractères. Cette méthode est testée sur deux bases de données de manuscrits anciens et imprimés à la machine et les résultats ont confirmé sa performance par rapport aux méthodes de pointe.

Enfin, nous proposons une nouvelle méthode pour l’identification de la langue de document basée sur la représentation de patch et Non-negative Matrix Tri-Factorization (NMTF). Les méthodes d’identification du langage sont basées sur des données textuelles obtenues par le moteur OCR ou des données d’images par codage et comparaison avec des données textuelles. La méthode basée sur le moteur OCR nécessite beaucoup de traitement et la méthode base sur l’image actuelle ne s’applique pas aux scripts cursifs tels que l’Arabe. La representation du patch fournit le composant du script Arabe (lettres) qui ne peut pas être extrait simplement par des méthodes de segmentation. NMTF est utilisé pour l’apprentissage du dictionnaire et la génération de «codebook» qui seront utilisés pour représenter l’image du document avec un histogramme. La méthode proposée est testée sur deux séries de manuscrits ancients et imprimés et comparée aux caractéristiques n-gram obtenues (basées sur le texte) et aux caractéristiques de textures et de codebook (basées sur l’image) pour valider la performance.

Les méthodes proposées sont robustes a la variation des écritures, les changements dans le polices de caractères (ou style d’écriture) et la présence de dégradation. Elles sont aussi flexibles quant aux différents niveaux de mise en page (d’une ligne de texte à un paragraphe). Les méthodes de cette recherche ont été testées sur des ensembles de manuscrits et imprimés à la machine et comparées à des autres méthodes. Toutes les évaluations montrent l’efficacité, la robustesse et la flexibilité des méthodes proposées pour la catégorisation de l’image de document. Comme mentionné précédemment, les stratégies proposées fournissent un cadre pour une représentation efficace et flexible et une extraction de caractéristiques pour la categorization d’images de documents. Ce cadre de travail peut être appliqué à différents niveaux de mise en page, les informations provenant de différents niveaux de mise en page peuvent être fusionnées et mélangées et ce cadre peut être étendu à des situations plus complexes et à des problèmes différents.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Bibliographie : pages 131-141.
Mots-clés libres:	Traitement d'images Techniques numériques. Reconnaissance des formes (Informatique) Cadres d'applications (Informatique) Conception. Manuscrits Numérisation. Copies (Industries graphiques) Numérisation. Segmentation d'image. Matrices non-négatives. Regroupement des documents (Informatique) Écriture script Identification. Polices (Industries graphiques) Identification. Langage et langues Identification. patch, représentation, catégorisation d’image de document, clustering, non-negative matrix factorization, identification de script, Identification de police de caractères, Identification de langage de document
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Cheriet, Mohamed
Programme:	Doctorat en génie > Génie
Date de dépôt:	11 juill. 2018 19:11
Dernière modification:	11 juill. 2018 19:11
URI:	https://espace.etsmtl.ca/id/eprint/2067

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt