Visual information retrieval from historical document images

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Zhalehpour, Sara (2018). Visual information retrieval from historical document images. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (26MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (2MB) \| Prévisualisation

Résumé

In the recent decades, preserving and publicizing historical documents in digital format has gotten considerable attention. Although modern digitizing techniques have mostly solved the problem of protecting and accessing these documents, the task of visual information retrieval and interpretation is still an arduous issue. This is due to historical documents’ complex and unusual structures beside their degraded nature. For information retrieval from historical documents, an appropriate approach is required to characterize the document content in a coherent way. Printed documents contain not only text characters and their formattings but also some associated typographical elements. Finding and pursuing the existing visual typographical objects that shape the content of historical documents, helps us retrieve and convey more information about the various methods of representing these documents. These elements can be footnotes that connect the authority and demonstrate the relationship between manuscripts and sources, or tables that summarize different sort of information into geometric forms. This research focuses on the problem of detecting footnotes and tables in historical documents and establishes a framework for each of the driven objectives. These frameworks must efficiently handle complex structures of historical documents and at the same time possess the generalization power to be applied to large-scale document image collections.

To the best of our knowledge, up to this date, footnote detection has rarely been addressed in the literature. Therefore, our first goal is to present a novel framework for footnote-based document image classification in historical documents. The basic idea behind this framework is to utilize the most prominent visual features of a footnote to create a feature vector. The three most notable visual features of a footnote in a page are the smaller font size of the footnote respect to the body text, the footnote location at the bottom of the page and the relatively greater gap between the footnote and the body text compared to the standard line space. Three methods are proposed according to each of these observations. We define a set of rules using these observations to create our final feature vector. Our framework for footnote-based document image classification in the historical documents is completed by feeding these feature vectors to a support vector machine (SVM) classifier. The proposed framework is applied to more than 32 million images from 18th century. The evaluation results prove the efficiency, generalization power, and robustness of our presented framework for detecting page containing footnote despite their layout and structure type.

The state-of-the-art methods for table detection in documents mostly use markup documents (e.g., pdf, HTML, etc.) and do not cover all types of the tables within one framework. However, for historical documents, which are our main target for this thesis, we only have access to the scanned image and need to deal with all types of tables at the same time. The proposed framework is based on the hypothesis that texts in tables occur in a harmonic column-wise manner. This fact suggests the idea of using a spectral method for developing our framework. We propose an approach based on using Mel frequency cepstral coefficients (MFCC) to classify document images according to the presence or not presence of tables on the page. MFCCs are well-known speech processing features, which emphasize lower frequency components rather than higher ones. An SVM classifier is used as the final step of our framework for detecting pages containing tables. We test the introduced framework on our datasets and the results confirm the efficiency of the proposed method in comparison to both a state-of-the-art method and our benchmark dataset from the 18th century printed documents.

Titre traduit

La recherché d'information visuelle à partir d'images de documents historiques

Résumé traduit

Au cours des dernières décennies, la préservation et la publication de documents historiques en format numérique ont fait l’objet d’une attention considérable. Bien que les techniques modernes de numérisation aient pour la plupart résolu le problème de la protection et de l’accès à ces documents, la tâche de la recherche et de l’interprétation de l’information visuelle demeure un problème difficile. Cela est dû aux structures complexes et inhabituelles des documents historiques en plus de leur nature dégradée. Pour la recherche d’informations à partir de documents historiques, une approche appropriée est nécessaire pour caractériser le contenu du document de manière cohérente. Les documents imprimés contiennent non seulement des caractères de texte et leurs formats, mais également des éléments typographiques associés. Trouver et poursuivre les objets typographiques visuels existants qui façonnent le contenu des documents historiques nous aide à récupérer et à transmettre plus d’informations sur les différentes méthodes de représentation de ces documents. Ces éléments peuvent être des notes de bas de page qui font référence aux auteurs et démontrent la relation entre les manuscrits et les sources, ou des tableaux qui résument différentes sortes d’informations dans des forms géométriques. Cette recherche se concentre sur le problème de la détection des notes de bas de page et des tableaux dans les documents historiques et établit un cadre pour chacun des objectifs déterminés. Ces cadres doivent gérer efficacement des structures complexes de documents historiques et posséder en même temps le pouvoir de généralisation pour s’appliquer aux collections d’images de documents à grande échelle. Jusqu’à maintenant, la détection des notes de bas de page a rarement été abordée dans la littérature.

Par conséquent, notre première contribution est de présenter un nouveau cadre pour la classification des images de documents basée sur les notes de bas de page dans les documents historiques. L’idée de base derrière ce cadre est d’utiliser les caractéristiques visuelles les plus importantes d’une note de bas de page pour créer un vecteur de caractéristiques. Les trois caractéristiques visuelles les plus importantes d’une note de bas de page sont la taille réduite de la note par rapport au corps du texte, l’emplacement de la note au bas de la page et l’écart relativement plus important entre la note et le corps du texte comparé à l’espace de ligne standard. Trois méthodes sont proposées en fonction de chacune de ces observations. Nous définissons certaines règles à l’aide de ces observations pour créer notre vecteur de caractéristiques. Notre cadre pour la classification des images de documents basée sur les notes de bas de page dans les documents historiques est complété en alimentant par ces vecteurs caractéristiques un classificateur de machine à vecteurs de support (SVM). Le cadre proposé est appliqué à plus de 32 millions d’images du 18 ème siècle. Les résultats de l’évaluation prouvent l’efficacité, la puissance de généralisation et la robustesse de notre cadre présenté pour détecter les pages contenant une note de bas de page malgré leur mise en page et leur type de structure.

Les méthodes les plus récentes de détection de tableaux dans les documents utilisent principalement des documents de balisage (par exemple, pdf, HTML, etc.) et ne couvrent pas tous les types de tableaux dans un cadre. Cependant, pour les documents historiques, qui sont notre principale étude dans le cadre de cette thèse, nous avons seulement accès à l’image numérisée et devons traiter tous les types de tableaux en même temps. Le cadre proposé est basé sur l’hypothèse que les textes dans les tableaux se présentent de manière harmonique en colonnes. Ce fait suggère l’idée d’utiliser une méthode spectrale pour développer notre cadre. Nous proposons une approche basée sur l’utilisation de coefficients cepstraux de fréquence de Mel (MFCC) pour classer des images de document selon la présence ou non de tableaux dans la page. Les MFCC sont des procédures bien connues de reconnaissances automatiques de la parole. Ces méthodes mettent l’accent sur la fréquence basses du signal. Un classificateur SVM est utilisé comme dernière étape de notre framework pour détecter les pages contenant des tableaux. Nous testons le cadre introduit sur nos ensembles de données et les résultats confirment l’efficacité de la méthode proposée par rapport à la fois à une méthode reconnue et à notre ensemble de données de référence des documents imprimés du 18ème siècle.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment of a master's degree with thesis in automated manufacturing engineering". Comprend des références bibliographiques (pages 151-163).
Mots-clés libres:	recherche d’information visuelle, document historique image, classification des documents, détection de note, boîtes de délimitation, projection horizontale, détection de tableaux, tableaux de lignes de régnant, tableaux de lignes non-régnant, MFCC, machines à vecteurs de support
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Cheriet, Mohamed
Programme:	Maîtrise en ingénierie > Génie de la production automatisée
Date de dépôt:	06 mai 2019 15:17
Dernière modification:	06 mai 2019 15:17
URI:	https://espace.etsmtl.ca/id/eprint/2297

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt