Deep learning-based approach for illustration and diagram detection in large-scale datasets of historical document images

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Hajabedi, Zohreh (2021). Deep learning-based approach for illustration and diagram detection in large-scale datasets of historical document images. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (8MB) | Prévisualisation

Résumé

Historical manuscripts contain precious information regarding human being’s cultures and knowledge in many different domains. These valuable resources need to be preserved, maintained and shared. To this end, nowadays, repositories of digitized documents have been created from these manuscripts and as a result, huge volumes of scanned document images are available. Retrieving information from extremely large digitized resources is the next concern. On the other hand, the diversity in structure and layout of these ancient manuscripts, as well as the deterioration that is usual in historical documents, make extracting information and analyzing them a challenging task that is unlikely to be done by human beings.

Besides text contents, historical documents also contain some typographical objects such as illustrations and diagrams which carry visual knowledge and support the document content by providing an abstract view of the concepts. These objects help to understand the text content more productively. Identifying these typographical objects gives us information regarding the structure of documents. Moreover, information about typographical objects would be beneficial in creating indexes and metadata for large repositories of digitized documents.

Due to the recent promising success of deep learning approaches in computer vision applications, in this thesis, a CNN-based approach has been used to detect illustrations and diagrams and classify the document images based on the presence of these typographical objects. The proposed model has been applied on large datasets of historical document images of ECCO and NAS. These two datasets contain over 32 Million and 500,000 ancient document images respectively.

Similarly to the other real-world applications, in our target datasets, we had access to only a restricted number of labelled data as training and test set. Furthermore, our training dataset is imbalanced and there is an unequal distribution of classes. To deal with these issues and also to alleviate the resulting overfitting, we have empowered our approach with regularization and augmentation techniques to improve the performance. The final model achieved promising results on the large datasets of ECCO and NAS.

Titre traduit

Approche fondée sur l’apprentissage profond pour la détection des illustrations et des diagrammes dans des bases de données à large échelle d’images de documents historiques

Résumé traduit

Les manuscrits historiques contiennent des informations précieuses sur les cultures et les connaissances de l’être humain dans de nombreux domaines. Ces précieuses ressources doivent être préservées, entretenues et partagées. À cette fin, de nos jours, des référentiels de documents numérisés ont été créés à partir de ces ressources et, par conséquent, de larges volumes d'images de documents numérisés sont maintenant disponibles. Le défi est alors de récupérer des informations à partir des ressources numérisées extrêmement volumineuses. D'autre part, la diversité de la structure et de la mise en page de ces manuscrits anciens, ainsi que la détérioration habituelle des documents historiques, font de l'extraction des informations et de leur analyse une tâche difficile qui est peu susceptible d'être effectuée par des êtres humains.

Outre le contenu du texte, les documents historiques contiennent également des objets typographiques tels que des illustrations et des diagrammes qui portent des connaissances visuelles et soutiennent le contenu du document en fournissant une vue abstraite des concepts. Ces objets aident à comprendre le contenu du texte de manière plus productive. L'identification de ces objets typographiques nous renseigne sur la structure des documents. De plus, des informations sur les objets typographiques seraient utiles pour créer un index et des métadonnées pour les grands référentiels de documents numérisés.

En raison du récent succès des approches d'apprentissage profond dans les applications de vision par ordinateur, dans cette thèse, une approche basée sur CNN a été utilisée pour détecter les illustrations et les diagrammes et classer les images du document en fonction de la présence de ces objets typographiques. Le modèle proposé a été appliqué à de grandes bases de données d'images de documents historiques d'ECCO et de NAS. Ces deux bases de données contiennent respectivement plus de 32 millions et 500,000 images de documents anciens.

À l'instar des autres applications du monde réel, dans nos bases de données cibles, nous avions accès à un nombre limité de données étiquetées pour l'ensemble d'entraînement et de test. De plus, notre base de données d'entraînement est déséquilibrée et il y a une distribution inégale des classes. Pour faire face à ces problèmes et aussi pour atténuer le surapprentissage qui en résulte, nous avons rai forcé notre approche avec des techniques de régularisation et d'augmentation pour améliorer les performances. Le modèle final a obtenu des résultats prometteurs sur les grands ensembles de données ECCO et NAS.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in software engineering". Comprend des références bibliographiques (pages 79-83).
Mots-clés libres:	analyse d'image de document, images de documents historiques, détection d'illustration, détection de diagramme, classification d'image de document, deep learning, Jeu de données déséquilibré, augmentation
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Cheriet, Mohamed
Programme:	Maîtrise en ingénierie > Génie
Date de dépôt:	05 avr. 2022 18:44
Dernière modification:	05 avr. 2022 18:44
URI:	https://espace.etsmtl.ca/id/eprint/2948

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt