La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Representation learning for document image analysis with practical considerations

Téléchargements

Téléchargements par mois depuis la dernière année

Plus de statistiques...

Abuelwafa, Sherif (2021). Representation learning for document image analysis with practical considerations. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of ABUELWAFA_Sherif.pdf]
Prévisualisation
PDF
Télécharger (7MB) | Prévisualisation

Résumé

This thesis sets up reliable document image representation learning approaches that can stand up to the practical real-world challenges currently facing the document image analysis field. Particularly, two challenges are tackled, performing efficient analysis on large-scale datasets and adapting to the scarcity of labeled training data. The proposed approaches aim to improve the performance of the document image analysis processes when applied to real-world use-cases. For this purpose, we address the practical challenges in two main tasks of document image analysis, classification and semantic segmentation.

Current document representation approaches usually focus on use-cases with an unrealistic assumption that any document representation can well generalize when applied on large-scale document datasets. Therefore, we first propose a document representation approach for the task of document classification that can generalize well for such large-scale datasets. The classification process in this task is based on the existence of a distinctive visual local object (e.g., footnote) within the document image, which is of high relevance to various use-cases in the document image analysis field. The proposed approach is applied to datasets that contain more than 32 million document images and show a consistent reliable performance across various datasets using less than 0.07% of the dataset’s samples for training.

Many recent representation learning approaches are based on supervised feature learning, which requires a large amount of annotated training document images to obtain reliable performance. Meanwhile, in real-world use-cases, the available amount of labeled data is very limited and scarce, while a large amount of unlabeled data is often abundant. We, therefore, propose a document representation learning approach for the task of document classification, which is capable of learning features solely from unlabeled data, and without any dependence on hand-crafted features. Unlike our earlier work above, the classification process in this work is based on the global context of the document image. Our approach utilizes unlabeled data to learn a representation that is used later for document classification either with few labeled data or with no labeled data. The efficiency of the proposed approach and its associated performance boost is demonstrated with the obtained experimental results.

Considering each previously classified document, we finally propose a document representation learning approach for the task of document semantic segmentation to obtain an additional interpretation of that document’s content and prepare it for further analysis tasks. This approach is capable of learning features from unlabeled data without requiring annotated data, datasetdependant heuristics techniques, or textual information. In addition, it tackles the common challenge of having high inter-class similarities between different semantic classes. Experiments on various public datasets demonstrate the effectiveness of our proposed approach by yielding better results than earlier approaches.

Titre traduit

Apprentissage de représentations basé sur des considérations pratiques pour l’analyse d’images de documents

Résumé traduit

Cette thèse met en place des approches d’apprentissage fiables de représentations d’images de documents qui peuvent relever les défis pratiques du monde réel auxquels est actuellement confronté le domaine de l’analyse d’images de documents. En particulier, deux défis sont relevés: effectuer une analyse efficace sur des ensembles de données à grande échelle et s’adapter à la rareté des données d’apprentissage étiquetées. Les approches proposées visent à améliorer les performances des processus d’analyse d’images de documents lorsqu’elles sont appliquées à des cas d’usages réels. À cette fin, nous abordons les défis pratiques dans deux tâches principales pour l’analyse d’images de documents, la classification et la segmentation sémantique.

Les approches actuelles de représentation de documents se concentrent généralement sur des cas d’usages basés sur l’hypothèse irréaliste selon laquelle toute représentation de documents peut être généralisée lorsqu’elle est appliquée sur des ensembles à grande échelle de données de documents. Par conséquent, nous proposons d’abord une approche de représentation de documents pour la tâche de classification de documents qui peut bien se généraliser pour de tels ensembles de données à grande échelle. Le processus de classification dans cette tâche est basé sur l’existence d’un objet visuel local distinctif (par exemple, une note de bas de page) dans l’image du document, ce qui est très pertinent pour divers cas d’usage dans le domaine de l’analyse d’image de document. L’approche proposée est appliquée à des ensembles de données qui contiennent plus de 32 millions d’images de documents et montre une performance fiable et constante dans divers ensembles de données en utilisant moins de 0,07 % des échantillons de l’ensemble de données pour l’entrainement.

De nombreuses approches récentes d’apprentissage de représentations sont basées sur l’apprentissage supervisé des caractéristiques, ce qui nécessite pour l’entrainement une grande quantité d’images de documents étiquetées pour obtenir des performances fiables. Cependant, dans les cas d’usages réels, la quantité disponible de données étiquetées est très limitée et rare, tandis qu’une grande quantité de données non étiquetées est souvent abondante. Nous proposons donc, pour la tâche de classification des documents, une approche d’apprentissage de représentations de documents capable d’apprendre des caractéristiques uniquement à partir de données non étiquetées, et sans aucune dépendance à des caractéristiques conçues manuellement. Contrairement à notre travail précédent ci-dessus, le processus de classification dans ce travail est basé sur le contexte global de l’image du document. Notre approche utilise des données non étiquetées pour apprendre une représentation qui est utilisée ultérieurement pour la classification de documents, soit avec peu de données étiquetées, soit sans données étiquetées. L’efficacité de l’approche proposée et l’amélioration des performances qui en découle sont démontrées par les résultats expérimentaux obtenus.

En considérant chaque document précédemment classifié, nous proposons enfin une approche d’apprentissage de représentations de documents pour la tâche de segmentation sémantique du document afin d’obtenir une interprétation supplémentaire du contenu de ce document et de le préparer pour d’autres tâches d’analyse. Cette approche est capable d’apprendre des caractéristiques à partir de données non étiquetées sans nécessiter de données annotées, de techniques heuristiques dépendantes des ensembles de données ou d’informations textuelles. En outre, il s’attaque au défi bien connu des similitudes inter-classes élevées entre les différentes classes sémantiques. Des expériences sur divers ensembles de données publiques démontrent l’efficacité de l’approche que nous proposons en produisant de meilleurs résultats que les approches précédentes.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 129-139).
Mots-clés libres: analyse de documents, apprentissage de représentations d’images de documents, classification de documents, segmentation sémantique de documents
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Cheriet, Mohamed
Programme: Doctorat en génie > Génie
Date de dépôt: 08 févr. 2022 20:33
Dernière modification: 08 févr. 2022 20:33
URI: https://espace.etsmtl.ca/id/eprint/2886

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt