Optimisation d’un modèle DocVQA sans OCR: Encodage hiérarchique et structurel à faible coût de documents dans un espace multimodal commun

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Bencharef, Rayane (2025). Optimisation d’un modèle DocVQA sans OCR: Encodage hiérarchique et structurel à faible coût de documents dans un espace multimodal commun. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (8MB) | Prévisualisation

Résumé

Le nombre de documents numériques a connu une forte augmentation au cours de la dernière décennie, et ce dans différents secteurs, que ce soit industriel, médical, académique et bien d’autres. Bon nombre de ces documents proviennent de numérisations (images de documents), permettant de construire des banques de données partagées au sein d’entreprises, institutions ou même sur internet. Ces grandes bases de données peuvent directement contenir les documents numérisés ou encore être tabulaires, contenant les informations provenant de ces derniers. Cependant, l’extraction manuelle d’informations contenues sur des documents numérisés est chronophage dans un contexte où le nombre de ces derniers ne cesse d’augmenter. Ainsi, automatiser l’extraction d’informations à grande échelle devient un besoin vital, comme par exemple dans des secteurs industriels où le temps est une ressource précieuse. Cette automatisation exige cependant des systèmes rapides, précis et peu coûteux afin qu’ils puissent être efficaces sur de grandes bases de documents.

L’avènement des grands modèles de langues (LLM) a montré de bonnes performances pour l’extraction d’information sur les tâches de réponse à des questions sur des données de texte (QA). Cependant, les images de documents sont des données variées, comportant différents types d’entités (photo, tableau, texte manuscrit, etc.) et pouvant avoir différentes structures (lettre, articles, etc.). Ainsi, elles sont différentes des données que les LLM prennent en entrée, et ne sont donc pas directement utilisables par ces derniers. Par conséquent, la tâche de réponse à des questions sur des images de documents (DocVQA) nécessite de représenter les images de documents afin que les modèles de langues puissent les utiliser afin de répondre à des questions. Dans ce contexte, les approches fondées sur des outils de reconnaissance de caractères optiques (OCR) nécessitent un entraînement supplémentaire, ajoutent de la complexité au système (détection, reconnaissance) et peuvent conduire à des erreurs de transcription. À l’inverse, les méthodes bout-en-bout (OCR-free), composées d’un encodeur visuel et d’un modèle de langue, bénéficient d’une architecture unifiée permettant à la fois de représenter le document et de répondre à la question. Ce type de méthodes regroupe des modèles de petite taille, peu coûteux en termes de calcul, mais limités en qualité de réponses, ainsi que des modèles à grande échelle (LVLM), performants en termes de résultats mais trop lourds pour des déploiements industriels.

Ce mémoire présente ainsi un système DocVQA OCR-free qui apprend un espace de représentation multimodal (image-texte), composé d’un encodeur visuel hiérarchique de petite taille, d’un projecteur multimodal et d’un modèle de langue à grande échelle. L’encodeur visuel transforme l’image de document en jetons (token) projetés sur l’espace du modèle de langue via le projecteur multimodal. Cet encodeur intègre également un encodage positionnel explicite de la mise en page, préservant l’ordre de lecture et la structure des éléments (tableaux, graphiques, zones textuelles) dans l’espace commun. Le décodeur linguistique à grande échelle met directement ces représentations alignées en relation avec la question afin de générer la réponse sans outils additionnels tels que l’OCR. Ce système a été construit en distillant l’encodeur visuel de fondation d’un LVLM dans une architecture hiérarchique plus petite tout en gardant le LLM décodeur afin de réduire le coût de calcul tout en conservant des résultats proches du modèle initial. Afin d’assurer l’alignement image-texte de la représentation, l’encodeur distillé a été supervisé de bout-en-bout avec le LLM décodeur. Suite à cela, un module d’encodage spatial décomposant la position de chaque token en caractéristiques de Fourier a été ajouté afin d’enrichir les jetons par leur position d’origine sur le document. Ces approches ont été évaluées expérimentalement sur le jeu de données DocVQA, contenant des images de documents industriels de différents types (formulaires, lettres, articles, etc.). En utilisant le LVLM Paligemma qui a une performance de 84.77% ANLS, la distillation vers une architecture hiérarchique plus petite a permis de réduire la taille de son encodeur visuel par un facteur de 5, divisant de moitié sa latence (896ms → 446ms) tout en conduisant à un gap de seulement 2.1 points d’ANLS avec une performance de 82.67% ANLS. De plus, l’ajout de l’encodage positionnel a permis d’améliorer les résultats sur la qualité d’extraction des informations du document, réduisant ce gap à 1.31 points avec une performance de 83.46% ANLS. Ainsi, le système proposé surpasse en termes de performance les modèles OCR-free de petites tailles tels que Donut qui a une performance de 66.26% ANLS, et reste compétitif avec les LVLM tels que Paligemma ainsi qu’avec les méthodes se basant sur l’OCR telles que UDOP (84.70% d’ANLS).

Des analyses complémentaires sur la classification (RVL-CDIP) et l’analyse de structure (DocLayNet) montrent que l’encodeur capture la structure globale, tandis que le LLM traite cette dernière de manière plus approfondie à un niveau sémantique.

Enfin, le modèle a été adapté aux documents multi-pages via un sélecteur de page réutilisant les premières couches du LLM, sans paramètres supplémentaires. Cette approche limite le coût de calcul en maintenant le modèle à 2.6B paramètres tout en atteignant 71.73% ANLS, concurrençant les autres modèles de l’état de l’art tels que ScreenAI (72.9% ANLS/5B) ou encore DocOwl2 (69.42% ANLS/8B), démontrant une mise à l’échelle efficace pour des scénarios industriels complexes.

En résumé, ce mémoire démontre qu’un alignement image-texte guidé par une méthode OCRfree intégrant la géométrie spatiale permet de représenter des documents de structures variées contenant différents types d’entités. De plus, il souligne qu’une architecture hierarchique permet de réduire la complexité du système tout en maintenant une qualité de réponse compétitive. Enfin, l’adaptation du modèle aux documents multi-page sans paramètres supplémentaires montre l’extension du système à des cas d’utilisation plus complexes. Cette approche présente donc un DocVQA plus efficient et compétitif pour l’automatisation de l’extraction d’information.

Titre traduit

Optimization of an OCR-Free DocVQA model : Hierarchical and structural encoding at low cost of documents in a common multimodal space

Résumé traduit

The number of digital documents has seen a high increase during the last decade in several sectors such as industry, medicine, academia and others. A lot of those documents come from digitalization (document images), allowing to build shared databases inside enterprises, institutions or even across the internet. These high-scale databases may directly contain numerical documents or be tabular, having extracted information from documents. However, the manual extraction of this information can be time-consuming in a context where the number of digital documents continues to grow. Thus, automating the extraction of these information at a high scale becomes a vital need, as in industrial sectors where time is a precious resource. However, such automation requires fast, accurate and low-cost systems in order to be efficient and effective in high-scale document databases.

The advent of large language models (LLM) has shown good performance for information extraction on question-answering tasks (QA) with text data. However, document images are varied data, containing several entity types (picture, table, handwriting, text, etc.), and may have different structures (letter, article, etc.). Thus, these images are different from the data that LLM usually take as input, and therefore are not directly usable by them. Consequently, the task of visual question-answering on document images (DocVQA) needs to represent the document images in order to allow the LLM to answer the questions. In this context, methods based on optical character recognition tools (OCR) require additional training while adding complexity into the system (detection, recognition), and may lead to recognition errors. On the other hand, end-to-end methods (OCR-free), composed of a visual encoder and a language model decoder, have a unified architecture, allowing both to represent the document and answer the question. This type of methods can be divided into two groups. Firstly the lightweight methods, efficient with a small computational cost, but limited in performance. Then, there are the large visual language models (LVLM), which are accurate in performance but have a high computational cost that can lead to difficulties for industrial deployments.

Thus, this thesis presents an OCR-free DocVQA system that learns a multimodal representation space (image-text), composed of a small hierarchical visual encoder, a multimodal projector, and a LLM. The visual encoder transforms the document image into visual tokens, projected to the language model’s representation space (embedding), through the multimodal projector. This encoder also integrates an explicit positional encoding of the document structure, preserving the reading order and element structures (table, graphics, text, etc.) in the multimodal space. The language model decoder directly uses these representations with the question to generate the answer without additional tools such as OCR. This system has been built by distilling the foundational visual encoder of an LVLM into a smaller hierarchical architecture, while keeping the LLM decoder, in order to reduce computational cost while conserving close results with the initial model. To ensure the image-text alignment of the representation, the distilled encoder has been end-to-end supervised with the LLM decoder. Then, a spatial encoding module decomposes the position of each token on the document into Fourier features has been added in order to enrich the visual tokens by their original position. These approaches have been evaluated on the DocVQA dataset, which contains industrial document images of different types (forms, letters, articles, etc.). By using the LVLM Paligemma that has a performance of 84.77% ANLS, the distillation into a smaller hierarchical architecture has reduced the visual encoder size by a factor of five, halving its latency (896ms→446ms) while leading to a gap of 2.1 points of ANLS with a performance of 82.67% ANLS. Moreover, the addition of the positional encoding has improved the extraction quality of information, reducing the gap to 1.31 points with a performance of 83.46% ANLS. Thus, the proposed system outperforms the results of lightweight OCR-free methods such as Donut, which has a performance of 66.26% ANLS, and stays competitive with LVLM as Paligemma and with OCR-based models such as UDOP (84.70% ANLS).

Additional analysis on classification (RVL-CDIP) and layout analysis (DocLayNet) show that the encoder captures the global structure, where the LLM handles deeper layout reasoning at a semantic level.

Finally, the model has been adapted to multi-page documents with a page selector, sharing the LLM’s first layers. This approach limits the computational cost by keeping the model to 2.6B parameters while reaching 71.73% ANLS, competing with other state-of-the-art models such as ScreenAI (72.9% ANLS/5B) and DocOwl2 (69.42% ANLS/8B), showing an efficient scaling for complex industrial contexts.

In summary, this thesis shows that an image-text alignment led by an OCR-free method, which integrates the spatial geometry, enables the representation of document images of various structures and containing different entity types. Moreover, it underlines that a small hierarchical architecture reduces the system complexity while keeping a competitive response quality. Finally, the adaptation of the model to multi-page documents without additional parameters shows the extension of the system to more complex use cases. Thus, this approach presents a DocVQA more efficient and competitive for the automation of information extraction.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Mémoire présenté à l’École de technologie supérieure comme exigence partielle à l’obtention de la maîtrise avec mémoire en génie de la production automatisée". Comprend des références bibliographiques (pages 95-102).
Mots-clés libres:	DocVQA, image de documents, OCR-Free, espace de représentation
Directeur de mémoire/thèse:	Directeur(-trice) Cheriet, Mohamed
Programme:	Maîtrise en ingénierie > Génie de la production automatisée
Date de dépôt:	22 déc. 2025 16:49
Dernière modification:	22 déc. 2025 16:49
URI:	https://espace.etsmtl.ca/id/eprint/3762

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt