Apprentissage profond de formes manuscrites pour la reconnaissance et le repérage efficace de l'écriture dans les documents numérisés

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Mhiri, Mohamed (2018). Apprentissage profond de formes manuscrites pour la reconnaissance et le repérage efficace de l'écriture dans les documents numérisés. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (2MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (597kB) \| Prévisualisation

Résumé

Malgré les efforts importants de la communauté d’analyse de documents, définir une representation robuste pour les formes manuscrites demeure un défi de taille. Une telle representation ne peut pas être définie explicitement par un ensemble de règles, et doit plutôt être obtenue avec une extraction intelligente de caractéristiques de haut niveau à partir d’images de documents. Dans cette thèse, les modèles d’apprentissage profond sont investigués pour la representation automatique de formes manuscrites. Les représentations proposées par ces modèles sont utilisées pour définir un système de reconnaissance et de repérage de mots individuels dans les documents. Le choix de traiter les mots individuellement est motivé par le fait que n’importe quel texte peut être segmenté en un ensemble de mots séparés.

Dans une première contribution, une représentation non supervisée profonde est proposée pour la tâche de repérage de mots manuscrits. Cette représentation se base sur l’algorithme de regroupement spherical k-means, qui est employé pour construire une hiérarchie de fonctions paramétriques encodant les images de documents. Les avantages de cette représentation sont multiples. Tout d’abord, elle est définie de manière non supervisée, ce qui évite la nécessité d’avoir des données annotées pour l’entraînement. Ensuite, elle se calcule rapidement et est de taille compacte, permettant ainsi de repérer des mots efficacement.

Dans une deuxième contribution, un modèle de bout en bout est développé pour la reconnaissance de mots manuscrits. Ce modèle est composé d’un réseau de neurones convolutifs qui prend en entrée l’image d’un mot et produit en sortie une représentation du texte reconnu. Ce texte est représenté sous la forme d’un ensemble de sous-sequences bidirectionnelles de caractères formant une hiérarchie. Cette représentation se distingue des approches existantes dans la littérature et offre plusieurs avantages par rapport à celles-ci. Notamment, elle est binaire et a une taille fixe, ce qui la rend robuste à la taille du texte. Par ailleurs, elle capture la distribution des sous-séquences de caractères dans le corpus d’entraînement, et permet donc au modèle entraîné de transférer cette connaissance à de nouveaux mots contenant les memes sous-séquences.

Dans une troisième et dernière contribution, un modèle de bout en bout est proposé pour résoudre simultanément les tâches de repérage et de reconnaissance. Ce modèle intègre conjointement les textes et les images de mots dans un seul espace vectoriel. Une image est projetée dans cet espace via un réseau de neurones convolutifs entraîné à détecter les différentes forms de caractères. De même, un mot est projeté dans cet espace via un réseau de neurones récurrents. Le modèle proposé est entraîné de manière à ce que l’image d’un mot et son texte soient projetés au même point. Dans l’espace vectoriel appris, les tâches de repérage et de reconnaissance peuvent être traitées efficacement comme un problème de recherche des plus proches voisins.

Titre traduit

Deep learning of written shapes for efficient recognition and spotting of handwriting in scanned documents

Résumé traduit

Despite receiving a lot of attention from the document analysis community, defining a robust handwriting representation remains to this day an unsolved problem. Such representation cannot be defined explicitly using a set of rules, and should instead be obtained from the intelligent extraction of high level features from document images. In this thesis, deep learning models are investigated to learn a representation for handwriting. The learned representations are used to define a system for recognizing and spotting handwritten words. The choice of handling segmented words is motivated by the fact that any written text can be segmented into a set of separated word images.

In our first contribution, an unsupervised deep handwriting representation is introduced for the task of word spotting. This representation is based on the spherical k-means algorithm, which is used to build a hierarchy of parametric functions encoding document images. The advantages of this representation are diverse. First, it is defined automatically in unsupervised manner, thereby avoiding the need for labeled data for training. It can also be quickly calculated and has a compact size, which enables efficient word spotting.

In our second contribution, an end-to-end model for handwritten word recognition is presented. This model is composed of a deep convolutional neural network (CNNs), which takes as input a word image and produces as output a representation for the recognized text. This text representation, called pyramid of bidirectional character sequences, encodes sub-sequences of characters in a hierarchical manner, considering both forward and backward directions. It has several advantages compared to existing approaches. It is binary and has a fixed size, making it robust to the text length. Moreover, it captures the distribution of character sub-sequences in the training document corpus, which allows the trained model to transfer this knowledge to new words containing the same sub-sequences.

In our third and last contribution, an end-to-end model is proposed to solve the word recognition and the word spotting tasks simultaneously. This model is used for the joint embedding of handwritten word texts and images. Word images are embedded via a convolution neural network (CNN), which is trained to predict a representation modeling character-level information. Likewise, a recurrent neural network (RNN) is used to map a sequence of characters to the joint subspace representation. This embedding model is trained such that a word image and its text are projected at the same point in the embedding space, where the tasks of word spotting and word recognition are carried out as a nearest neighbor search problem.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thèse par articles présentée à l'École de technologie supérieure comme exigence partielle à l'obtention du doctorat en génie". Comprend des références bibliographiques (pages 89-97).
Mots-clés libres:	apprentissage profond, apprentissage de représentation, repérage d’écriture manuscrite, reconnaissance d’écriture manuscrite, réseaux neuronaux récurrents, réseau de neurones convolutifs
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Cheriet, Mohamed
Codirecteur:	Codirecteur Desrosiers, Christian
Programme:	Doctorat en génie > Génie
Date de dépôt:	19 févr. 2019 17:26
Dernière modification:	19 févr. 2019 17:26
URI:	https://espace.etsmtl.ca/id/eprint/2206

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt