Koerich, Alessandro L. (2002). Large vocabulary off-line handwritten word recognition. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (10MB) | Prévisualisation |
Résumé
Considerable progress has been made in handwriting recognition technology over the last few years. Thus far, handwriting recognition systems have been limited to small-scale and very constrained applications where the number on different words that a system can recognize is the key point for its performance. The capability of dealing with large vocabularies, however, opens up many more applications. In order to translate the gains made by research into large and very-large vocabulary handwriting recognition, it is necessary to further improve the computational efficiency and the accuracy of the current recognition strategies and algorithms.
In this thesis we focus on efficient and accurate large vocabulary handwriting recognition. The main challenge is to speedup the recognition process and to improve the recognition accuracy. However. these two aspects are in mutual conftict. It is relatively easy to improve recognition speed while trading away some accuracy. But it is much harder to improve the recognition speed while preserving the accuracy.
First, several strategies have been investigated for improving the performance of a baseline recognition system in terms of recognition speed to deal with large and very-large vocabularies. Next, we improve the performance in terms of recognition accuracy while preserving all the original characteristics of the baseline recognition system: omniwriter, unconstrained handwriting, and dynamic lexicons.
The main contributions of this thesis are novel search strategies and a novel verification approach that allow us to achieve a 120 speedup and 10% accuracy improvement over a state-of-art baselinè recognition system for a very-large vocabulary recognition task (80,000 words). The improvements in speed are obtained by the following techniques: lexical tree search, standard and constrained lexicon-driven level building algorithms, fast two-level decoding algorithm, and a distributed recognition scheme. The recognition accuracy is improved by post-processing the list of the candidate N-best-scoring word hypotheses generated by the baseline recognition system. The list also contains the segmentation of such word hypotheses into characters . A verification module based on a neural network classifier is used to generate a score for each segmented character and in the end, the scores from the baseline recognition system and the verification module are combined to optimize performance. A rejection mechanism is introduced over the combination of the baseline recognition system with the verification module to improve significantly the word recognition rate to about 95% while rejecting 30% of the word hypotheses.
Résumé traduit
Au cours des dernières années, des progrès considérables ont été accomplis dans le domaine de la reconnaissance de l'écriture manuscrite. Ainsi, il est intéressant de constater que la plupart des systèmes existants s'appuient sur l'utilisation d'un lexique pour effectuer la reconnaissance de mots. Or, dans la plupart des applications le lexique utilisé est de petite ou de moyenne dimension. Bien entendu, la possibilité de traiter efficacement un très grand vocabulaire permettrait d'élargir le champ des applications, mais cette extension du vocabulaire (de quelques dizaines à plus de 80000 mots) a pour conséquence l'explosion de l'espace de recherche et bien souvent la dégradation des taux de reconnaissance.
Ainsi, le thème principal de cette thèse de doctorat est la reconnaissance de l'écriture manuscrite dans le cadre de l'utilisation de lexique de très grande dimension. Nous présentons tout d'abord, plusieurs stratégies pour améliorer en termes de vitesse de reconnaissance les performances d'un système de référence. L'objectif sera alors de permettre au système de traiter de très grands lexiques dans un temps raisonnable. Par la suite, nous améliorons les performances en termes de taux de reconnaissance. Pour ce faire, nous utiliserons une approche neuronale afin de vérifier les N meilleurs hypothèses de mots isolés par le système de référence. D'autre part, toutes les caractéristiques du système initial ont été conservées: système omni-scripteurs, écriture sans contraintes, et lexiques générés dynamiquement.
Les contributions majeures de cette thèse sont l'accélération d'un facteur 120 du temps de traitement et l'amélioration du taux de reconnaissance d'environ 10% par rapport au système de référence. Le gain en vitesse est obtenu grâce aux techniques suivantes: recherche dans un arbre lexical, réduction des multiples modèles de caractères, techniques de reconnaissance guidée par le lexique avec et sans contraintes, algorithme "level-building" guidé par le lexique, algorithme rapide à deux niveaux pour effectuer le décodage des séquences d'observations et utilisation d'une approche de reconnaissance distribuée. Par ailleurs, la précision du système est améliorée par le post-traitement des N meilleures hypothèses de mots à l'aide d'un module de vérification. Ce module est basé sur l'utilisation d'un réseau de neurones pour vérifier la présence de chacun des caractères segmentés par le système de base. La combinaison des résultats du système de référence et du module de vérification permet alors d'améliorer significativement les performances de reconnaissance. Enfin, une procédure de rejet est mise en place et permet d'atteindre un taux de reconnaissance d'environ 95% en ne rejetant que 30% des exemples.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "A thesis presented to the École de technologie supérieure in fulfillement of the thesis requirement for the degree of Philosophiae Doctor in engineering". Bibliogr.: p. [293]-308. |
Mots-clés libres: | Dimension, Ecriture, Hors, Hors-Ligne, Lexique, Ligne, Manuscrit, Mot, Reconnaissance |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Sabourin, Robert |
Codirecteur: | Codirecteur Suen, Ching Y. |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 12 mai 2011 20:17 |
Dernière modification: | 02 déc. 2016 16:47 |
URI: | https://espace.etsmtl.ca/id/eprint/818 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |