La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Un nouvel algorithme de sélection de caractéristiques : application à la lecture automatique de l'écriture manuscrite

Grandidier, Frédéric (2003). Un nouvel algorithme de sélection de caractéristiques : application à la lecture automatique de l'écriture manuscrite. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (8MB) | Prévisualisation

Résumé

La problématique abordée dans cette thèse est celle de la reconnaissance de l'écriture manuscrite hors-ligne, avec pour application industrielle le tri automatique du courrier. En effet le Service de Recherche Technique de La Poste (France) nous a donné pour mandat d'améliorer son système de reconnaissance de l'écriture manuscrite. Une analyse approfondie du système existant a permis de dégager une direction principale de recherche: l'amélioration de la représentation de l'information fournie au système de reconnaissance. Elle est caractérisée par deux ensembles finis de primitives, qui sont comnbinés avant intégration dans le système, au moyen d'un produit cartésien.

L'amélioration de la représentation de l'information passe par l'extraction de nouvelles primitives. Dans cette optique, trois nouveaux espaces de représentation ont été développés. L'utilisation d'un algorithme de quantification vectorielle permet de construire plusieurs ensembles de primitives. Afin d'augmenter le pouvoir discriminant de ces dernières, différentes stratégies ont été évaluées: l'analyse discriminante linéaire, la technique de zoning et en association avec cette dernière stratégie de pondération des zones. La combinaison des espaces de représentation et des stratégies d'amélioration a conduit à la construction de plusieurs systèmes de reconnaissance obtenant de meilleures performances que système de base.

La technique permettant de combiner les ensembles de primitives dans le système de base ne peut pas être utilisée. Un nouvel algorithme a été développé afin d'intégrer de nouveaux ensembles de primitives. L'idée de base est de remplacer les primitives les moins discriminantes d'un ensemble de départ par de nouvelles. Une stratégie effectuant des regroupements de primitives non-discriminantes permet de décomposer la tâche globale de reconnaissance en sous-problèmes. La définition et la sélection dynamique de nouvelles primitives est alors orientée par cette décomposition. L'application de l'algorithme aboutit à une représentation de l'information améliorée caractérisée par une hiérarchie de primitives. Son déroulement automatique permet une adaptation rapide à de nouvelles données ou à la disponibilité d'un nouvel espace de représentation. Les performances du système de base, utilisant la combinaison de deux ensembles de primitives est de 89,5% lors de l'utilisation d'un lexique de taille 1 000. L'amélioration d'un des deux ensembles conduit à une performance de 94,3%, tout en diminuant de 20% le nombre de primitives utilisées.

Titre traduit

A new feature selection algorithm - application to automatic reading of cursive handwriting

Résumé anglais

The global theme of this thesis is the off-line handwriting recognition dedicated to the industrial automatic mail sorting application. The authors have obtained a contract with SRTP (Service de Recherche Technique de La Poste) to improve their off-line handwriting recognition system, that is currently integrated in some mail sorting machines. An exhaustive analysis of the SRTP system shows that its main weakness is the representation of the image information provided to the recognition system. Two information sources are combined by Cartesian multiplication, thus allowing their integration in the system.

The improvement of the information representation can be achieved by extracting several new feature sets. With this goal, we develop three feature spaces, allowing the building of feature sets with the help of a vector quantization algorithm. ln order to improve the discriminative power of these features, we propose a new strategy allowing the use of linear discriminant analysis. Moreover, several zoning strategies were used in order to take into account some contextual information. A weighting technique was also applied in association with zoning to integrale sample style information during feature extraction. The combination of feature spaces and the above strategies leads to a significant improvement in the SRTP system recognition rates.

In order to integrate the above information sources into the recognition system, we have developed a new algorithm. The main idea is to replace the less discriminating features of a given set by new ones. We propose to gather some non-discriminative features according to the given properties. The resulting groups can be viewed as several sub-problems of the global recognition task. The dynamic definition and selection of new feature sets, according to the properties of each group, allow the combination of the information sources in a relevant manner. Finally, the algorithm application results in a feature hierarchy. The automatic aspect of the algorithm gives it a fast adaptability to new data or information sources. Its application on a feature set used by the SRTP system shows an absolute improvement of more than 5% in the recognition rate, compared to those obtained by the basic system using two feature sets. Moreover, a reduction of 20% in the number of features can be achieved.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Thèse présentée à l'École de technologie supérieure comme exigence partielle à l'obtention du doctorat en génie". Bibliogr.: f. [274]-287.
Mots-clés libres: Algorithme, Application, Automatique, Caracteristique, Courrier, Ecriture, France, Hors-Ligne, Lecture, Manuscrit, Reconnaissance, Selection, Systeme, Tri
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Sabourin, Robert
Co-directeurs de mémoire/thèse:
Co-directeurs de mémoire/thèse
Suen, Ching Y.
Programme: Doctorat en génie > Génie
Date de dépôt: 06 mai 2011 20:45
Dernière modification: 14 oct. 2016 21:43
URI: http://espace.etsmtl.ca/id/eprint/730

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...