La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Recherche d'information dans les images de documents

Fataicha, Youssef (2005). Recherche d'information dans les images de documents. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (6MB) | Prévisualisation

Résumé

L'image de document est un objet intelligible qui véhicule de l'information et qui est défini en fonction de son contenu. Cette thèse présente trois modèles de repérage d'information et de recherche d'images pertinentes à la requête d'un utilisateur.

Le premier modèle de repérage des zones informationnelles est basé sur l'analyse multi échelle traduisant le contraste visuel des régions sombres par rapport au fond de l'image. Chaque région extraite est définie à partir de son contenu et ses caractéristiques statistiques et géométriques. L'algorithme de classification automatique est amélioré par l'application de règles de production déduites des formes des objets extraits. Une première évaluation de l'extraction du texte, des logos et des photographies sur les images de l'équipe Média Team de l'Université de Washington (UW-1) montre des résultats encourageants.

Le deuxième modèle est basé sur le texte obtenu par Reconnaissance Optique de Caractères (OCR). Des erreurs-grammes et des règles de production modélisant les erreurs de reconnaissance de l'OCR sont utilisées pour l'extension des mots de la requête. Le modèle vectoriel est alors appliqué pour modéliser le texte OCR des images de documents et la requête pour la recherche d'information (RI). Un apprentissage sur les images Média Team (UW-2) et des tests sur un millier d'images Web ont validé cette approche. Les résultats obtenus indiquent une nette amélioration comparés aux méthodes standards comme le modèle vectoriel sans l'expansion de la requête et la méthode de recouvrement 3-grams.

Pour les zones non textuelles, un troisième modèle vectoriel, basé sur les variations des paramètres de l'opérateur multi-échelle SKCS(Separable Kernel with Compact Support) et une combinaison de classifieurs et d'analyse de sous-espace en composantes principales MKL (Multi-espace Karhunen-Loeve) est appliqué sur une base d'apprentissage d'images de documents de Washington University et de pages Web. Les expériences ont montré une supériorité de l'interprétation et la puissance des vecteurs d'indexations déduits de la classification et représentant les zones non textuelles de l'image.

Finalement, un système hybride d'indexation combinant les modèles textuels et non-textuels a été introduit pour répondre à des requêtes plus complexes portant sur des parties de l'image de documents telles un texte, une illustration, un logo ou un graphe. Les expériences ont montré la puissance d'interrogation par des mots ou des images requêtes et ont permis d'aboutir à des résultats encourageants dans la recherche d'images pertinentes qui surpassent ceux obtenus par les méthodes traditionnelles comme révèle une évaluation des rappels vs. précision conduite sur des requêtes portant sur des images de documents.

Titre traduit

Information retrieval on document images

Résumé traduit

This thesis presents three approaches and an hybrid Information Retrieval (IR) system to locate and retrieve the informational areas in the document images.

Nowadays, scale space has been widely adopted as the most promising multi-scale image document analysis method. We propose a new approach using Separable Kernel Compact Support (SKCS) in order to analyse the composite document images. In the proposed method, SKCS transform is used to decompose an image into different scaled abjects where the scale value is used for detecting progressively finer objects.

In a second work, we present a statistical and an expanded queries method of the retrieval process and the recognition errors obtained from electronic documents produced by scanning and OCR software. It uses an automatic approach to select additional words for possible erroneous terms for query expansion. The confused characters in erroneous words are located to create a collection of erroneous error-grams used to generate additional query terms. A vector space IR model is used to identify appropriate matching terms, and determine the degree of relevance of retrieved document images to the user's query. The proposed approach has been trained and tested on a thousand of different document images qualities and the performance of our method is evaluated experimentally by determining retrieval effectiveness with respect to recall and precision. The results obtained show its effectiveness and indicate an improvement as compared to standard methods such as vector space IR systems without expanded query and 3-gram overlapping.

In a third work, we present a unsupervised hierarchical method and an hybrid system for the retrieval of non textual areas. This method uses the hierarchical regions extracted at different scales. The first, a rough geometric structure on which admissible decompositions are defined with the preliminary segmented abjects, is used to ensure a crude registration of the non textual areas. An accurate reconstruction is then performed for each detected area by a fusion process on the extracted objects. The features are then determined and we use a statistical model based on K-means and Multi-space Karhunen-Loève Analysers (MKL) to classify the extracted objects. The separate use of these methods did not give better results, an alternative using a mixture of k-means and MKL gives interesting results. The document image retrieval containing a given nontextual areas is largely improved by the use of an hybrid system integrating the text and the characteristics of nontext areas.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Thèse présentée à l'École de technologie supérieure comme exigence partielle à l'obtention du doctorat en génie". Bibliogr.: f. [157]-163. Chap. 1. Introduction -- Chap. 2. État de l'art -- Chap. 3. Repérage des zones informationnellles -- Chap. 4. Recherche d'information reliée à la reconnaissance par OCR -- Chap. 5. Repérage des zones non textuelles -- Chap. 6. Approche hybride pour la recherche d'information -- Chap. 7. Expérimentation et validation -- Chap. 8. Conclusion générale et perspectives.
Mots-clés libres: Analyse, Caractere, Classifieur, Composante, Contraste, Document, Hybride, Image, Indexation, Information, Mkl, Modele, Multi-Echelle, Non, OCR, Optique, Recherche, Reconnaissance, Reperage, SKCS, Sous-Espace, Textuel, Vecteur, Vectoriel, Visuel.
Directeur de mémoire/thèse:
Directeur de thèse
Cheriet, Mohamed
Co-directeurs de mémoire/thèse:
Co-directeurs de thèse
Nie, Jian-Yun
Programme: Doctorat en génie > Génie
Date de dépôt: 31 janv. 2011 21:18
Dernière modification: 01 nov. 2016 00:22
URI: http://espace.etsmtl.ca/id/eprint/376

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...