La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Indexation d'annotations vocales dans un contexte de gestion documentaire

Ouali, Chahid (2010). Indexation d'annotations vocales dans un contexte de gestion documentaire. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (47MB) | Prévisualisation
[img]
Prévisualisation
PDF
Télécharger (7MB) | Prévisualisation

Résumé

L'indexation des documents multimédia suscite actuellement un grand intérêt tant sur le plan expérimental que théorique. En particulier, la détection de mots clés dans des fichiers sonores est un secteur en pleine croissance. Cependant, malgré les progrès réalisés dans le domaine de l'indexation vocale, il reste beaucoup à faire notamment pour la recherche de mots clés dans la parole spontanée.

Le travail qu'on présente dans ce manuscrit s'inscrit dans le cadre de l'indexation d'annotations vocales dans un contexte de gestion documentaire. Tout d'abord, on présentera quelques systèmes de recoimaissance automatique de la parole. En se basant sur des critères précis, on a identifié deux moteurs de reconnaissance automatique de la parole qui ont fait l'objet de nos expérimentations.

Ensuite, on proposera un système de détection de mots clés dans les annotations vocales. Ce dernier sera basé sur les deux moteurs de reconnaissance automatique de la parole qu'on a choisi, à savoir le moteur de Dragon NaturallySpeaking et celui de Microsoft.

Pour tester les performances des deux systèmes, on a construit un corpus d'annotations vocales. L'évaluation des performances de transcription a été réalisée en se basant sur le taux de mot correct et le taux de précision. D'autre part, l'évaluation des performances d'indexation a été réalisée en se basant sur les courbes ROC et les taux de rappel et de précision.

Les meilleurs résultats ont été observés avec le moteur de reconnaissance de Microsoft pour le profil sans apprentissage. Alors que pour le profil entraîné, le moteur de Dragon présente les meilleures performances. Afin d'améliorer les performances, on propose d'entraîner le modèle de langage avec un grand corpus de texte d'annotations écrites.

Titre traduit

Voice annotations indexation in a context of documentary management

Résumé traduit

The induction of multi-media documents arouses currently a great interest on the experimental as well as theoretical level. Particularly, the détection of key words in sound files is a sector in fuU progress. However, despite the progress realized in the field of voice indexation, much to be donc remains and in particular for the search of key words in the spontaneous speech.

Our work presented in this manuscript registers within the Framework of the voice annotations indexation in a context of documentary management. First of ail we will present some automatic speech recognition Systems. Based on selection criterion, we hâve identified two speech recognition engines. They are the subject of our experiments.

Then, we will propose a keyword détection system in the voice annotations. This latter will be based on the two automatic speed récognition engines which we have chosen; namely the engines of Dragon Naturally Speaking and the one of Microsoft. In order to test the performance of the two Systems, we have built a corpus of voice annotations. The evaluation of the transcription performances was realized through being based upon the percentage of correct words and that of precision. On the other hand, the evaluation of the indexation performances was realized through being based on ROC curves and the recall and precision rates.

The best results were observed with the Microsoft recognition engine for the profile without training. While for the trained profile, the Dragon engine presents the best performances. So in order to improve the performances, we propose to involve the model language with a great corpus of written annotations text.

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: "Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en technologies de l'information". Bibliogr. : f. [143]-148.
Mots-clés libres: Reconnaissance automatique de la parole. Indexation automatique. indexation vocale, détection de mots clés, armotation vocale, parole spontanée.
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Dumouchel, Pierre
Programme: Maîtrise en ingénierie > Génie
Date de dépôt: 21 mars 2011 14:57
Dernière modification: 08 févr. 2017 22:42
URI: http://espace.etsmtl.ca/id/eprint/656

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...