La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

La reconnaissance du locuteur à l'aide de la transformée en ondelettes continue

Velho, Filipe (2006). La reconnaissance du locuteur à l'aide de la transformée en ondelettes continue. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (6MB) | Prévisualisation

Résumé

Nous présentons ici un système d'identification du locuteur, fonctionnant en mode indépendant du texte, dans un environnement non bruité, combinant la TOC et les MFCC pour l'extraction des vecteurs de caractéristiques, le tout basé sur une modélisation par GMM.

Notre système de reconnaissance exploite l'hypothèse selon laquelle les différentes échelles de la TOC peuvent servir à mettre en évidence la variabilité inter-locuteurs d'une population, ceci, en faisant ressortir d'autres caractéristiques qui apparaissent à certaines échelles et qui ne s'expriment pas de la même manière dans le signal de parole d'origine. La méthode pour sélectionner les coefficients de la TOC que nous utiliserons consiste à les sélectionner tous sur une même échelle. Ceci élimine substantiellement la redondance de celle-ci.

Titre traduit

The continuous wavelet transform

Résumé anglais

Few authors only have studied speech signal processing with the CWT which performances are often good in other domains. The reasons why it has been set apart concern the high redundancy which is obtained with the CWT. It is very difficult to extract the useful data by choosing the good coefficients.

This work presents high performance speaker identification text-independent systems combining the CWT and the MFCC for feature extraction, and based on Gaussian mixture models.

This speaker identification strategy combines three elements of novelty. First, it exploits the fact that the different scales of the CWT can be used to increase the inter-speaker variability of a population and differentiate speakers better just using different characteristics which appears at certain scales and which are not expressed as the same way in the original speech signal in order to create a new signal peculiar to each speaker. Secondly, it has been shown that the best way of picking up the coefficients of the CWT is taking ali the coefficients at a fixed specific scale. Moreover, we have shown that these performances are related to the distribution of the cepstral coefficients of these coefficient lines. And finally, the last element deals with the advantages of selecting the coefficients as an entire line for a fixed scale. It sets a part ali the drawbacks of the CWT: there is no redundancy in the new signal, and the computational time is reduced to practically the same as standard identification systems. Moreover, the use of CWT may allow both the training of the system and the recognition of speakers based on shorter samples of speech.

The systems are evaluated on a publically available speech database with the constraint of telephone speech quality: YOHO. On a 30 and 50 speaker population the identification accuracy were respectively 96 % and 96.7 %, that is, more than 6 points better comparatively to the same system without using the CWT.

Type de document: Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires: "Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en génie électrique". Bibliogr.: f. [222]-231.
Mots-clés libres: Automatique, Coefficient, Continu, Hybride, Locuteur, Ondelette, Parole, Reconnaissance, Reference, Signal, Systeme, TOC, Transformee
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Gabrea, Gheorghe Marcel
Co-directeurs de mémoire/thèse:
Co-directeurs de mémoire/thèse
Gargour, Christian
Programme: Maîtrise en ingénierie > Génie électrique
Date de dépôt: 30 mars 2011 14:24
Dernière modification: 15 janv. 2015 22:56
URI: http://espace.etsmtl.ca/id/eprint/470

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...