Discriminative and generative approaches for long- and short-term speaker characteristics modeling : application to speaker verification

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Dehak, Najim (2009). Discriminative and generative approaches for long- and short-term speaker characteristics modeling : application to speaker verification. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (60MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (9MB) \| Prévisualisation

Résumé

The speaker verification problem can be stated as follows: given two speech recordings, determine whether or not they have been uttered by the same speaker. Most current speaker verification systems are based on Gaussian mixture models. This probabilistic representation allows to adequately model the complex distribution of the underlying speech feature parameters. It however represents an inadequate basis for discriminating between speakers, which is the key issue in the area of speaker verification. In the first part of this thesis, we attempt to overcome these difficulties by proposing to combine support vector machines, a well established discriminative modeling, with two generative approaches based on Gaussian mixture models. In the first generative approach, a target speaker is represented by a Gaussian mixture model corresponding to a Maximum A Posteriori adaptation of a large Gaussian mixture model, coined universal background model, to the target speaker data. The second generative approach is the Joint Factor Analysis that has become the state-of-the-art in the field of speaker verification during the last three years. The advantage of this technique is that it provides a framework of powerful tools for modeling the inter-speaker and channel variabilities. We propose and test several kernel functions that are integrated in the design of both previous combinations. The best results are obtained when the support vector machines are applied within a new space called the "total variability space", defined using the factor analysis. In this novel modeling approach, the channel effect is treated through a combination of linear discnminant analysis and kemel normalization based on the inverse of the within covariance matrix of the speaker.

In the second part of this thesis, we present a new approach to modeling the speaker's longterm prosodic and spectral characteristics. This novel approach is based on continuous approximations of the prosodic and cepstral contours contained in a pseudo-syllabic segment of speech. Each of these contours is fitted to a Legendre polynomial, whose coefficients are modeled by a Gaussian mixture model. The joint factor analysis is used to treat the speaker and channel variabilities. Finally, we perform a scores fusion between systems based on long-term speaker characteristics with those described above that use short-term speaker features.

Résumé traduit

Le probleme de la verification du locuteur consiste a verifier si deux enregistrements de parole ont ete produits par le meme locuteur ou deux locuteurs differents. La majorite des systèmes de verification du locuteur actuels sont bases sur le modele de melange de Gaussiennes. Ce modele probabiliste permet de modeliser finement la distribution complexe des parametres de la parole mais offre un niveau limite de discrimination, qui est pourtant un point majeur dans ce domaine. Dans le premier point de cette these, nous proposons de combiner un modele discriminant qui est le separateur a vaste marge avec deux approches generatives basees sur les modeles de melange de Gaussiennes pour la verification du locuteur. Dans la premiere approche generative, un locuteur est caracterise a I'aide d'un modele de melange de Gaussiennes obtenu a partir d'une adaptation maximum A Posteriori d'un autre modele de melange de Gaussiennes normne modele du monde qui caracterise I'univers des locuteurs aux donnees du client. La deuxieme approche generative est 1'analyse jointe de facteur. Cette technique est devenue I'etat de I'art dans le domaine de la verification du locuteur durant ces trois demieres annees. L'avantage de cette technique est de proposer des outils puissants pour modeliser la variabilite due au locuteur et au canal. Nous avons propose et teste plusieurs fonctions noyaux pour chacun de ces deux combinions precedentes. Les meilleurs résultats sont obtenus lorsque les separateurs a vaste marge ont ete appliques dans un nouvel espace appele espace de la "variabilite totale" defini a I'aide de I'analyse de facteur. L'effet du canal dans cette modelisation a ete traite par la combinaison d'une analyse discriminante lineaire et d'une technique de normalisation de la fonction noyau basee sur I'inverse de la matrice de covariance intra-classe du locuteur.

Le deuxieme point traite dans cette these consiste a utiliser les caracteristiques prosodiques et spectrales a long terme du locuteur pour I'elaboration d'un nouveau systeme de verification du locuteur. L'approche que nous proposons est basee sur 1'approximation continue des contours prosodiques et cepstraux a I'aide d'un polynome de Legendre utilisant les pseudosyllabes comme unites de base. Les coefficients de ce polynome sont representes par un modele de melange de Gaussiennes. Lanalyse jointe de facteur est utilisee pour trailer l'effet de la variabilite du canal et modeliser la variabilite entre les locuteurs. Finalement nous realisons une fusion des scores entre les systemes operant dans les caracteristiques a long terme du locuteur avec ceux decrits plus haut utilisant les parametres a court terme du locuteur.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie supérieure in partial fulfillment of the requirements for the degree of doctor of philosophy". Bibliogr. : f. [157]-164.
Mots-clés libres:	Reconnaissance automatique de la parole. Analyse factorielle. Polynômes de Legendre. caracteristique, court, espace, gaussien, locuteur, long, marge, melange, modele, modelisation, pseudo-syllabe, separateur, terme, total, variabilite, vaste, verification
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Dumouchel, Pierre
Codirecteur:	Codirecteur Kenny, Patrick
Programme:	Doctorat en génie > Génie
Date de dépôt:	12 août 2010 18:22
Dernière modification:	03 janv. 2017 21:18
URI:	https://espace.etsmtl.ca/id/eprint/33

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt