La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Amélioration de la robustesse des systèmes de reconnaissance automatique du locuteur dans l'espace des i-vecteurs

Senoussaoui, Mohammed (2014). Amélioration de la robustesse des systèmes de reconnaissance automatique du locuteur dans l'espace des i-vecteurs. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (2MB) | Prévisualisation
[img]
Prévisualisation
PDF
Télécharger (1MB) | Prévisualisation

Résumé

Les systèmes nec plus ultra de reconnaissance du locuteur adoptent la représentation de la parole dans l’espace des i-vecteurs. Un i-vecteur n’est qu’un simple vecteur de faible dimension (typiquement dans les centaines) représentant une vaste gamme d’information véhiculée par le signal vocal. Bien que les performances de ces systèmes en matière des taux de reconnaissance aient atteint un niveau très avancé, une meilleure exploitation de ces systèmes dans les milieux réels de tous les jours nécessite encore plus d'efforts de la part des chercheurs en la matière. Dans le cadre de cette thèse, notre objectif principal est d'améliorer la robustesse des systèmes de reconnaissance du locuteur opérant dans l’espace des ivecteurs.

Dans la première partie de ce travail, nous nous intéressons à la tâche de la vérification du locuteur. Nous nous focalisons plus particulièrement sur la conception d’un système de vérification à la fois indépendant du type du canal de transmission/enregistrement et du genre du locuteur. Dans le contexte des i-vecteurs, les classificateurs génératifs, tels que l’analyse discriminante linéaire probabiliste (PLDA), ont dominé le domaine de la reconnaissance du locuteur. Néanmoins, de simples classificateurs à base de la similarité angulaire du cosinus (SAC) restent concurrentiels. Ainsi, nous avons proposé dans cette partie deux solutions rendant respectivement les systèmes à base des deux classificateurs de l’état de l’art (le PLDA et la SAC) indépendants du type du canal et du genre du locuteur. En effet, nos systèmes conçus de la sorte sont considérés comme les deux premiers systèmes de vérification du locuteur atteignant les résultats de l’état de l’art (environ 2 % d’EER pour la parole téléphonique et 3 % pour la parole microphonique) sans pour autant profiter ni de l’information concernant le type du canal ni de celle concernant le genre du locuteur.

Le regroupement en locuteurs est une autre tâche de la reconnaissance du locuteur qui représente notre centre d’intérêt dans la seconde partie de cette thèse. À nouveau, nos recherches seront menées uniquement dans le contexte de la représentation de la parole par des i-vecteurs. À vrai dire, il existe deux types d’applications à base du regroupement en locuteurs, soit, le regroupement en locuteurs des grands corpora des fichiers vocaux (speaker clustering) et la structuration en tours de parole d’un flux audio (speaker diarization). Une nouvelle version de l’algorithme non paramétrique de décalage de la moyenne (Mean Shift, MS) a été proposée afin de faire face au problème du regroupement en locuteurs. Nous avons démontré que les performances de notre nouvelle version de l’algorithme de MS à base de la distance angulaire du cosinus dépassent ceux de la version de base, une fois testés face à la tâche du regroupement en locuteurs. Le même algorithme nous a permis d’obtenir les résultats de l’état de l’art (DER égal à 12,4 %) de la structuration en tours de parole du corpus des données téléphoniques CallHome.

Titre traduit

Improvement of the speaker recognition systems robustness in i-vector feature space

Résumé traduit

Most of the current speaker recognition systems adopt the representation of speech in the ivector space. An i-vector is a simple vector of small dimension (typically in the hundreds) representing a wide range of information carried by the voice signal. Although the performance of these systems in terms of the recognition rates have achieved a very high level, a better exploitation of these systems in the real daily environments still requires more efforts from the researchers in this field. In this thesis, our main objective is to improve the robustness of speaker recognition systems operating in i-vector space.

In the first part of this work, we focus on the task of speaker verification. We focus especially in the design of a verification system independent of channel (transmission /recording) type as well as of speaker gender. In the context of i-vector representation, the generative classifiers, such as the Probabilistic Linear Discriminant Analysis (PLDA), have predominated the field of speaker recognition. However, the simple classifier based on the cosine distance (CD) remains competitive. Thus, we propose two solutions making systems based on both classifiers of the state of the art (PLDA and CD) independent respectively ofthe channel type and of speaker gender. In fact, our systems designed in this way are considered as the first two systems of speaker verification achieving the state of the art results (around 2% of EER for telephone speech and 3% for microphone speech) without taking advantage of information neither about channel type nor speaker gender.

Speaker clustering is another task of speaker recognition discipline, which is of interest in the second part of this thesis. Again, our research will be conducted only in the context of the representation of speech in i-vector space. Actually, there are two types of application, namely, speaker clustering of large corpora and speaker diarization of audio streams. In fact, a new version of the non-parametric Mean Shift algorithm (MS) has been proposed in this thesis in order to tackle the problem of speaker clustering. We have demonstrated that our new version of the MS algorithm based on the cosine distance performs better than the baseline version, once tested on the task of speaker clustering. Furthermore, this same algorithm has enabled us to obtain the diarization state of the art results (DER equal to 12.4%) when tested on the telephone speech of the CallHome data.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Thèse présentée à l'École de technologie supérieure comme exigence partielle à l'obtention du doctorat en génie". Bibliographie : pages 185-193.
Mots-clés libres: Reconnaissance automatique de la parole. Champs vectoriels. locuteur, regroupement, vérification, reconnaissance du locuteur, i-vecteur, structuration en tours de parole
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Dumouchel, Pierre
Co-directeurs de mémoire/thèse:
Co-directeurs de mémoire/thèse
Kenny, Patrick
Programme: Doctorat en génie > Génie
Date de dépôt: 25 juin 2014 18:56
Dernière modification: 14 mars 2017 00:57
URI: http://espace.etsmtl.ca/id/eprint/1329

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...