Boulianne, Gilles (2020). Unsupervised speech representation learning. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Résumé
Representations aim to capture significant, high-level information from raw data, most commonly as low dimensional vectors. When considered as input features for a downstream classification task, they reduce classifier complexity, and help in transfer learning and domain adaptation. An interpretable representation captures underlying meaningful factors, and can be used for understanding data, or to solve tasks that need access to these factors. In natural language processing (NLP), representations such as word or sentence embeddings have recently become important components of most natural language understanding models. They are trained without supervision on very large, unannotated corpora, allowing powerful models that capture semantic relations important in many NLP tasks. In speech processing, deep network-based representations such as bottlenecks and x-vectors have had some success, but are limited to supervised or partly supervised settings where annotations are available and are not optimized to separate underlying factors.
An unsupervised representation for speech, i.e. one that could be trained directly with large amounts of unlabelled speech recordings, would have a major impact on many speech processing tasks. Annotating speech data requires expensive manual transcription and is often a limiting factor, especially for low-resource languages. Disentangling speaker and phonetic variability in the representation would eliminate major nuisance factors for downstream tasks in speech or speaker recognition. But despite this potential, unsupervised representation has received less attention than its supervised counterpart.
In this thesis, we propose a non-supervised generative model that can learn interpretable speech representations. More specifically, we propose several extensions to the variational autoencoder (VAE) model, a unified probabilistic framework which combines generative modelling and deep neural networks. To induce the model to capture and disentangle meaningful underlying factors, we impose biases inspired by articulatory and acoustic theories of speech production.
We first propose time filtering as a bias to induce representations at a different time scale for each latent variable. It allows the model to separate several latent variables along a continuous range of time scale properties, as opposed to binary oppositions or hierarchical factorization that have been previously proposed.
We also show how to impose a multimodal prior to induce discrete latent variables, and present two new tractable VAE loss functions that apply to discrete variables, using expectation-maximization reestimation with matched divergence, and divergence sampling.
In addition, we propose self-attention to add sequence modelling capacity to the VAE model, to our knowledge the first time self-attention is used for learning in an unsupervised speech task.
We use simulated data to confirm that the proposed model can accurately recover phonetic and speaker underlying factors. We find that, given only a realistic high dimensional log filterbank signal, the model is able to accurately recover the generating factors, and that both frame and sequence level variables are essential for accurate reconstruction and well-disentangled representation.
On TIMIT, a corpus of read English speech, the proposed biases yield representations that separate phonetic and speaker information, as evidenced by unsupervised results on downstream phoneme and speaker classification tasks using a simple k-means classifier. Jointly optimizing for multiple latent variables, with a distinct bias for each one, makes it possible to disentangle underlying factors that a single latent variable is not able to capture simultaneously.
We explored some of the underlying factors potentially useful for applications where annotated data is scarce or non-existent. The approach proposed in this thesis, which induces a generative model to learn disentangled and interpretable representations, opens the way for exploration of new factors and inductive biases.
Titre traduit
Apprentissage non supervisé de représentations distribuées pour la parole
Résumé traduit
Les représentations distribuées visent à extraire l’information de haut niveau contenue dans des données brutes, habituellement sous forme de vecteurs de faible dimension. Lorsqu’utilisées comme entrée pour des tâches de classification, elles réduisent la complexité du classificateur, et facilitent l’apprentissage par transfert et l’adaptation au domaine. La représentation est dite interprétable lorsqu’elle saisit des facteurs sous-jacents compréhensibles; elle est alors utile pour explorer et comprendre les données, ou résoudre des problèmes mettant en jeu ces facteurs. En traitement automatique du langage naturel (TALN), des représentations telles que les plongements de mots ou de phrases ("embeddings") sont récemment devenues incontournables. Ces représentations peuvent être apprises sans supervision, sur de grands ensembles de données non annotées, rendant possible l’entraînement de modèles puissants capables de saisir les relations sémantiques requises pour plusieurs problèmes de TALN. En traitement de la parole, des représentations telles que les paramètres à goulot d’étranglement ("bottleneck features") et x-vecteurs ont été proposées, mais leur apprentissage doit être entièrement ou partiellement supervisé avec des annotations, et elles ne visent pas à extraire des facteurs sous-jacents interprétables.
Une représentation non supervisée de la parole, qui serait apprise directement sur un grand corpus enregistré, sans transcription, aurait un impact majeur sur plusieurs applications du traitement de la parole. La transcription est une tâche manuelle coûteuse et se révèle souvent une contrainte importante, particulièrement dans le cas des langues à faibles ressources. Une représentation découplant la variabilité due au locuteur de celle due au contenu phonétique permettrait d’éliminer une des sources principales de confusion, que ce soit pour la transcription automatique ou bien la reconnaissance du locuteur. Malgré ce potentiel intéressant, l’apprentissage non supervisé d’une représentation pour la parole a été moins étudié que l’apprentissage supervisé.
Dans cette thèse, nous présentons un modèle génératif capable d’apprendre une représentation interprétable sans supervision. Plus précisément, nous proposons plusieurs extensions au modèle d’autoencodeur variationnel (VAE), une approche probabiliste qui conjugue l’approche générative et les réseaux neuronaux profonds. Pour inciter le modèle à capturer des facteurs sous-jacents interprétables et découplés, nous lui imposons des biais inductifs inspirés des théories acoustiques et articulatoires de la production de la parole.
Nous proposons d’abord le filtrage temporel comme biais induisant une représentation avec une échelle temporelle différente pour chacune des variables latentes. Il permet de répartir les variables latentes sur une échelle continue, au lieu de l’opposition binaire ou de la structure hiérarchique qui ont été proposées antérieurement.
Nous montrons également comment imposer des distributions a priori multimodales afin de capturer des variables latentes discrètes, et nous présentons pour le VAE deux nouvelles fonctions de pertes applicables aux variables discrètes, utilisant la réestimation espérance maximisation avec divergence pairée et l’échantillonnage de la divergence.
De plus, nous proposons l’auto-attention pour ajouter au modèle VAE la capacité de prédire des suites, à notre connaissance la première application de l’auto-attention pour de l’apprentissage non supervisé en parole.
Avec des données simulées, nous confirmons que le modèle proposé peut retrouver exactement les facteurs sous jacents correspondants à des locuteurs et à des phonèmes. Nous observons qu’en utilisant en entrée seulement des banques de filtres logarithmiques, complexes et de grande dimension, le modèle récupère les facteurs utilisés pour la génération des données, et que deux variables, aux niveaux local et global, sont essentielles pour une reconstruction exacte et une représentation bien découplée.
Sur TIMIT, un corpus de parole lue, en anglais, les biais proposés encouragent les représentations à découpler les locuteurs et les phonèmes, comme le montrent les résultats de classification obtenus en aval à l’aide d’un simple classificateur k-means non supervisé. L’optimisation conjointe de plusieurs variables latentes, avec chacune son biais propre, permet de découpler des facteurs sous-jacents qu’une seule variable ne peut représenter simultanément.
Nous avons exploré quelques-uns des facteurs sous-jacents potentiellement utiles aux applications pour lesquelles peu ou pas de données annotées sont disponibles. L’approche proposée dans cette thèse, qui encourage un modèle génératif à apprendre des représentations interprétables et découplées, ouvre la porte à l’exploration d’autres facteurs et biais inductifs.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | Thesis presented to École de technologie supérieure in partial fulfillment for the degree of Doctor of Philosophy Comprends des références bibliographiques (pages 105-117) |
Mots-clés libres: | apprentissage non-supervisé, représentation distribuée, traitement de la parole, autoencodeur variationnel |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Dumouchel, Pierre |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 15 déc. 2020 15:15 |
Dernière modification: | 15 déc. 2020 15:15 |
URI: | https://espace.etsmtl.ca/id/eprint/2621 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |