Darabpour, Amirarsalan (2024). Enhancement of speech signals using neural networks with spectral subtraction. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Résumé
Today, many domains and communication mediums such as telecommunications, speech recognition and audio-visual systems use speech enhancement as a way of improving the quality of speech signals, typically by reducing the level of background noise. Speech signals often contain underlying noise, originating either from the acquisition process or the transmission channel. In recent years, there has been significant research in the field of speech enhancement using machine learning techniques. These techniques have been used in many speech processing tasks since they have provided very satisfactory results. Accordingly, in this thesis, the main objective of our project has been to improve speech signals, using a framework based on machine learning using neural networks.
Speech signals are composed of speech and non-speech segments and in speech enhancement, classifying speech and non-speech segments of a speech signal is an important task as it helps for targeted enhancement of speech signals. Our model uses an algorithm with a windowing process which improves its accuracy compared to other methods. It involves dividing the input signal into short-time frames or windows and analyzing each window separately to determine if it contains a speech or non-speech signal.
Our neural network-based framework has been implemented in order to fulfill two fundamental tasks. The first task is to classify speech and non-speech signals and the second task consists of enhancing the speech and non-speech signals in order to obtain an improved speech signal as a result. To achieve the classification, we have used the NOIZEUS dataset for training our models. We successfully developed a comprehensive framework that classifies speech and non-speech segments of the noisy speech signals. The enhancement relies on a criterion that is based on the type of each window. This approach allows us to apply specific enhancement methods to different segments, resulting in a fully enhanced and denoised final signal. Our results have shown that the classification scheme of speech and non-speech signals together with our cleaning strategy on signals corrupted by additive noise have been very effective, obtaining a really improved speech signal in terms of SNR and listening quality.
Titre traduit
Amélioration des signaux vocaux à l’aide de réseaux neuronaux et de la soustraction spectrale
Résumé traduit
Aujourd’hui, de nombreux domaines et moyens de communication tels que les télécommunications, la reconnaissance vocale et les systèmes audiovisuels utilisent l’amélioration de la parole comme moyen d’améliorer la qualité des signaux vocaux, généralement en réduisant le niveau de bruit de fond. Les signaux vocaux contiennent souvent un bruit sous-jacent, provenant soit du processus d’acquisition, soit du canal de transmission. Ces dernières années, des recherches importantes ont été menées dans le domaine de l’amélioration de la qualité de la parole à l’aide de techniques d’apprentissage automatique. Ces techniques ont été utilisées dans de nombreuses taches de traitement de la parole car elles ont donné des résultats très satisfaisants. Par conséquent, dans cette thèse, l’objectif principal de notre projet a été d’améliorer les signaux vocaux, en utilisant un cadre base sur l’apprentissage automatique à l’aide de réseaux neuronaux.
Les signaux vocaux sont composés de segments voises et non voises et dans l’amélioration de la parole, la classification des segments voisés et non voises d’un signal vocal est une tâche importante car elle permet d’améliorer les signaux vocaux de manière ciblée. Notre modèle utilise un algorithme avec un processus de fenêtrage qui améliore sa précision par rapport aux autres méthodes. Il s’agit de diviser le signal d’entrée en trames ou fenêtres de courte durée et d’analyser chaque fenêtre séparément pour déterminer si elle contient un signal de parole ou de non-parole.
Notre cadre base sur les réseaux neuronaux a été mis en œuvre afin de remplir deux taches fondamentales. La première consiste à classer les signaux voises et non voises et la seconde à améliorer les signaux voises et non voises afin d’obtenir un signal vocal amélioré. Pour réaliser la classification, nous avons utilisé l’ensemble de données NOIZEUS pour entrainer nos modèles. Nous avons développé avec succès un cadre complet qui classifie les segments voises et non voises des signaux vocaux bruyants. L’amélioration repose sur un critère base sur le type de chaque fenêtre. Cette approche nous permet d’appliquer des méthodes d’amélioration spécifiques a différents segments, ce qui permet d’obtenir un signal final entièrement amélioré et debruité. Nos résultats ont montré que le système de classification des signaux voisés et non voisés ainsi que notre stratégie de nettoyage des signaux corrompus par du bruit additif ont été très efficaces, permettant d’obtenir un signal vocal réellement amélioré en termes de rapport signal/bruit et de qualité d’écoute.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in electrical engineering". Comprend des références bibliographiques (pages 85-89). |
Mots-clés libres: | amélioration de la parole, réseaux de neurones, soustraction spectrale, classification de la parole et de la non-parole |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Gabrea, Gheorghe Marcel |
Programme: | Maîtrise en ingénierie > Génie électrique |
Date de dépôt: | 24 juill. 2024 13:46 |
Dernière modification: | 24 juill. 2024 13:46 |
URI: | https://espace.etsmtl.ca/id/eprint/3469 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |