End-to-end deep learning for audio classification: from waveforms to a security perspective

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Abdoli, Sajjad (2021). End-to-end deep learning for audio classification: from waveforms to a security perspective. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (4MB) | Prévisualisation

Résumé

Audio processing is one of the challenging problems in machine learning. Deep learning models have recently had a significant impact on sound processing problems such as audio classification, speech recognition, speaker identification, etc. Most of the methods based on deep models usually rely on feeding the models by 2D representations like spectrograms. Inspired by deep learning models designed for computer vision, these 2D representations are treated as images. Recently, end-to-end audio processing models have been developed for various tasks. In this case, as a 1D vector, the raw audio signal is used as the input to deep models to benefit from the full potential of such models and eliminate signal processing modules for generating the handcrafted features from audio signals. This study explores how deep models can be used for audio processing, notably, audio classification problems. The general methodologies for audio processing based on handcrafted representations and raw audio signals as inputs to the models are reviewed. A novel end-to-end architecture based on a convolutional neural network for Environmental Sound Classification (ESC) is proposed. The proposed model eliminates the necessary signal processing modules for generating handcrafted features and outperforms most state-of-the-art approaches that use handcrafted features as input. The experimental results demonstrate the power and the potential of such an end-to-end model for the classification problem.

Moreover, recent studies demonstrate the vulnerability of deep learning models to a range of adversarial attacks, which threaten the functionality and credibility of such models. Such threats cover a wide range of goals such as evasion, data, model poisoning, model extraction, etc. This study also explores such attacks focusing on end-to-end audio processing models by mentioning their strengths and weaknesses. Adversarial perturbation is one of the evasion attacks, which is a severe threat against such models. This attack injects a quasi-imperceptible perturbation to the input sample to deceive the model into misclassifying it. In this context, universal adversarial perturbation is a single adversarial perturbation that can fool the classifier for most input samples once added to the input samples. This study proposes two methodologies for crafting universal adversarial audio perturbations. One method is inspired by an iterative greedy algorithm, which is well-known in computer vision, and the other is based on a novel penalty formulation. The experimental results indicate the effectiveness of such perturbation for fooling a family of end-to-end ESC and speech recognition models. In this regard, suitable defensive mechanisms and mitigation strategies must be considered for designing and implementing such end-to-end models.

Titre traduit

Apprentissage profond de bout en bout pour la classification audio : des formes d’onde aux perspectives de sécurité

Résumé traduit

Le traitement audio est un problème majeur de l’apprentissage automatique. Les modèles d’apprentissage profond ont récemment eu un impact significatif sur les problèmes de traitement du son tels que la classification audio, la reconnaissance vocale ou l’identification du locuteur. La plupart des méthodes basées sur les modèles profonds reposent sur l’utilisation de représentations 2D comme les spectrogrammes. Ces méthodes sont inspirées des modèles d’apprentissage en profondeur conçus pour la vision par ordinateur et traitent les représentations 2D comme des images. Récemment, des modèles de traitement audio de bout en bout ont été développés pour traiter des signaux à une dimension. Dans ce cas, le signal audio brut, représenté par un vecteur 1D, est utilisé comme entrée des modèles profonds pour tirer pleinement parti du potentiel de ces modèles et éliminer les modules de traitement du signal habituellement utilisés pour extraire les caractéristiques des signaux audio. Cette étude explore comment les modèles profonds peuvent être utilisés pour le traitement audio, notamment, les problèmes de classification audio. Les méthodologies générales de traitement audio basées sur une extraction de caractéristiques prédéfinies de signaux audio bruts sont passées en revue. Une nouvelle architecture basée sur un réseau neuronal convolutif pour la classification des bruits environnementaux est proposée. Ce modèle élimine les modules de traitement du signal habituellement nécessaires pour l’extraction de caractéristiques prédéfinies et surpasse la plupart des approches existantes. Les résultats expérimentaux démontrent la puissance et le potentiel d’un tel modèle pour le problème de classification.

De plus, des études récentes démontrent la vulnérabilité des modèles d’apprentissage en profondeur aux attaques adverses, qui menacent la fonctionnalité et la crédibilité de ces modèles. De telles menaces couvrent un large éventail d’objectifs tels que l’évasion, les données, l’empoisonnement du modèle ou l’extraction des caractéristiques. Cette étude explore ces attaques en se concentrant sur les forces et faiblesses des modèles de traitement audio de bout en bout. La perturbation adverse est l’une des attaques d’évasion et constitue une menace grave. Cette attaque injecte une perturbation quasi imperceptible dans l’échantillon d’entrée pour tromper le modèle, qui va mal le classer. Dans ce contexte, la perturbation adverse universelle est une perturbation adverse unique qui peut tromper le classificateur une fois ajoutée aux échantillons d’entrée. Dans cette étude, deux méthodes pour créer des perturbations audio adverses universelles sont proposées. Une méthode est inspirée d’un algorithme glouton itératif bien connu en vision par ordinateur, et l’autre est basée sur une nouvelle formulation de pénalité. Les résultats expérimentaux indiquent l’efficacité d’une telle perturbation pour tromper une famille de modèles ESC de reconnaissance vocale de bout en bout. À cet égard, des mécanismes défensifs et des stratégies d’atténuation appropriées doivent être envisagés pour concevoir et mettre en oeuvre de tels modèles.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Thesis presented to École de technologie superieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 147-160).
Mots-clés libres:	l'apprentissage en profondeur, traitement audio, apprentissage automatique, perturbation adverse
Directeur de mémoire/thèse:	Directeur(-trice) Lameiras Koerich, Alessandro
Codirecteur:	Codirecteur(-trice) de mémoire/thèse Cardinal, Patrick
Programme:	Doctorat en génie > Génie
Date de dépôt:	10 févr. 2022 18:58
Dernière modification:	10 févr. 2022 18:58
URI:	https://espace.etsmtl.ca/id/eprint/2895

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt