Esmaeilpour, Mohammad (2021). Towards reliable data-driven sound recognition models: developing attack and defense algorithms. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Résumé
Environmental sound classification (ESC) and automatic speech recognition (ASR) have always attracted increasing interest from industry and academia due to their extensive range of practical applications in real-life. For instance, multimedia sensor networks, surveillance systems, and voice assistance applications embedded into our smartphones unanimously employ ESC and ASR models. Regarding the significant progress made over the last few decades, the recognition accuracy of the cutting-edge classifiers introduced in these domains has competitively reached to human-level of understanding. However, these state-of-the-art data-driven models are intensely vulnerable against adversarial signals, which are carefully crafted to fool the classifiers toward any incorrect output phrases. Technically, an adversarial signal carries a slight perturbation achievable through an optimization formulation, and it forces the recognition model to predict incorrect outputs as predefined by an adversary. This poses a major security concern since adversarial signals are not detectable by subjective evaluations either. Moreover, these malicious signals are bijectively transferable to both 1D (i.e., Mel-frequency cepstral coefficient - MFCC) and 2D representations (2D spectrograms) such as short-time Fourier and discrete wavelet transforms. Since the majority of the advanced ESC and ASR models are trained on representations, hence such adversarial spectrograms can effectively debase the recognition accuracy of these models. Unfortunately, there is a limited number of investigations on defending classifiers against various targeted and non-targeted adversarial attacks. Additionally, these approaches might not be reliable enough to secure models against strong white and black-box attacks.
Since there is no standard definition for the reliability of an adversarial defense algorithm, we define our implications from reliability and impose three main conditions. Firstly, a reliable defense algorithm should avoid any filtration operations resulting in obfuscating gradient information or shattering the Jacobian matrix. Secondly, it should make a reasonable tradeoff among recognition accuracy, robustness against adversarial attack (fooling rate), and the algorithm’s computational complexity to work in real-time. Thirdly, it should be designed to yield an inherently strong classifier to maximize the cost of attack (e.g., the total number of required gradient computations) for the adversary. Moreover, complying with each of these conditions should not conflict with another. This thesis develops reliable defense and attack algorithms for the advanced end-to-end and representation-level ESC and ASR systems organized into four chapters and five appendices.
Our first contribution is developing an ESC classifier mainly in regard to our third defense reliability conditions. More specifically, we design an ensemble-based classifier in the frontend since it is more robust against adversarial attacks. Furthermore, we exploit a generative adversarial network (GAN) with optimized architectures for both the generator and discriminator networks in the back-end for spectrogram augmentation purposes. We demonstrate that this classification framework outperforms other conventional (e.g., support vector machines) and deep learning-based architectures on benchmarking ESC datasets.
As a second contribution, we develop a robust approach for securing ESC models from a wide range of white and black-box adversarial attacks. This algorithm complies with all the defense reliability conditions mentioned above, and it makes a reasonable trade-off between recognition accuracy and attack fooling rate. Moreover, we study the adversarial transferability ratio between conventional and neural network-based classifiers. According to these findings, we reconfigured our back-end configuration to fill the gap between robustness against attacks and the performance of the front-end classifier. For instance, we employed highboost filtering, dimensionality reduction operation, various logarithmic spectrogram visualizations, and convolutional denoising autoencoder. Our conducted experiments on four challenging datasets corroborate the superior performance of our defense approach compared to other algorithms.
Our third contribution is experimentally characterizing the inverse relation between the recognition accuracy and robustness of the victim classifier against targeted and non-targeted adversarial attacks. Additionally, we identified a few spectrogram settings that maximize the adversary’s cost of attack. This is completely in line with our third reliability condition which obliges us to develop an inherently strong recognition classifier. These settings should be applied before spectrogram production; therefore they do not negatively affect the Jacobian matrix’s distribution either during training or runtime.
As a fourth contribution, we develop an upscale defense approach for end-to-end ASR systems, particularly speech-to-text transcription models. This algorithm is based on synthesizing a new signal using the adjusted chordal distance, and it entirely meets our predefined defense reliability conditions. We employ a multi-discriminator GAN with novel residual-convolutional architectures for the generator and discriminator networks. Then, we train this generative model in the Sobolev space since it is closely related to coefficients of Fourier series, such as Mel-frequency cepstral coefficients (MFCC). Furthermore, we propose a new constraining technique for the generator network to improve its stability and generalizability during training and real-time execution, respectively. Finally, we run our experiments against white and black-box adversarial attacks benchmarked on the advanced DeepSpeech, Kaldi, and Lingvo transcription systems. These experiments indicate that our proposed defense algorithm outperforms other approaches both in terms of word error rate and sentence-level accuracy.
The rest of our contributions published in the flagship signal processing conference and journal letters are organized into appendices. They include four defense and one adversarial attack algorithm developed for both ESC and ASR systems. Our main motivation for developing an adversarial attack algorithm is introducing a fast and robust attack for exploiting in the reliable defense frameworks such as adversarially training.
Titre traduit
Vers des modèles fiables de reconnaissance de sons basés sur des données: développement d’algorithmes d’attaque et de défense
Résumé traduit
La classification des sons environnementaux (CSE) et la reconnaissance automatique de la parole (RAP) ont toujours suscité un intérêt croissant de la part de l’industrie et du monde universitaire en raison de leur vaste gamme d’applications pratiques dans la vie réelle. Par exemple, les réseaux de capteurs multimédias, les systèmes de surveillance et les applications d’assistance vocale intégrées dans nos smartphones utilisent principalement les modèles CSE et RAP. Compte tenu des progrès significatifs réalisés au cours des dernières décennies, la précision de reconnaissance des classificateurs de pointe introduits dans ces domaines a atteint de manière compétitive le niveau de compréhension humain. Cependant, ces modèles de l’état de l’art basés sur des données sont extrêmement vulnérables aux signaux adverses qui sont soigneusement conçus pour tromper les classificateurs vers des sorties incorrectes. Techniquement, un signal contradictoire comporte une légère perturbation qui peut être obtenue par une formulation d’optimisation, et il force le modèle de reconnaissance à prédire des sorties incorrectes prédéfinies par un adversaire. Cela pose un problème de sécurité majeur puisque les signaux adverses ne sont pas non plus détectables par des évaluations subjectives. De plus, ces signaux malveillants sont transférables de manière bijective à des représentations 1D (c’est-à-dire le coefficient cepstral de fréquence Mel - MFCC) et 2D (spectrogrammes 2D) telles que les transformées de Fourier à court terme et les transformées en ondelettes discrètes. Étant donné que la majorité des modèles avancés de CSE et de RAP sont formés sur des représentations, de tels spectrogrammes adverses peuvent effectivement diminuer la précision de reconnaissance de ces modèles. Malheureusement, il existe très peu de recherches sur la défense des classificateurs contre une variété d’attaques adverses ciblées et non ciblées. De plus, ces approches ne sont peut-être pas assez fiables pour protéger les modèles contre les attaques de type boîte blanche et boîte noire.
Comme il n’existe pas de définition standard de la fiabilité d’un algorithme de défense adversariale, nous définissons nos propres implications de la fiabilité et imposons trois conditions principales. Premièrement, un algorithme de défense fiable doit éviter toute opération de filtrage susceptible d’obscurcir les informations du gradient ou de briser la matrice jacobienne. Deuxièmement, il devrait faire un compromis raisonnable entre la précision de reconnaissance, la robustesse contre les attaques adverses (taux de tromperie) et la complexité de calcul de l’algorithme afin de fonctionner en temps réel. Troisièmement, il doit être conçu pour produire un classificateur intrinsèquement fort afin de maximiser le coût de l’attaque (par exemple, le nombre total de calculs de gradient requis) pour l’adversaire. De plus, le respect de chacune de ces conditions ne doit pas entrer en conflit avec une autre. Dans cette thèse, nous développons des algorithmes de défense et d’attaque fiables pour les systèmes CSE et RAP avancés de bout en bout et au niveau des représentations, organisés en quatre chapitres et cinq annexes.
Notre première contribution est le développement d’un classificateur CSE principalement en ce qui concerne les conditions de fiabilité de notre troisième défense. Plus précisément, nous concevons un classificateur basé sur un ensemble dans la partie frontale, car il est plus robuste contre les attaques adverses. En outre, nous exploitons un réseau antagoniste génératif (RAG) avec des architectures optimisées pour les réseaux générateur et discriminateur en arrière-plan pour l’augmentation du spectrogramme. Nous démontrons que ce cadre de classification surpasse d’autres architectures conventionnelles (par exemple, les machines à vecteurs de support) et celles basées sur l’apprentissage profond sur des ensembles de données CSE de référence.
En deuxième lieu, nous développons une approche robuste pour sécuriser les modèles CSE contre un large éventail d’attaques adverses de type boîte blanche et boîte noire. Cet algorithme respecte toutes les conditions de fiabilité de la défense susmentionnées et il réalise un compromis très raisonnable entre la précision de reconnaissance et le taux de tromperie des attaques. En outre, nous étudions le rapport de transférabilité des attaques adverses entre les classificateurs classiques et ceux basés sur les réseaux neuronaux. En fonction de ces résultats, nous avons reconfiguré notre configuration dorsale pour combler l’écart entre la robustesse contre les attaques et les performances du classificateur frontal. Par exemple, nous avons utilisé un filtrage Highboost, une opération de réduction de la dimensionnalité, diverses visualisations de spectrogrammes logarithmiques et un codeur automatique de débruitage convolutif. Les expériences que nous avons menées sur quatre ensembles de données difficiles corroborent les performances supérieures de notre approche de défense par rapport aux autres algorithmes.
Notre troisième contribution est la caractérisation expérimentale de la relation inverse entre la précision de reconnaissance et la robustesse du classificateur de la victime contre les attaques adverses ciblées et non ciblées. De plus, nous identifions quelques paramètres du spectrogramme qui contribuent à maximiser le coût de l’attaque pour l’adversaire. Ceci est tout à fait conforme à notre troisième condition de fiabilité qui oblige à développer un classificateur de reconnaissance intrinsèquement fort. Ces paramètres doivent être appliqués avant la production du spectrogramme, de sorte qu’ils n’affectent pas négativement la distribution de la matrice jacobienne, que ce soit pendant l’entraînement ou l’exécution.
Comme quatrième contribution, nous développons une approche de défense haut de gamme pour les systèmes RAP de bout en bout, en particulier les modèles de transcription de la parole-en-texte. Cet algorithme est basé sur la synthèse d’un nouveau signal en utilisant la distance d’accord ajustée et il répond entièrement à nos conditions de fiabilité de défense prédéfinies. Nous utilisons un RAG multi-discriminateur avec de nouvelles architectures convolutionnelles avec résidu pour les réseaux générateur et discriminateur. Ensuite, nous entraînons ce modèle génératif dans l’espace de Sobolev car il est étroitement lié aux séries de coefficients de Fourier comme le MFCC. En outre, nous proposons une nouvelle technique de contrainte pour le réseau générateur afin d’améliorer sa stabilité et sa généralisation pendant l’entraînement et l’exécution en temps réel, respectivement. Nous avons mené nos expériences contre des attaques adverses de type boîte blanche et boîte noire qui ont été évaluées sur les systèmes de transcription avancés DeepSpeech, Kaldi et Lingvo. Ces expériences indiquent que l’algorithme de défense proposé surpasse les autres approches en termes de taux d’erreur sur les mots et de précision au niveau des phrases.
Le reste de nos contributions qui ont été publiées dans les conférences et letters du journals phares du traitement du signal sont organisées en annexes. Elles comprennent quatre algorithmes de défense et un algorithme d’attaque contradictoire développés pour les systèmes CSE et RAP. Notre principale motivation pour le développement d’un algorithme d’attaque adversarielle est l’introduction d’une attaque rapide et robuste à exploiter dans le cadre de la défense, comme l’entraînement contradictoire.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 243-272). |
Mots-clés libres: | classification des sons environnementaux, reconnaissance de la parole, transcription de la parole-en-texte, attaque adversariale, défense adversariale, spectrogrammes, décomposition de Schur généralisée, distance d’accord, sous-espace adversatif, réseau antagoniste génératif |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Cardinal, Patrick |
Codirecteur: | Codirecteur Lameiras Koerich, Alessandro |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 09 févr. 2022 19:16 |
Dernière modification: | 09 févr. 2022 19:16 |
URI: | https://espace.etsmtl.ca/id/eprint/2889 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |