High performance machine learning platform development and applications

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Liu, Xu (2021). High performance machine learning platform development and applications. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Prévisualisation

PDF
Télécharger (9MB) | Prévisualisation

Résumé

Machine learning (ML) and Deep learning (DL) are booming. However, the algorithms beneath the MLs and the DLs involve much high-density computing work. Traditional Central Processing Unit (CPU) only has few computing threads. And each thread must execute instructions in sequence. So even the CPUs own a higher frequency, they have to process tens of thousands of computing jobs one by one. On the contrary, Graphics Processing Unit (GPU) and Field Programmable Gate Array (FPGA) often own tens of thousands of computing units, which can efficiently conduct parallel computing to enhance the model’s training and inferencing performance dramatically.

We propose in this thesis a novel hybrid GPU-FPGA-based design methodology to address the above training and inferencing high-density computing challenge. According to the design methodology, we developed a new heterogeneous GPU-FPGA-based ML or DL platform. Since the training algorithms are often changed, and the GPU programming is much easier and more flexible than FPGAs, the training phase is implemented on the GPU. Otherwise, we perform the inferencing phase on the FPGA based on the following two reasons: One is that we scarcely change the inferencing algorithm design. The other is FPGAs have higher energy efficiency and lower delay than GPUs’. Moreover, since the two platforms have different model file formats and can not be substituted directly, we designed a model converter between the two phases to convert the model from the training platform to the inferencing platform.

To evaluate the above methodology and platform’s performance, we have implemented a convolutional neural network (CNN) for recognizing handwritten digits and a deep neural network (DNN) for predicting the data center’s Power Usage Effectiveness (PUE) with the hybrid design methodology on the heterogeneous platform. Moreover, the experimental results presented that our approach has gained significant performance improvement on the ML training and inferencing.

In addition, in order to fully evaluate our hybrid ML design, we extended the experiments to include two spectral reconstruction approaches. Both of these methods are designed to solve the severely under-constrained problem of reconstructing multispectral images from RGB images. The core of these two methods revolves around how to generate multispectral information that is lost due to compression.

The first approach is based on Variational Autoencoder (VAE) and Generative Adversarial Network (GAN). The VAE extracts the key feature information from the input RGB images through the encoder, reparameterizes it with a value randomly sampled from the normal distribution, and then restores the MSI-like outputs through the decoder. GAN is responsible for training the generator to generate MSI-like pictures from re-parameterized latent vectors. GAN is accountable for teaching the generator to create MSI-like images from re-parameterized latent vectors. The problem of reconstructing MSIs from RGB can be solved with low computational cost.

The second method is called Taĳi Generative Neural Network (TaĳiGNN), which combines cycled GAN and ancient Chinese "Taĳi" philosophy. TaĳiGNN consists of a pair of generators performing in opposite directions. The output of one generator is connected to the input of the other one, forming a loop structure. This loop structure can pass the input through the output domain and then back to the input domain. Therefore, TaĳiGNN can convert the problem of comparing images in different domains into the problem of comparing images in the same domain. In the same domain, the severely under-constrained problem mentioned above can be solved naturally. Moreover, TaĳiGNN has absorbed the essence of Taĳi to train the pair of generators. During the training process, the pair of generators work like a couple, using their own advantages to complement each other, helping each other to achieve convergence, so that the entire system enters a state of dynamic equilibrium, which is very similar to Taĳi’s "Yin" and "Yang" bipolar working mode.

We use two classic spectral datasets, CAVE and ICVL, to evaluate VAE-GAN and TaĳiGNN. And both of these two approaches use much less training data than state-of-the-art and reach or exceed their results. Moreover, the two approaches are implemented and verified on a heterogeneous computing platform designed using our hybrid machine learning methodology. Their training and inferencing speeds have been greatly improved.

Titre traduit

Plate-forme d’apprentissage automatique haute performance : développement et applications

Résumé traduit

L’apprentissage automatique (ML) et l’apprentissage profond (DL) sont en plein essor. Cependant, les algorithmes sous les ML et les DL impliquent beaucoup de travail informatique à haute densité. L’unité centrale de traitement (CPU) traditionnelle n’a que peu de threads de calcul. Et chaque thread doit exécuter des instructions en séquence. Ainsi, même les processeurs possèdent une fréquence plus élevée, ils doivent traiter des dizaines de milliers de tâches informatiques une par une. Au contraire, Graphics Processing Unit (GPU) et Field Programmable Gate Array (FPGA) possèdent souvent des dizaines de milliers d’unités de calcul, qui peuvent efficacement effectuer des calculs parallèles pour améliorer considérablement les performances d’entraînement et d’inférence du modèle.

Nous proposons dans cette thèse une nouvelle méthodologie de conception hybride GPU-FPGA pour relever le défi ci-dessus de formation et d’inférence de calcul haute densité. Selon la méthodologie de conception, nous avons développé une nouvelle plate-forme ML ou DL hétérogène basée sur GPU-FPGA. Étant donné que les algorithmes d’apprentissage sont souvent modifiés et que la programmation GPU est beaucoup plus simple et flexible que les FPGA, la phase d’apprentissage est implémentée sur le GPU. Sinon, nous effectuons la phase d’inférence sur le FPGA en nous basant sur les deux raisons suivantes : La première est que nous modifions à peine la conception de l’algorithme d’inférence. L’autre est que les FPGA ont une efficacité énergétique plus élevée et un délai inférieur à celui des GPU. De plus, étant donné que les deux plates-formes ont des formats de fichier de modèle différents et ne peuvent pas être substitués directement, nous avons conçu un convertisseur de modèle entre les deux phases pour convertir le modèle de la plate-forme d’entraînement à la plate-forme d’inférence.

Pour évaluer la méthodologie ci-dessus et les performances de la plate-forme, nous avons mis en place un réseau neuronal convolutif (CNN) pour reconnaître les chiffres manuscrits et un réseau neuronal profond (DNN) pour prédire l’efficacité d’utilisation de l’énergie (PUE) du centre de données avec la méthodologie de conception hybride sur l’hétérogénéité Plate-forme. De plus, les résultats expérimentaux ont montré que notre approche a obtenu une amélioration significative des performances sur la formation et l’inférence ML.

De plus, afin d’évaluer pleinement notre conception ML hybride, nous avons étendu les expériences pour inclure deux approches de reconstruction spectrale. Ces deux méthodes sont conçues pour résoudre le problème gravement sous-contraint de la reconstruction d’images multispectrales à partir d’images RVB. Le coeur de ces deux méthodes tourne autour de la façon de générer des informations multispectrales qui sont perdues en raison de la compression.

La première approche est basée sur Variational Autoencoder (VAE) et Generative Adversarial Network (GAN). Le VAE extrait les informations sur les caractéristiques clés des images RVB d’entrée via l’encodeur, les reparamétre avec une valeur échantillonnée au hasard à partir de la distribution normale, puis restaure les sorties de type MSI via le décodeur. Le GAN est chargé d’entraîner le générateur à générer des images de type MSI à partir de vecteurs latents reparamétrés. Le GAN est chargé d’apprendre au générateur à créer des images de type MSI à partir de vecteurs latents reparamétrés. Le problème de la reconstruction des MSI à partir de RVB peut être résolu avec un faible coût de calcul.

La deuxième méthode est appelée Taĳi Generative Neural Network (TaĳiGNN), qui combine le GAN cyclé et l’ancienne philosophie chinoise "Taĳi". TaĳiGNN se compose d’une paire de générateurs fonctionnant dans des directions opposées. La sortie d’un générateur est connectée à l’entrée de l’autre, formant une structure en boucle. Cette structure de boucle peut faire passer l’entrée à travers le domaine de sortie, puis revenir au domaine d’entrée. Par conséquent, TaĳiGNN peut convertir le problème de la comparaison d’images dans différents domaines en un problème de comparaison d’images dans le même domaine. Dans le même domaine, le problème sévèrement sous-contraint évoqué ci-dessus peut être résolu naturellement. De plus, TaĳiGNN a absorbé l’essence du Taĳi pour entraîner la paire de générateurs. Pendant le processus d’entraînement, la paire de générateurs fonctionne comme un couple, utilisant leurs propres avantages pour se compléter, s’aidant mutuellement à atteindre la convergence, de sorte que l’ensemble du système entre dans un état d’équilibre dynamique, très similaire au "Yin" de Taĳi. " et " Yang " mode de travail bipolaire.

Nous utilisons deux ensembles de données spectrales classiques, CAVE et ICVL, pour évaluer VAE-GAN et TaĳiGNN. Et ces deux approches utilisent beaucoup moins de données d’entraînement que l’état de l’art et atteignent ou dépassent leurs résultats. De plus, les deux approches sont implémentées et vérifiées sur une plate-forme informatique hétérogène conçue à l’aide de notre méthodologie hybride d’apprentissage automatique. Leurs vitesses d’entraînement et d’inférence ont été grandement améliorées.

Type de document:	Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires:	"Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 151-162).
Mots-clés libres:	apprentissage automatique, l’apprentissage en profondeur, calcul GPU, informatique FPGA, calcul haute performance, réseau accusatoire génératif, autoencodeurs variationnels, image multispectrale, reconstruction spectrale et traduction, traitement d’image, VAE-GAN, Taĳi GNN
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Gherbi, Abdelouahed
Codirecteur:	Codirecteur Cheriet, Mohamed
Programme:	Doctorat en génie > Génie
Date de dépôt:	01 févr. 2022 15:47
Dernière modification:	01 févr. 2022 15:47
URI:	https://espace.etsmtl.ca/id/eprint/2864

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt