La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Carbon-profit-aware job scheduling and load balancing in geographically distributed cloud for HPC and web applications

Farrahi Moghaddam, Fereydoun (2014). Carbon-profit-aware job scheduling and load balancing in geographically distributed cloud for HPC and web applications. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[img]
Prévisualisation
PDF
Télécharger (8MB) | Prévisualisation
[img]
Prévisualisation
PDF
Télécharger (1MB) | Prévisualisation

Résumé

This thesis introduces two carbon-profit-aware control mechanisms that can be used to improve performance of job scheduling and load balancing in an interconnected system of geographically distributed data centers for HPC and web applications. These control mechanisms consist of three primary components that perform: 1) measurement and modeling, 2) job planning, and 3) plan execution. The measurement and modeling component provide information on energy consumption and carbon footprint as well as utilization, weather, and pricing information. The job planning component uses this information to suggest the best arrangement of applications as a possible configuration to the plan execution component to perform it on the system.

For reporting and decision making purposes, some metrics need to be modeled based on directly measured inputs. There are two challenges in accurately modeling of these necessary metrics: 1) feature selection and 2) curve fitting (regression). First, to improve the accuracy of power consumption models of the underutilized servers, advanced fitting methodologies were used on the selected server features. The resulting model is then evaluated on real servers and is used as part of load balancing mechanism for web applications. We also provide an inclusive model for cooling system in data centers to optimize the power consumption of cooling system, which in turn is used by the planning component. Furthermore, we introduce another model to calculate the profit of the system based on the price of electricity, carbon tax, operational costs, sales tax, and corporation taxes. This model is used for optimized scheduling of HPC jobs.

For position allocation of web applications, a new heuristic algorithm is introduced for load balancing of virtual machines in a geographically distributed system in order to improve its carbon awareness. This new heuristic algorithm is based on genetic algorithm and is specifically tailored for optimization problems of interconnected system of distributed data centers. A simple version of this heuristic algorithm has been implemented in the GSN project, as a carbon-aware controller.

Similarly, for scheduling of HPC jobs on servers, two new metrics are introduced: 1) profitper-core-hour-GHz and 2) virtual carbon tax. In the HPC job scheduler, these new metrics are used to maximize profit and minimize the carbon footprint of the system, respectively. Once the application execution plan is determined, plan execution component will attempt to implement it on the system. Plan execution component immediately uses the hypervisors on physical servers to create, remove, and migrate virtual machines. It also executes and controls the HPC jobs or web applications on the virtual machines.

For validating systems designed using the proposed modeling and planning components, a simulation platform using real system data was developed, and new methodologies were compared with the state-of-the-art methods considering various scenarios. The experimental results show improvement in power modeling of servers, significant carbon reduction in load balancing of web applications, and significant profit-carbon improvement in HPC job scheduling.

Titre traduit

Ordonnancement de tâches informatiques et répartition de charge en fonction des profits et des émissions de carbone dans des nuages répartis géographiquement pour les applications HPC et web

Résumé traduit

Cette thèse présente deux mécanismes de contrôle en fonction des profits et des émissions de carbone, pour améliorer les performances d’ordonnancement de tâches et de répartition de charge, dans un système interconnecté de centres de données réparti géographiquement pour les applications HPC et web. Ces mécanismes de contrôle sont constitués de trois composants primaires qui effectuent: 1) la mesure et la modélisation, 2) la planification de tâches, et 3) l’exécution du plan. La partie de mesure et modélisation fournissent des informations sur la consommation d’énergie et l’empreinte carbone ainsi que l’information concernant l’utilisation, coût, et de donnée météorologique. La partie de planification de tâches utilise ces informations pour proposer la meilleure disposition des applications à la partie d’exécution du plan, afin de l’exécuter sur le système.

Pour des fins de rapports et décision, certaines métriques doivent être modélisées en fonction de données mesurées directement. Il existe deux défis à la modélisation fidèle de ces métriques essentielles: 1) la sélection de caractéristiques et 2) l’ajustement des courbes (régression). Tout d’abord, afin d’améliorer la précision des modèles de consommation d’énergie des serveurs sous-utilisés, les méthodes d’ajustement des courbes avancées ont été utilisées sur les caractéristiques sélectionnées de serveur. Le modèle qui en résulte est ensuite évalué sur des serveurs réels et est utilisé par le mécanisme de répartition de charge pour les applications web. Nous fournissons également un modèle inclusif pour le système de refroidissement des centres de données afin d’optimiser sa consommation d’énergie, qui à son tour est utilisé par la partie de planification de tâches. De plus, nous introduisons un autre modèle pour calculer le bénéfice du système, basé sur le prix de l’électricité, taxe carbone, les coûts opérationnels, la taxe de vente et l’impôt des sociétés. Ce modèle est utilisé pour la planification optimisée des tâches HPC.

Pour l’allocation de position d’applications web, un nouvel algorithme heuristique est introduit pour la répartition de charge des machines virtuelles dans un système réparti géographiquement afin de diminuer l’empreinte carbone. Ce nouvel algorithme heuristique est basée sur un algorithme génétique spécialement conçu pour les problèmes d’optimisation de système interconnecté de centres de données répartie géographiquement. Une version simple de cet algorithme heuristique est mis en oeuvre dans le projet GreenStar, en tant que contrôleur de carbone.

De même, pour l’ordonnancement des tâches HPC sur les serveurs, deux nouvelles métriques sont introduites: 1) Bénéfice-par-coeur-heure-GHz et 2) la taxe carbone virtuel. Dans l’ordonnanceur de tâches HPC, ces nouvelles métriques sont utilisées pour maximiser les profits et minimiser l’empreinte carbone du système. Une fois le plan d’exécution d’application est déterminé, la partie d’exécution du plan va tenter de mettre en oeuvre le système. La partie d’exécution du plan utilise directement les hyperviseurs sur des serveurs physiques pour créer, supprimer, et migrer les machines virtuelles. Il exécute et contrôle également les tâches HPC ou des applications web sur les machines virtuelles. Pour valider le système conçu, utilisant la modélisation proposée et la planification de tâches, une plateforme de simulation utilisant les données du système réel a été développée, et nos méthodes originales ont été comparées avec les méthodes de la littérature, sous plusieurs scénarios différents. Les résultats expérimentaux montrent une amélioration dans la modélisation de la puissance des serveurs, une réduction importante de carbone lors de la répartition de charge des applications Web, et l’amélioration significative de profits et de carbone de l’ordonnancement de tâches HPC.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Thesis presented to École de technologie supérieure in partial fulfillment of the requirements for the degree of doctor of philosophy". Bibliographie : pages 175-183.
Mots-clés libres: Infonuagique. Superinformatique. Applications Web. Gestion d'entreprise Aspect de l'environnement. Entreprises Profits. Ordonnancement (Informatique) Réseaux électriques (Énergie) Répartition des charges. dépendance aux profits et émissions de carbone, HPC, ordonnancement de tâches, centres de données répartie géographiquement, nuage répartie géographiquement, taxe carbone virtuelle, algorithme génétique par regroupement multi-niveau, modélisation de la puissance de serveurs, modélisation de la puissance de système de refroidissement, bénéfice-par-coeur-heure-GHz
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Cheriet, Mohamed
Programme: Doctorat en génie > Génie
Date de dépôt: 26 mars 2014 20:33
Dernière modification: 10 déc. 2016 16:28
URI: http://espace.etsmtl.ca/id/eprint/1274

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt

Statistique

Plus de statistique...