Short term management of hydro-power system using reinforcement learning

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Zarghami, Mahdi (2018). Short term management of hydro-power system using reinforcement learning. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.

Prévisualisation	PDF Télécharger (1MB) \| Prévisualisation
Prévisualisation	PDF Télécharger (691kB) \| Prévisualisation

Résumé

The fundamental objective in operation of reservoir complex is to specify an optimal decision policy so that it can maximize the expected value of reward function over the planning horizon. This control problem becomes more challenging as a result of existing different sources of uncertainties that reservoir planner needs to deal with. Usually, a trade-off exists between a value of water in storage and the electricity production. The function on the side of the value of water is uncertain and nonlinear in the reservoir management problem and it heavily depends on storage of reservoir and storage of other reservoirs as well. The challenging task is then how to solve this large-scale multireservoir problem under the presence of several uncertainties.

In this thesis, the integration of a novel approach known as Reinforcement Learning (RL) is presented in order to provide an efficient optimization of a large-scale hydroelectric power system. RL is a branch of artificial intelligence method that presents several key benefits in treating problems that are too large to be handled by traditional dynamic programming techniques. In this approach, an agent tries to learn the optimal decision continuously so as to maximize the reward function based on interacting with the environment. This study presents the major concepts and computational aspects of using RL for the short-term planning problem of multireservoir system.

The developed reinforcement learning based optimization model was successfully implemented on the Hydro-Quebec multireservoir complex located at the Rivière Romaine, north of the municipality of Havre-Saint-Pierre on the north shore of the St. Lawrence. This model was subsequently used to obtain optimal water release policies for the previously-mentioned reservoir complex. The output of the designed model was compared to the conventional optimization methods known as deterministic dynamic programming. The results show that the RL model is much more efficient and reliable in solving large-scale reservoir operations problems and can give a very good approximate solution to this complex problem.

Résumé traduit

L’objectif principal de la planification des opérations du réservoir est de déterminer les politiques d’exploitation optimales qui maximisent la valeur attendue des ressources du système sur l’horizon de planification. Ce problème de contrôle devient plus compliqué en raison des différentes sources d’incertitudes existantes que le planificateur de réservoir doit faire face. Habituellement, il existe un compromis entre une valeur d’eau dans le stockage et le marché de l’électricité. La fonction sur le côté de la valeur de l’eau est incertaine et non linéaire dans le problème de la gestion du réservoir et elle dépend fortement du stockage du réservoir et du stockage d’autres réservoirs. La difficilé de la tâche est alors de savoir comment résoudre ce problème multi-réservoir à grande échelle en présence de plusieurs incertitudes.

Dans cette thèse, l’intégration d’une nouvelle approche connue sous le nom de apprentissage par renforcement (Reinforcement Learning) est présentée afin de fournir une optimization précise d’un système hydroélectrique à grande échelle. RL est une branche de la method de l’intelligence artificielle qui présente plusieurs avantages clefs dans le traitement de problèmes trop importants pour être manipulés par des techniques de programmation dynamiques traditionnelles. Dans cette approche, un agent essaie d’apprendre continuellement la décision optimale afin de maximiser la fonction de réponse en fonction de l’interaction avec l’environnement. Cette étude présente les concepts majeurs ainsi que les aspects informatiques de l’utilisation RL pour le problème de planification à court terme du système multi réservoir.

Le modèle d’optimisation basé sur l’apprentissage de renforcement développé a été mis en place avec succès sur le complexe multi-réservoir d’Hydro-Québec situé à la Rivière Romaine, au nord de la municipalité de Havre-Saint-Pierre sur la rive nord du Saint-Laurent. Ce modèle a ensuite été utilisé pour obtenir des politiques optimales de libération d’eau pour le complexe de réservoir mentionné précédemment. La sortie du modèle conçu a été comparée aux methods d’optimisation classiques connues sous le nom de la programmation dynamique déterministe. Les résultats montrent que le modèle RL est beaucoup plus efficace et fiable pour résoudre les problèmes d’exploitation des réservoirs à grande échelle et peut donner une très bonne solution approximative à ce problème complexe.

Type de document:	Mémoire ou thèse (Mémoire de maîtrise électronique)
Renseignements supplémentaires:	"Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise avec mémoire en génie". Comprend des références bibliographiques (pages 87-91).
Mots-clés libres:	production d’énergie hydroélectrique, apprentissage machine, apprentissage par renforcement
Directeur de mémoire/thèse:	Directeur de mémoire/thèse Errico, Fausto
Programme:	Maîtrise en ingénierie > Génie
Date de dépôt:	02 nov. 2018 14:20
Dernière modification:	02 nov. 2018 14:20
URI:	https://espace.etsmtl.ca/id/eprint/2120

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt