Sujit, Shivakanth (2023). Evaluation of sample efficiency in offline reinforcement learning. Mémoire de maîtrise électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (1MB) | Prévisualisation |
Résumé
Reinforcement learning (RL) has shown great promise with algorithms learning in environments with large state and action spaces purely from scalar reward signals. A crucial challenge for current deep RL algorithms is that they require a tremendous amount of environment interactions for learning. This can be infeasible in situations where such interactions are expensive; such as in robotics. Offline RL algorithms try to address this issue by bootstrapping the learning process from existing logged data without needing to interact with the environment from the very beginning. While online RL algorithms are typically evaluated as a function of the number of environment interactions, there exists no single established protocol for evaluating offline RL methods. In this thesis, we propose a sequential approach to evaluate offline RL algorithms as a function of the training set size and thus by their data efficiency. Sequential evaluation provides valuable insights into the data efficiency of the learning process and the robustness of algorithms to distribution changes in the dataset while also harmonizing the visualization of the offline and online learning phases. Our approach is generally applicable and easy to implement. We compare several existing offline RL algorithms using this approach and present insights from a variety of tasks and offline datasets.
Titre traduit
Évaluation de l’efficacité des données dans l’apprentissage par renforcement hors ligne
Résumé traduit
L’apprentissage par renforcement (RL) s’est avéré très prometteur avec des algorithmes apprenant dans des environnements avec de grands espaces d’état et d’action uniquement à partir de signaux de récompense scalaires. L’un des principaux défis des algorithmes actuels d’apprentissage par renforcement est qu’ils nécessitent un nombre considérable d’interactions avec l’environnement pour l’apprentissage. Cela peut s’avérer infaisable dans les situations où ces interactions sont coûteuses, comme en robotique. Les algorithmes RL hors ligne tentent de résoudre ce problème en amorçant le processus d’apprentissage à partir des données enregistrées existantes sans avoir besoin d’interagir avec l’environnement dès le départ. Alors que les algorithmes RL en ligne sont généralement évalués en fonction du nombre d’interactions avec l’environnement, il n’existe pas de protocole unique établi pour évaluer les méthodes RL hors ligne. Dans cette thèse, nous proposons une approche séquentielle pour évaluer les algorithmes RL hors ligne en fonction de la taille de l’ensemble d’apprentissage et donc de leur efficacité en termes de données. L’évaluation séquentielle fournit des informations précieuses sur l’efficacité du processus d’apprentissage et la robustesse des algorithmes aux changements de distribution dans l’ensemble de données, tout en harmonisant la visualisation des phases d’apprentissage en ligne et hors ligne. Notre approche est généralement applicable et facile à mettre en œuvre. Nous comparons plusieurs algorithmes RL hors ligne existants à l’aide de cette approche et présentons les résultats d’une variété de tâches et d’ensembles de données hors ligne.
Type de document: | Mémoire ou thèse (Mémoire de maîtrise électronique) |
---|---|
Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment of a master’s degree with thesis in information technology engineering". Comprend des références bibliographiques (pages 45-49). |
Mots-clés libres: | apprentissage par renforcement hors ligne, méthodes d’évaluation |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Ebrahimi-Kahou, Samira |
Programme: | Maîtrise en ingénierie > Génie des technologies de l'information |
Date de dépôt: | 08 mars 2024 20:00 |
Dernière modification: | 08 mars 2024 20:00 |
URI: | https://espace.etsmtl.ca/id/eprint/3424 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |