La vitrine de diffusion des mémoires et thèses de l'ÉTS
RECHERCHER

Efficient reinforcement learning using improved prior modeling

Téléchargements

Téléchargements par mois depuis la dernière année

Agarwal, Pranav (2025). Efficient reinforcement learning using improved prior modeling. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

[thumbnail of Agarwal_Pranav.pdf]
Prévisualisation
PDF
Télécharger (2MB) | Prévisualisation

Résumé

Reinforcement learning (RL) has emerged as a unifying framework for sequential decision making. Yet, its practical impact is curbed by three persistent limitations: prohibitive sample demands, poor generalization across tasks and domains, and a lack of interpretability that accompanies high-capacity function approximators. This research argues that these limitations share a common source-insufficient prior structure—and that they can be alleviated by modelling agents with learnable, discrete, and adaptive priors. We pursue this claim through a trilogy of works that together reshape the reward, the world model, and the skill library on which efficient learning depends.

The first work converts sparse, human-supplied scores for heavy-equipment operation into a dense, differentiable reward prior. By training a score predictor that both evaluates and guides the policy, we demonstrate safe exploration in environment interaction relative to hand-crafted heuristics. The second work introduces DART, a transformer-based architecture that tokenizes states, actions, and returns into a standard symbolic alphabet. This discrete world model captures long-range temporal dependencies while preserving the manipulability of tokens, delivering state-of-the-art sample efficiency on the Atari-100k benchmark without sacrificing final performance. The third work presents STRIDE, a dynamic vector-quantized VAE that autonomously expands a codebook of motor primitives as tasks accumulate. STRIDE retains previously learned behaviours with negligible degradation. It halves the adaptation time on challenging locomotion curricula, all while exposing an interpretable “skill trace” that allows practitioners to audit and debug decisions.

Collectively, these contributions substantiate a unified hypothesis: when knowledge about rewards, dynamics, and skills is cast into discrete, growing vocabularies, tabula-rasa search gives way to data-efficient, compositional, and transparent learning. Beyond empirical gains—up to a 2.6× speed-up across diverse domains—the work offers conceptual tools for reasoning about priors in RL, provides open-source implementations for community use, and outlines future directions toward multi-modal and human-editable prior structures. In doing so, it takes a decisive step toward RL systems that can be trusted to learn quickly, allowing transferability and explainability when it matters most.

Titre traduit

Apprentissage par renforcement efficace par modélisation améliorée des connaissances a priori

Résumé traduit

L’apprentissage par renforcement (RL) s’est imposé comme un cadre unificateur pour la prise de décision séquentielle, mais son impact pratique reste limité par trois contraintes persistantes : une consommation d’échantillons prohibitive, une généralisation médiocre entre tâches et domaines, et un manque d’interprétabilité lié à l’utilisation d’approximateurs de fonctions à grande capacité. Cette recherche soutient que ces limitations partagent une origine commune — une structure a priori insuffisante — et qu’elles peuvent être atténuées en modélisant les agents à l’aide de structures a priori apprenables, discrètes et adaptatives. Nous poursuivons cette hypothèse à travers une trilogie de travaux qui reconfigurent respectivement la récompense, le modèle du monde, et la bibliothèque de compétences sur lesquels repose l’apprentissage efficace.

Le premier travail transforme des scores clairsemés fournis par des humains pour la conduite d’engins lourds en une récompense dense et différentiable. En entraînant un prédicteur de scores qui évalue et guide la politique, nous démontrons une exploration sûre dans l’interaction avec l’environnement, comparativement à des heuristiques conçues à la main. Le deuxième travail introduit DART, une architecture basée sur des transformeurs qui tokenise les états, actions et retours dans un alphabet symbolique commun. Ce modèle du monde discret capture des dépendances temporelles de longue portée tout en conservant la manipulabilité des jetons, atteignant une efficacité échantillonnale à la pointe de l’état de l’art sur le benchmark Atari-100k, sans sacrifier les performances finales. Le troisième travail présente STRIDE, un VAE vectoriel quantifié dynamique qui étend de manière autonome un dictionnaire de primitives motrices au fil de l’accumulation des tâches. STRIDE conserve les comportements précédemment appris sans dégradation significative et réduit de moitié le temps d’adaptation sur des curricula de locomotion complexes, tout en fournissant une « trace de compétence » interprétable qui permet aux praticiens d’auditer et de déboguer les décisions.

Pris ensemble, ces travaux appuient une hypothèse unificatrice : lorsque les connaissances sur les récompenses, dynamiques et compétences sont exprimées dans des vocabulaires discrets et évolutifs, la recherche tabula rasa cède la place à un apprentissage efficace, compositionnel et transparent. Au-delà des gains empiriques — jusqu’à un facteur 2,6 d’accélération dans divers domaines—ce travail propose des outils conceptuels pour raisonner sur les a priori en RL, fournit des implémentations open-source pour la communauté, et trace des pistes futures vers des structures a priori multimodales et éditables par l’humain. Ce faisant, il marque une avancée décisive vers des systèmes RL dignes de confiance, capables d’apprendre rapidement, de transférer les connaissances et d’expliquer leurs décisions quand cela importe le plus.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Comprend des références bibliographiques (pages 109-154).
Mots-clés libres: apprentissage par renforcement efficace, modélisation des a priori, représentations discrètes, apprentissage continu de compétences, interprétabilité
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Andrews, Sheldon
Codirecteur:
Codirecteur
Ebrahimi-Kahou, Samira
Programme: Doctorat en génie > Génie
Date de dépôt: 17 nov. 2025 15:04
Dernière modification: 17 nov. 2025 15:04
URI: https://espace.etsmtl.ca/id/eprint/3735

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt