Titre original :

Toward realistic reinforcement learning

Titre traduit :

Apprentissage par renforcement réaliste

Mots-clés en français :
  • Algorithmes adaptatifs
  • Modélisation réaliste

  • Apprentissage par renforcement (intelligence artificielle)
  • Problème du bandit manchot
  • Markov, Processus de
  • Analyse séquentielle
  • Analyse de régression
Mots-clés en anglais :
  • Reinforcement learning
  • Online learning
  • Multi armed bandits

  • Langue : Anglais
  • Discipline : Informatique et applications
  • Identifiant : 2023ULILB007
  • Type de thèse : Doctorat
  • Date de soutenance : 14/04/2023

Résumé en langue originale

Dans cette thèse de doctorat, nous considérons le défi de rendre l'apprentissage par renforcement plus adapté aux problèmes du monde réel sans perdre les garanties théoriques. Il s'agit d'un domaine de recherche très actif, car l'application au monde réel est l'objectif final de cette littérature ainsi que la motivation première des cadres spécifiques de l'apprentissage par renforcement. Les garanties théoriques sont, comme leur nom l'indique, l'assurance que la théorie peut fournir sur la performance et la fiabilité de nos stratégies. Le développement de ce domaine est crucial pour améliorer les algorithmes RL interprétables. Notre travail est structuré autour de quatre contextes différents, nous commençons par une introduction au domaine et une revue générale de la littérature, y compris les bandits, les processus de Markov (MDP), certains objectifs d'apprentissage par renforcement, et quelques défis de RL réalistes.La thèse se poursuit en spécifiant divers scénarios spécifiques ainsi que différentes approches pour relever quelques défis pertinents du RL. Nous nous attaquons d'abord à un scénario séquentiel d'identification de signe pour les bandits à bras multiples, où nous concevons une méthode générique pour définir des algorithmes, une nouvelle stratégie de preuve fournissant des limites d'erreur. Ensuite, nous présentons de nouvelles observations comparant les algorithmes adaptatifs aux oracles hors ligne. Notre deuxième contribution est une amélioration théorique de la régression linéaire séquentielle pour des limites de regret améliorées et une stabilité accrue, nous nous sommes inspirés de résultats bien établis sur le cas adversatif et les avons adaptés au cadre stochastique, puis nous avons illustré les améliorations avec une application aux bandits linéaires. Une contribution significative de cette thèse est l'étude de la récente représentation de la famille exponentielle bilinéaire pour les MDPs à espaces continus. Nous avons pu faire des observations notables menant à des solutions explicites et à des garanties théoriques améliorées. Enfin, nous nous sommes attaqués au problème des gradients de politiques profondes où nous avons introduit une mesure d'erreur bien justifiée pour un apprentissage plus précis de la fonction de valeur. Le besoin de cette dernière amélioration a été fortement motivé par des travaux récents ainsi que par plusieurs expérimentations que nous avons fournies. En outre, l'évaluation expérimentale approfondie de notre nouvelle approche révèle une augmentation notable des performances, ce qui corrobore nos intuitions et valide nos affirmations.Les résultats de cette thèse démontrent un progrès substantiel dans la littérature RL, tant sur le plan pratique que théorique, offrant des perspectives et des solutions précieuses pour la communauté RL. Nous pensons que les méthodes proposées ont le potentiel de combler le fossé entre la théorie du RL motivée par les applications, faisant de cette thèse une contribution significative au domaine.

Résumé traduit

This thesis explores the challenge of making reinforcement learning (RL) more suitable to real-world problems without loosing theoretical guarantees. This is an interesting active research area because real-world problems are the final goal and the first motivation for the different RL settings, and theoretical guarantees are, like the name suggests, the assurances that the theory can provide about the performance and reliability of our strategies. Developing this field is crucial for improving interpretable RL algorithms. Our work is structured around four different RL settings, and begins with an introduction to the field and a general review of relevant literature, including bandits, Markov Decision Processes (MDPs), a number of reinforcement learning objectives, and relevant realistic RL challenges.The thesis proceeds by specifying various specific scenarios as well as different approaches to address the relevant RL challenges. We first tackle an online sign identification setting for multi-armed bandits, where we investigate a generic method to design algorithms, a novel proof strategy providing SOTA error bounds, and we present unprecedented observations when comparing adaptive algorithms to offline oracles. Our second contribution is a theoretical improvement of sequential linear regression for improved regret bounds and increased stability, we took inspiration from well established results on sequential adversarial regression and adapted them to the stochastic setting, then we illustrated the improvements with an application to linear bandits. A significant contribution of this thesis is studying the recent bilinear exponential family representation for continuous MDPs, we were able to make notable observations leading to tractability and improved theoretical guarantees. Finally, we tackled the setting of deep policy gradients where we introduced a principled loss for a more accurate value function learning, the need for this improvement was strongly motivated by recent work as well a several experiments that we provided. Also, the extensive experimental evaluation of our new approach reveals a significant performance boost corroborating our insights and validating our claims.The results of this research demonstrate substantial progress in the RL literature both practically theoretically, offering valuable insights and solutions for the RL community. We believe that the proposed methods show the potential to close the gap between purely theoretical RL and applications-motivated RL, making this thesis a significant contribution to the field.

  • Directeur(s) de thèse : Maillard, Odalric-Ambrym - Perchet, Vianney
  • Président de jury : Cappé, Olivier
  • Membre(s) de jury : Agrawal, Shipra - Carpentier, Alexandra - Gopalan, Aditya
  • Rapporteur(s) : Wintenberger, Olivier - Garivier, Aurélien
  • Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
  • École doctorale : Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille)

AUTEUR

  • Ouhamma, Reda
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre