Titre original :

Mise à l'échelle de l'apprentissage par renforcement multi-agent grâce aux jeux à champ moyen et vice-versa

Titre traduit :

Scaling up Multi-agent Reinforcement Learning with Mean Field Games and Vice-versa

Mots-clés en français :
  • Jeux à champ moyen

  • Apprentissage par renforcement (intelligence artificielle)
  • Jeux non coopératifs (mathématiques)
  • Intelligence artificielle répartie
  • Programmation dynamique
  • Itération (mathématiques)
  • Processus décisionnels de Markov relationnels
Mots-clés en anglais :
  • Game theory
  • Reinforcement learning
  • Mean field games

  • Langue : Anglais
  • Discipline : Informatique et applications
  • Identifiant : 2022ULILB052
  • Type de thèse : Doctorat
  • Date de soutenance : 08/12/2022

Résumé en langue originale

De la propagation d'une épidémie à l'optimisation du trafic routier, en passant par l'étude des environnements biologiques, les systèmes multi-agent sont omniprésents dans la nature et en ingénierie. Cependant, si les progrès en intelligence artificielle et en particulier en apprentissage par renforcement ont permis de résoudre des jeux complexes tels que le Go, Starcraft et le Poker, les méthodes récentes ont toujours du mal à s'attaquer à des applications de plus d'une douzaine de joueurs. Cette difficulté est connue sous le nom de la malédiction des nombreux agents : quand le nombre d'agents augmente, le jeu devient bien plus difficile à résoudre car le nombre d'interactions à étudier entre les joueurs devient intraitable.Dans cette thèse, nous étudions comment l'apprentissage par renforcement et les jeux à champ moyen peuvent bénéficier mutuellement l'un de l'autre. D'un côté, les jeux à champ moyen peuvent permettre à l'apprentissage par renforcement multi-joueurs de passer à l'échelle en termes de nombre d'agents, étant donné qu'ils comportent par définition une infinité de joueurs. De l'autre côté, l'apprentissage par renforcement s'est avéré efficace pour résoudre des jeux stochastiques et complexes et pourraient ainsi permettre de trouver des équilibres de Nash dans des jeux à champ moyen compliqués, sans avoir à connaître le modèle ou à résoudre un système forward-backward d'équations stochastiques ou aux dérivées partielles.Au cours de cette dissertation, nous définissons précisément les jeux à champ moyen, les processus décisionnels de Markov et l'apprentissage par renforcement, avant de détailler les différentes configurations que le lecteur peut rencontrer en cherchant à entremêler l'apprentissage par renforcement avec les jeux à champ moyen. Puis, nous présentons une approche unifiée des algorithmes, aussi appelés méthodes itératives, servant à résoudre des jeux à champ moyen, soit à l'aide de la programmation dynamique quand le modèle est connu, soit avec de l'apprentissage par renforcement lorsqu'il ne l'est pas.Puis, nous zoomons sur deux méthodes itératives : Fictitious Play (FP) et Online Mirror Descent (OMD). Nous prouvons leur convergence vers l'équilibre de Nash sous la condition de monotonicité dans le cas exact, avec ou sans bruit commun, dans des jeux à champ moyen à une ou plusieurs populations. Nous démontrons numériquement leur convergence dans un large set d'exemples et soulignons qu'OMD converge plus rapidement.Dans la dernière partie, nous proposons trois contributions démontrant que l'apprentissage par renforcement profond peut résoudre des jeux à champ moyen. La première présente comment des agents qui utilisent ce paradigme apprennent à se regrouper ensemble, dans un environnement continu et multi-dimensionnel. Puis, nous nous attaquons à la généralisation par rapport à la distribution initiale, et démontrons que l'apprentissage par renforcement profond permet le calcul de politiques population-dépendantes. Enfin, nous proposons deux algorithmes permettant à FP et OMD de passer à l'échelle, ne requérant pas de sommer ou moyenner des réseaux de neurones.

Résumé traduit

From understanding the spreading of an epidemic to optimizing traffic flow or biological swarming, multi-agent systems are ubiquitous in nature and engineering. However, if recent progress in artificial intelligence and in particular reinforcement learning has allowed to solve complex games such as Go, Starcraft and Poker, recent methods still struggle to tackle applications with more than a dozen a players. This difficulty is known as the curse of many agents: when the number of agents increases, the game becomes computationally way harder to solve as interactions among players become intractable.In this Ph.D. thesis, we study how reinforcement learning and mean field games can benefit mutually from each other. On one hand, Mean Field Games (MFGs) can help to scale up games and Multi-agent Reinforcement Learning (MARL) in terms of number of agents, as they naturally deal with an infinite number of players. On the other hand, Reinforcement Learning (RL) has proven very efficient to solve complex stochastic games and could thus be used to find Nash equilibria in complicated MFGs without having to know the model or to solve forward-backward system of partial or stochastic differential equations.During the dissertation, we define precisely mean field games, Markov Decision Processes (MDPs) and reinforcement learning, before detailing the different settings the reader may encounter when intertwining MFGs with RL. Then, we present a unified approach of algorithms, or iterative methods, to solve MFGs, either with Dynamic Programming (DP) when the model is known or reinforcement learning when it is not.Then, we zoom in two iterative methods: Fictitious Play (FP) and Online Mirror Descent (OMD). We prove their convergence to the Nash equilibrium under the monotonicity condition in the exact case, with or without common noise, in single and multi-populations mean field games. We demonstrate numerically their convergence in a various set of examples and highlight that OMD converges faster.In the last part, we propose three contributions to demonstrate that Deep Reinforcement Learning (DRL) can solve mean field games. The first one presents how agents using deep reinforcement learning and fictitious play learn to flock in a complex multi-dimensional continuous environment. Then, we tackle the question of generalization in mean field games, and how DRL allows to compute population-dependant policies able to be near-optimal against many distributions. Finally, we propose new state-of-the-art algorithms which are a deep scalable version of both fictitious play and online mirror descent and do not require to average or sum neural networks compared to their previous counterparts.

  • Directeur(s) de thèse : Pietquin, Olivier - Elie, Romuald
  • Président de jury : Charpillet, François
  • Membre(s) de jury : Kaufmann, Emilie - Geist, Matthieu - Neu, Gergely
  • Rapporteur(s) : Delarue, François - Restelli, Marcello
  • Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
  • École doctorale : Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille)

AUTEUR

  • Perrin, Sarah
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre