Titre original :

Apprenticeship learning : transferring human motivations to artificial agents

Titre traduit :

Apprentissage par démonstrations : transfert des motivations humaines aux algorithmes

Mots-clés en français :
  • Apprentissage par imitation
  • Fonction de récompense

  • Apprentissage par renforcement (intelligence artificielle)
  • Prise de décision (statistique)
  • Interaction humain-machine
Mots-clés en anglais :
  • Learning
  • Imitation
  • Reinforcement

  • Langue : Anglais
  • Discipline : Informatique et applications
  • Identifiant : 2022ULILB043
  • Type de thèse : Doctorat
  • Date de soutenance : 14/12/2022

Résumé en langue originale

L'apprentissage par renforcement est un cadre mathématique et algorithmique générique qui vise à developper des algorithmes qui interagissent avec leur environnement et s'améliorent au fil du temps pour maximiser leur recompense sur le long terme. Il permet d'aborder divers problèmes de prise de décision séquentielle comme la robotique, les jeux de plateaux ou jeux vidéo ou encore les véhicules autonomes. Cependant, ces agents d'apprentissage par renforcement nécessitent une grande quantité d'interactions avec leur environnement pour apprendre, et il est souvent difficile de concevoir une fonction de récompense qui soit précisément alignée sur ce que nous attendons de lui. L'apprenticeship learning s'attaque à ce problème en s'appuyant non seulement sur la fonction de récompense, mais aussi sur des données supplémentaires. Typiquement, ces données se présentent sous la forme de démonstrations. Comment tirer le meilleur parti de telles démonstrations, en particulier lorsqu'elles sont produites par un être humain, est une question ouverte. Cette thèse présente des contributions pratiques à l'apprenticeship learning. Nous nous intéressons d'abord à l'apprentissage par imitation, où le but est de mimer les démonstrations considérées comme optimales. Nous étudions comment concevoir un algorithme d'apprentissage par imitation adversariale. Nous donnons des recommandations sur les différents choix à faire lors de la conception d'un tel agent et nous soulignons les différences entre imiter des démonstrations synthétiques et humaines. Pour contourner la fragilité de ces méthodes (conséquence de leur formulation mathématique), nous concevons un nouvel algorithme d'apprentissage par imitation. En dérivant une borne supérieure d'une distance de transport optimale, nous évitons l'optimisation du point de selle et obtenons un algorithme simple avec peu d'hyperparamètres. Nous démontrons ses performances sur des tâches robotiques simulées dans un régime de données très faible. Nous étudions ensuite comment sélectionner des hyperparamètres dans le cadre de l'apprentissage par imitation, sans accès à la fonction de récompense. Nous utilisons pour cela les deux algorithmes susmentionnés ainsi que l'approche standard d'imitation par apprentissage supervisé. Dans une seconde partie, afin de tirer le meilleur parti à la fois des démonstrations et de la récompense, nous concevons un algorithme qui permet le transfert de la motivation intrinsèque des démonstrations à l'agent, améliorant ainsi son exploration de l'environnement. Nous montrons que la motivation apprise, extraite des données, transmet de l'information venant des démonstrations. Enfin, nous montrons que l'on peut transférer les incitations humaines d'une manière différente, en apprenant une discrétisation état-dépendante de l'espace d'action de l'agent. Nous montrons l'efficacité des algorithmes résultants sur une variété de tâches robotiques, en utilisant des démonstrations humaines ainsi que des données de jeux (sans objectif défini) humaines, avec ou sans fonction de récompense.

Résumé traduit

Reinforcement learning is a generic mathematical and algorithmic framework which aims at building artificial agents that experience their environment and improve over time to maximize their overall outcome. It permits to tackle various sequential decision making problems like robotics, board and video games or self-driving vehicles. Yet reinforcement learning agents require a large amount of interactions with their environment to learn, and it is often hard to design a reward function that is precisely aligned with what we expect the agent to do. extit{Apprenticeship learning} tackles this problem by not only relying on the reward function but also on additional sources of knowledge. Particularly, extit{learning from demonstrations} makes use of examples of how to solve the task at hand. How to make the most of such demonstrations, in particular when they are produced by a human being, is an open question. This thesis presents practical contributions to apprenticeship learning. We first focus on imitation learning, where the goal is to mimic the demonstrations that are considered as optimal. We investigate how to properly design an adversarial imitation learning algorithm. We give recommendations on the various choices to make when designing such an agent and we highlight differences between mimicking synthetic and human demonstrations. To bypass the brittleness of these methods (a consequence of their mathematical formulation), we design a new imitation learning algorithm. By deriving an upper-bound of an optimal-transport distance, we avoid the saddle-point optimization and obtain a simple algorithm with very little hyperparameters. We show its strong performance on simulated robotic tasks in the very low data regime. We then study how to select hyperparameters in the context of imitation learning, without access to the reward function. We use, as test-bed, the two aforementioned algorithms as well as the standard supervised learning approach, behavioral cloning. In a second part, in order to make the most of both demonstrations and a reward function, we design an algorithm that enables the transfer of intrinsic motivation from the demonstrations to the agent, improving its exploration of the environment. We show that the learned motivation, extracted from the data, carries out information from the demonstrations. Finally, we show that one can transfer human incentives in a different manner, by learning a state-dependent discretization of the action space of the agent. We show the efficiency of the resulting algorithms on a variety of robotic tasks, using human demonstrations as well as human ``play-data'', with or without the reward function.

  • Directeur(s) de thèse : Preux, Philippe - Pietquin, Olivier
  • Président de jury : Ernst, Damien
  • Membre(s) de jury : White, Martha - Geist, Matthieu - Bachem, Olivier
  • Rapporteur(s) : Oudeyer, Pierre-Yves - Rachelson, Emmanuel
  • Laboratoire : Centre Inria de l'Université de Lille - Centre de Recherche en Informatique, Signal et Automatique de Lille
  • École doctorale : Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille)

AUTEUR

  • Hussenot, Léonard
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre