Titre original :

Planification optimiste pour systèmes déterministes

Titre traduit :

Optimistic planning for deterministic dystems

Mots-clés en français :
  • Apprentissage par renforcement
  • Bornes supérieure et inférieure
  • Minimisation du regret

  • Intelligence artificielle
  • Apprentissage automatique
  • Arbres (théorie des graphes) -- Informatique
  • Planification -- Informatique
  • Prise de décision
  • Échantillonnage (statistique)
  • Langue : Français
  • Discipline : Informatique
  • Identifiant : 2012LIL10188
  • Type de thèse : Doctorat
  • Date de soutenance : 21/06/2012

Résumé en langue originale

Dans le domaine de l'apprentissage par renforcement, la planification dans le cas de systèmes déterministes consiste à effectuer une recherche avant grâce à un modèle génératif du système considéré et ce pour trouver l'action à appliquer dans son état courant. Dans notre cas, cette recherche avant conduira à la construction d'un arbre des possibilités, sa racine correspondant à l'état courant du système. Dans le cas où les ressources computationnelles sont limitées et inconnues, il convient d'utiliser un algorithme cherchant à minimiser son regret. Autrement dit, un algorithme retournant une action à effectuer qui soit la plus proche possible de l'optimale en terme de qualité et en fonction des ressources computationnelles. Nous présentons l'algorithme de planification optimiste dans le cas où l'espace d'action est discret. Nous prouvons une borne inférieure et supérieure sur son regret dans le pire des cas ainsi que dans une classe particulière de problèmes. Nous présentons ensuite deux autres algorithmes inspirés de l'approche optimiste dans le cas où l'espace d'action est continu.

Résumé traduit

In the field of reinforcement learning, planning in the case of deterministic systems consists of doing a forward search using a generative model of the system so as to find the action to apply in its current state. In our case, the forward search leads us to build a look-ahead tree, its root being the current state of the system. If the computational resources are limited and unknown, we have to use an algorithm which tries to minimize its regret. In other words, an algorithm returning an action to apply which is as close as possible to the optimal one in term of quality and with respect to the computational resources used. We present the optimistic planing algorithm in the case of a discrete action space. We prove a lower and upper bound in the worst case and in a particular class of problems. Also we present two algorithms using the optimistic approach but in the case of a continuous action space.

  • Directeur(s) de thèse : Munos, Rémi
  • Laboratoire : Laboratoire d'informatique fondamentale de Lille (2002-2014)
  • École doctorale : École doctorale Sciences pour l'ingénieur (Lille)

AUTEUR

  • Hren, Jean-François
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre