Pépite | Contrôle optimal et apprentissage automatique, applications aux interactions homme-machine

Mon panier0

Imprimer Version XML Ajouter à mon panier

Titre original :

Contrôle optimal et apprentissage automatique, applications aux interactions homme-machine

Titre traduit :

Optimal control and machine learning, applications to man-machine interactions

Mots-clés en français :

Contrôle optimal
Apprentissage par renforcement
Apprentissage par imitation
Fonction de récompense

Interaction homme-ordinateur
Apprentissage automatique
Systèmes dynamiques
Estimation de paramètres
Kalman, Filtrage de

Informations générales

Langue : Français
Discipline : Mathématiques
Identifiant : Inconnu
Type de mémoire : Habilitation à diriger des recherches
Date de soutenance : 01/02/2016

Résumé en langue originale

Les travaux présentés portent généralement sur la problématique de l’apprentissage du contrôle optimal d’un système dynamique à partir de données d’interaction avec ce système. Ils portent plus particulièrement sur l’apprentissage par renforcement, où la qualité du contrôle est quantifiée localement par une information de récompense, ainsi que sur l’apprentissage par imitation, où les données observées sont des démonstrations effectuées par un expert, qu’il s’agit d’imiter (directement, ou via l’apprentissage d’une fonction de récompense optimisée par l’expert). Ces paradigmes sont appliqués à des problèmes d’interactions homme-machine (plus spécifiquement, systèmes de dialogue parlé, tutorat intelligent et introduction du rire dans une interaction avatar-humain), où c’est l’humain avec lequel interagit la machine qui définit la dynamique du système à contrôler.

Résumé traduit

This work deals with the problem of learning the optimal control of a dynamical system from data gathered while interacting with the system. It deals more specifically with reinforcement learning, where the quality of the control is locally quantified with a reward information. It also deals with imitation learning, where the data corresponds to demonstrations done by an expert, the goal being to imitate it (directly, or through the learning of a reward function optimized by the expert). These paradigms are applied to problems of man-machine interactions (specifically to spoken dialogue systems, to e-learning and to the introduction of laugh in human-avatar interactions). In these application fields, it is the human interacting with the machine that defines the dynamics of the system to be controlled.

Informations sur les contributeurs

Directeur(s) de thèse : Pietquin, Olivier
Laboratoire : Centre de recherche en informatique, signal et automatique de Lille (CRIStAL)
École doctorale : École doctorale Sciences pour l'Ingénieur (Lille)

AUTEUR

Geist, Matthieu

Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.

Accès libre

Accéder au document