Titre original :

Gaussian models and kernel methods

Titre traduit :

Modèles Gaussiens et méthodes à noyaux

Mots-clés en français :
  • Détection d’anomalie
  • Espaces à noyaux
  • Noyaux radiaux gaussiens

  • Processus gaussiens
  • Bootstrap (statistique)
  • Machines à vecteurs de support
  • Tests d'ajustement (statistique)
  • Espaces de Hilbert
  • Langue : Anglais
  • Discipline : Mathématiques appliquées
  • Identifiant : 2016LIL10177
  • Type de thèse : Doctorat
  • Date de soutenance : 01/12/2016

Résumé en langue originale

Les méthodes à noyaux ont été beaucoup utilisées pour transformer un jeu de données initial en les envoyant dans un espace dit « à noyau » ou RKHS, pour ensuite appliquer une procédure statistique sur les données transformées. En particulier, cette approche a été envisagée dans la littérature pour tenter de rendre un modèle probabiliste donné plus juste dans l'espace à noyaux, qu'il s'agisse de mélanges de gaussiennes pour faire de la classification ou d'une simple gaussienne pour de la détection d'anomalie. Ainsi, cette thèse s'intéresse à la pertinence de tels modèles probabilistes dans ces espaces à noyaux. Dans un premier temps, nous nous concentrons sur une famille de noyaux paramétrée - la famille des noyaux radiaux gaussiens - et étudions d'un point de vue théorique la distribution d'une variable aléatoire projetée vers un RKHS correspondant. Nous établissons que la plupart des marginales d'une telle distribution est asymptotiquement proche d'un « scale-mixture » de gaussiennes - autrement dit une gaussienne avec une variance aléatoire - lorsque le paramètre du noyau tend vers l'infini. Une nouvelle méthode de détection d'anomalie utilisant ce résultat théorique est introduite.Dans un second temps, nous introduisons un test d'adéquation basé sur la Maximum Mean Discrepancy pour tester des modèles gaussiens dans un RKHS. En particulier, notre test utilise une procédure de bootstrap paramétrique rapide qui permet d'éviter de ré-estimer les paramètres de la distribution gaussienne à chaque réplication bootstrap.

Résumé traduit

Kernel methods have been extensively used to transform initial datasets by mapping them into a so-called kernel space or RKHS, before applying some statistical procedure onto transformed data. In particular, this kind of approach has been explored in the literature to try and make some prescribed probabilistic model more accurate in the RKHS, for instance Gaussian mixtures for classification or mere Gaussians for outlier detection. Therefore this thesis studies the relevancy of such models in kernel spaces.In a first time, we focus on a family of parameterized kernels - Gaussian RBF kernels - and study theoretically the distribution of an embedded random variable in a corresponding RKHS. We managed to prove that most marginals of such a distribution converge weakly to a so-called ''scale-mixture'' of Gaussians - basically a Gaussian with a random variance - when the parameter of the kernel tends to infinity. This result is used in practice to device a new method for outlier detection.In a second time, we present a one-sample test for normality in an RKHS based on the Maximum Mean Discrepancy. In particular, our test uses a fast parametric bootstrap procedure which circumvents the need for re-estimating Gaussian parameters for each bootstrap replication.

  • Directeur(s) de thèse : Biernacki, Christophe - Celisse, Alain
  • Laboratoire : Laboratoire Paul Painlevé
  • École doctorale : École doctorale Sciences pour l'ingénieur (Lille)

AUTEUR

  • Kellner, Jérémie
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre