Titre original :

Contribution à la classification de variables dans les modèles de régression en grande dimension

Titre traduit :

Contribution to variable clusteringin high dimensional linear regression models

Mots-clés en français :
  • Modèles de mélanges gaussiens
  • Régression binaire

  • R (logiciel)
  • Analyse de régression
  • Classification automatique (statistique)
  • Algorithmes EM
  • Monte-Carlo, Méthode de
  • Génomique
  • Langue : Anglais
  • Discipline : Mathématiques appliquées
  • Identifiant : 2014LIL10028
  • Type de thèse : Doctorat
  • Date de soutenance : 28/05/2014

Résumé en langue originale

Cette thèse propose une contribution originale au domaine de la classification de variables en régression linéaire. Cette contribution se base sur une modélisation hiérarchique des coefficients de régression. Cette modélisation permet de considérer ces derniers comme des variables aléatoires distribuées selon un mélange de lois Gaussiennes ayant des centres différents mais des variances égales. Nous montrons dans cette thèse que l'algorithme EM, communément utilisé pour estimer les paramètres d'un modèle hiérarchique ne peut s'appliquer. En effet, l'étape E de l'algorithme n'est pas explicite pour notre modèle.Nous avons donc proposé une approche plus efficace pour l'estimation des paramètres grâce à l'utilisation de l'algorithme SEM-Gibbs. En plus de cette amélioration computationnelle, nous avons introduit une contrainte dans le modèle pour permettre d'effectuer une sélection de variables simultanément. Notre modèle présente de très bonnes qualités prédictives relativement aux approches classiques pour la réduction de la dimension en régression linéaire. Cette thèse présente aussi une extension de notre méthodologie dans le cadre de la régression Probit pour données binaires. Notre modèle modèle a de plus été généralisé en relâchant l'hypothèse de l'égalité des variances pour les composantes du mélange Gaussien. Les performances de ce modèle généralisé ont été comparées à celles du modèle initial à travers différents scénarios de simulations. Ce travail de recherche a conduit au développement du package R clere. Ce dernier package met en œuvre tous les algorithmes décrits dans cette thèse.

Résumé traduit

We proposed in this thesis an original contribution to the field of variable clustering in linear regression through a model-based approach. This contribution was made via a hierarchical modeling of the regression coefficients as random variables drawn from a mixture of Gaussian distributions with equal variances. Parameter estimation in the proposed model was shown to be challenging since the classical EM algorithm could not apply. We then developped a more efficient algorithm for parameter estimation, through the use of the SEM-Gibbs algorithm. Along with this computational improvement, we also enhanced our model to allow variable selection. Given the good predictive performances of the CLERE method compared to standard techniques for dimension reduction, we considred an extension of the latter to binary response data. This extension was studied in the context of Probit regression. We generalized our model by relaxing the assumption of equal variance for the components in the mixture of Gaussians. The performances of this generalization were compared to those of the initial model under different scenarios on simulated data. This research led to the development of the R package clere which implements most of the algorithms described in this thesis.

  • Directeur(s) de thèse : Biernacki, Christophe - Jacques, Julien
  • Laboratoire : Laboratoire Paul Painlevé
  • École doctorale : École doctorale Sciences pour l'ingénieur (Lille)

AUTEUR

  • Yengo, Loïc
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre