Titre original :

Contribution à la classification par modèles de mélange et classification simultanée d’échantillons d’origines multiples

Titre traduit :

Contribution to Model-Based Clustering and Simultaneous Clustering of Samples Arising from Multiple Origins

Mots-clés en français :
  • Classification non-supervisée
  • Mélanges gaussiens

  • Classification automatique (statistique)
  • Représentation parcimonieuse
  • Algorithmes EM
  • Corrélation (statistique)
  • Langue : Français, Anglais
  • Discipline : Mathématiques appliquées
  • Identifiant : 2011LIL10073
  • Type de thèse : Doctorat
  • Date de soutenance : 17/06/2011

Résumé en langue originale

Dans la première partie de cette thèse nous passons en revue la classification par modèle de mélange. En particulier nous décrivons une famille de mélanges gaussiens d’un usage courant, dont la parcimonie porte sur des paramètres d’interprétation géométrique. Comme ces modèles possèdent des inconvénients majeurs, nous leur opposons une nouvelle famille de mélanges dont la parcimonie porte sur des paramètres statistiques. Ces nouveaux modèles possèdent de nombreuses propriétés de stabilité qui les rendent mathématiquement cohérents et facilitent leur interprétation. Dans la seconde partie de ce travail nous présentons une méthode nouvelle dite de classification simultanée. Nous montrons que la classification d'un échantillon revient très souvent au partitionnement de plusieurs échantillons ; puis nous proposons d'établir un lien entre la population d'origine des différents échantillons. Ce lien, dont la nature varie selon le contexte, a toujours pour vocation de formaliser de façon réaliste une information commune aux données à classifier.Lorsque les échantillons sont décrits par des variables de même signification et que l'on cherche le même nombre de groupes dans chacun d'eux, nous établissons un lien stochastique entre populations conditionnelles. Lorsque les variables sont différentes mais sémantiquement proches d'un échantillon à l'autre, il se peut que leur pouvoir discriminant soit similaire et que l'imbrication des données conditionnelles soit comparable. Nous envisageons des mélanges spécifiques à ce contexte, liés par un chevauchement homogène de leurs composantes.

Résumé traduit

In the first part of this work we review the mixture model-based clustering method. In particular we describe a family of common Gaussian mixtures the parsimony of which is about geometrical parameters. As these models suffer from major drawbacks, we display new Gaussian mixtures the parsimony of which focuses on statistical parameters. These new models own many stability properties that make them mathematically consistent and facilitate their interpretation. In the second part of this work we display the so-called simultaneous clustering method. We highlight that the classification of a single sample can often be seen as a multiple sample clustering problem; then we propose to establish a link between the original population of the diverse samples. This link varies depending on the context but it always tries to formalize in a realistic way some common information of the samples to classify. When samples are described by variables with identical meaning and when the same number of groups is researched within each of them, we establish a stochastic link between the conditional populations. When the variables are different but semantically close through the diverse samples nevertheless their discriminant power may be similar and the nesting of the conditional data can be comparable. We consider specific mixtures dedicated to this context: the link between the populations consists in an homogeneous overlap of the components.

  • Directeur(s) de thèse : Biernacki, Christophe
  • École doctorale : École doctorale Sciences pour l'ingénieur (Lille)

AUTEUR

  • Lourme, Alexandre
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre