Pépite | Sélection et extraction d'attributs pour les problèmes de classification

Imprimer Version XML Ajouter à mon panier

Titre original :

Sélection et extraction d'attributs pour les problèmes de classification

Titre traduit :

Feature selection and extraction for classification problems

Mots-clés en français :

Vecteurs caractéristiques
Extraction d'attributs
Analyse de tendance
Diagnostic industriel
Réduction de la dimension

Classification automatique
Analyse des données
Perception des visages
Reconnaissance des formes (informatique)

Informations générales

Langue : Français
Discipline : Automatique, Génie Informatique, Traitement du signal et Images
Identifiant : 2013LIL10042
Type de thèse : Doctorat
Date de soutenance : 01/07/2013

Résumé en langue originale

Les progrès scientifiques réalisés ces dernières années ont produit des bases de données de plus en plus grandes et complexes. Ceci amène certains classificateurs à générer des règles de classification basées sur des attributs non pertinents, et dégrader ainsi la qualité de classification et la capacité de généralisation. Dans ce contexte, nous proposons une nouvelle méthode pour l’extraction d’attributs afin d’améliorer la qualité de la classification. Notre méthode consiste à effectuer une classification non supervisée des attributs afin de retrouver les groupements d’attributs similaires. Une nouvelle mesure de similarité à base d’analyse de tendance est alors conçue afin de retrouver les attributs similaires dans leur comportement. En effet, notre méthode cherche à réduire l’information redondante tout en identifiant les tendances similaires dans les vecteurs attributs tout au long de la base de données. Suite à la formation des clusters, une transformation linéaire sera appliquée sur les attributs dans chaque groupement pour obtenir un représentant unique. Afin de retrouver un centre optimal, nous proposons de maximiser l’Information Mutuelle (IM) comme mesure de dépendance entre les groupements d’attributs et leur centre recherché. Des expériences réalisées sur des bases de données réelles et artificielles montrent que notre méthode atteint de bonnes performances de classification en comparaison avec d’autres méthodes d’extraction d’attributs. Notre méthode a été également appliquée sur le diagnostic industriel d’un procédé chimique complexe Tennessee Eastman Process (TEP).

Résumé traduit

Scientific advances in recent years have produced databases increasingly large and complex. This brings some classifiers to generate classification rules based on irrelevant features, and thus degrade the quality of classification and generalization ability. In this context, we propose a new method for extracting features to improve the quality of classification. Our method performs a clustering of features to find groups of similar features. A new similarity measure based on trend analysis is then designed to find similarity between features in their behavior. Indeed, our method aims to reduce redundant information while identifying similar trends in features vectors throughout the database. Following the construction of clusters, a linear transformation is applied on each group to obtain a single representative. To find an optimal center, we propose to maximize the Mutual Information (IM) as a measure of dependency between groups of features and the desired center. Experiments on real and synthetic data show that our method achieved good classification performance in comparison with other methods of extracting features. Our method has also been applied to the industrial diagnosis of a complex chemical process Tennessee Eastman Process (TEP).

Informations sur les contributeurs

Directeur(s) de thèse : Maouche, Salah - Ksouri-Lahmari, Moufida
Laboratoire : Laboratoire d'automatique, génie informatique et signal (LAGIS)
École doctorale : École doctorale Sciences pour l'ingénieur (Lille)

AUTEUR

El Ferchichi, Sabra

Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.

Accès libre

Accéder au document