Titre original :

Algorithmes distribués d'extraction de connaissances

Mots-clés en français :
  • Données -- Partitionnement
  • Classification non supervisée
  • Règles d'association (traitement des données)
  • Exploration de données -- Thèses et écrits académiques
  • Traitement réparti
  • Heuristique
  • Grilles informatiques

  • Langue : Français
  • Discipline : Informatique
  • Identifiant : 2006LIL10070
  • Type de thèse : Doctorat
  • Date de soutenance : 01/01/2006

Résumé en langue originale

Afin d'exploiter au mieux les ressources de traitement disponibles de type grille de calcul, pour la résolution de problèmes de data mining, il apparaît nécessaire de concevoir de nouveaux algorithmes spécialement adaptés à ce type d'architecture, et prenant en compte les spécifités d'exécution distribuée. Le projet DisDaMin (Distributed Data Mining) développé dans cette thèse, vise à proposer des solutions pour certains problèmes de data mining, tels que le problème de génération de règles d'association ou le problème de clustering (classification non supervisée). Pour le problème spécifique de génération de règles d'association, nous suggérons l'utilisation d'un partitionnement « intelligent » des données. Ce partitionnement intelligent peut être obtenu par clustering. Nous présentons donc un nouvel algorithme de clustering, appelé Clustering Distribué Progressif, qui exécute un clustering de manière progressive distribuée et efficace respectant les contraintes d'exécution sur grille de calculs. Les clusters de données issus de ce clustering sont par la suite utilisés pour des tâches de data mining. En particulier, les clusters sont utilisés, dans le travail présenté, pour aider à la résolution du problème de génération de règles d'association, afin d'en réduire la complexité de traitement. Nous introduisons un algorithme distribué pour le problème des règles d'association, appelée DICCoop (DIC Coopératif) et basé en partie sur l'utilisation du partitionnement « intelligent ». Chacun des algorithmes présentés est suivi d'un résumé des expérimentations qui ont permis de les valider comme heuristiques de data mining. Enfin, une synthèse des concepts distribués exploités dans les deux méthodes présentées conclut la présentation.

  • Directeur(s) de thèse : Toursel, Bernard

AUTEUR

  • Fiolet, Valérie
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre