Algorithmes distribués d'extraction de connaissances
- Données -- Partitionnement
- Classification non supervisée
- Règles d'association (traitement des données)
- Exploration de données -- Thèses et écrits académiques
- Traitement réparti
- Heuristique
- Grilles informatiques
- Langue : Français
- Discipline : Informatique
- Identifiant : 2006LIL10070
- Type de thèse : Doctorat
- Date de soutenance : 01/01/2006
Résumé en langue originale
Afin d'exploiter au mieux les ressources de traitement disponibles de type grille de calcul, pour la résolution de problèmes de data mining, il apparaît nécessaire de concevoir de nouveaux algorithmes spécialement adaptés à ce type d'architecture, et prenant en compte les spécifités d'exécution distribuée. Le projet DisDaMin (Distributed Data Mining) développé dans cette thèse, vise à proposer des solutions pour certains problèmes de data mining, tels que le problème de génération de règles d'association ou le problème de clustering (classification non supervisée). Pour le problème spécifique de génération de règles d'association, nous suggérons l'utilisation d'un partitionnement « intelligent » des données. Ce partitionnement intelligent peut être obtenu par clustering. Nous présentons donc un nouvel algorithme de clustering, appelé Clustering Distribué Progressif, qui exécute un clustering de manière progressive distribuée et efficace respectant les contraintes d'exécution sur grille de calculs. Les clusters de données issus de ce clustering sont par la suite utilisés pour des tâches de data mining. En particulier, les clusters sont utilisés, dans le travail présenté, pour aider à la résolution du problème de génération de règles d'association, afin d'en réduire la complexité de traitement. Nous introduisons un algorithme distribué pour le problème des règles d'association, appelée DICCoop (DIC Coopératif) et basé en partie sur l'utilisation du partitionnement « intelligent ». Chacun des algorithmes présentés est suivi d'un résumé des expérimentations qui ont permis de les valider comme heuristiques de data mining. Enfin, une synthèse des concepts distribués exploités dans les deux méthodes présentées conclut la présentation.
- Directeur(s) de thèse : Toursel, Bernard
AUTEUR
- Fiolet, Valérie