Pépite | Mary-Morstan : un framework modulaire et multiobjectif pour la configuration automatique d’algorithmes de machine learning

Imprimer Version XML Ajouter à mon panier

Titre original :

Mary-Morstan : a multi-objective modular framework to automatically configure machine learning algorithms

Titre traduit :

Mary-Morstan : un framework modulaire et multiobjectif pour la configuration automatique d’algorithmes de machine learning

Mots-clés en français :

Compromis exploration-exploitation

Apprentissage automatique
Algorithmes évolutionnaires
Classification automatique

Mots-clés en anglais :

Machine learning
Automation
Evolutionary algorithms

Informations générales

Langue : Anglais
Discipline : Informatique et applications
Identifiant : 2022ULILB004
Type de thèse : Doctorat
Date de soutenance : 06/04/2022

Résumé en langue originale

L'utilisation grandissante de solutions d'apprentissage automatique (recommandation de films, reconnaissance du texte, détection de la fraude et ainsi de suite) crée une demande pour avoir des outils plus efficaces. En effet, construire un modèle d'apprentissage automatique est une tâche laborieuse. Le praticien doit formater les données, construire les attributs, sélectionner l'algorithme d'apprentissage automatique adéquat, et régler ses hyperparamètres. Historiquement ces étapes sont manuelles, mais des outils récents appelés AutoML, Automatic Machine Learning, ont vu le jour et proposent de réaliser ces tâches automatiquement. Ainsi, l'AutoML facilite la recherche des modèles et octroie un gain de temps aux experts, et permet également aux non-experts de construire un modèle sans avoir à comprendre les mécanismes sous-jacents. Dans ces travaux, nous analysons les méthodes d'optimisations les plus connues et utilisées par les outils d'AutoML. Lors de notre analyse, nous avons remarqué que parmi ces diverses méthodes, les algorithmes évolutionnaires semblent prometteurs dans la recherche des modèles. Notamment, ils facilitent la configuration de la phase de compromis d’exploration versus exploitation, sont intrinsèquement capables de manipuler toute sorte de candidats (taille fixe ou variable), peuvent aborder plusieurs objectifs et, sont facilement parallélisables. Cependant, ces algorithmes évolutionnaires restent très peu étudiés dans les AutoMLs, en particulier quand cela concerne le choix des composants tels que les mutations ou les algorithmes. Dans ces travaux, nous définissons un framework d'AutoML modulable avec de nouveaux composants. L'objectif est d'étudier l'impact de ces derniers quand ils sont utilisés pour résoudre des problèmes de classification. Par la suite, cela nous a menés au développement d'une méthode qui accélère l'ensemble du processus d'optimisation basé sur les algorithmes évolutionnaires devant traiter d'importants volumes de données. Pour finir, nous proposons une solution qui résout automatiquement le problème de classification des séries temporelles qui, d'après nos connaissances, n'a jamais été étudié auparavant.

Résumé traduit

The growing usage of machine learning solutions (movie recommendation, speech recognition, fraud detection and so on) pushes the demand for having more efficient tools to build them. Indeed, building a machine learning model is a tedious task. The practitioner requires to preprocess the data, builds the features, selects the machine learning algorithms and tunes its hyper-parameters. Historically, these steps are handmade, but more recent tools called AutoML for Automatic Machine Learning have blossomed and, propose to perform these tasks automatically. Thus, AutoML eases the research of models and permits a gain of time for the experts but, also aims to help the non-experts to build a model without having to understand all the underlying mechanisms. In this work, we analyze the best known optimization methods used by the AutoML tools, and notice that among these methods, the evolutionary algorithms are very promising when it comes to improve the research of models. Indeed, the evolutionary algorithms ease the tuning of the exploration versus exploitation trade-offs, are inherently capable of handling any sort of candidates (fix and variable sizes), can tackle multiple objectives and can be easily parallelized. However, they have been barely studied on the AutoMLs, especially when it concerns the choice of the components such as the mutations or the algorithms. In this work, we first define a modular AutoML and a range of new components designed to study their impacts when used to automatically solve the classification problems. Then, we come up with a method to accelerate all the optimization processes based on evolutionary algorithms for large datasets. Finally, we propose a solution to automatically tackle the time series classification problems which, to the best of our knowledge, have never been studied before.

Informations sur les contributeurs

Directeur(s) de thèse : Jourdan, Laetitia - Kessaci, Marie-Eléonore
Président de jury : Chainais, Pierre
Membre(s) de jury : Nicol, Olivier - Fadili, Jalal - Lindauer, Marius
Rapporteur(s) : Forestier, Germain - Keedwell, Edward
Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
École doctorale : Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)

AUTEUR

Parmentier, Laurent

Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.

Accès libre

Accéder au document