Parallel hyperparameter optimization of spiking neural networks
Optimisation parallèle des hyperparamètres des réseaux impulsionnels
- Optimisation
- Calcul neuromorphique
- Calcul parallèle
- Hyperparamètre
- AutoML
- Hpo
- Réseaux de neurones à impulsions
- Réseaux neuronaux (informatique)
- Optimisation globale
- Parallélisme (informatique)
- Hyperparamètres
- Apprentissage automatique
- Optimization
- Neuromorphic computing
- Parallel computing
- Hyperparameter
- AutoML
- Hpo
- Langue : Anglais
- Discipline : Informatique et applications
- Identifiant : 2025ULILB004
- Type de thèse : Doctorat
- Date de soutenance : 21/01/2025
Résumé en langue originale
Les Réseaux de Neurones Artificiels (RNAs) sont des modèles prédictifs permettant de résoudre certaines tâches complexes par un apprentissage automatique. Depuis ces trois dernières décennies, les RNAs ont connu de nombreuses avancées majeures. Notamment avec les réseaux de convolution ou les mécanismes d'attention. Ces avancées ont permis le développement de la reconnaissance d'images, des modèles de langage géants ou de la conversion texte-image.En 1943, les travaux de McCulloch et Pitt sur le neurone formel faciliteront la naissance des premiers RNAs appelés perceptrons, et décrits pour la première fois par Rosenblatt en 1958. L'apprentissage machine a par la suite connu des périodes de désintérêt dues à des freins, théoriques comme la NP-complétude des problèmes abordés, technologiques comme la limitation de la puissance de calcul, ou encore budgétaires. Depuis les années 1990 et aidé par la démocratisation des processeurs graphiques (GPUs), nous observons un regain d'intérêt exponentiel pour les RNAs menant au printemps de l'intelligence artificielle dans les années 2010, et depuis 2020 au boom des modèles générationnels. Cependant, de nouvelles barrières pourraient freiner l'intérêt pour ces modèles.Le premier frein est la fin de la loi de Moore due aux limites physiques atteintes par les transistors. Le second frein est la consommation énergétique. En effet, tandis que la recherche s'est longtemps concentrée en grande partie sur les performances prédictives des RNAs, d'autres aspects ont été relégués au second plan. C'est le cas de l'efficacité énergétique, mais également de la robustesse, de la sécurité, de l'interprétabilité, de la transparence, etc.C'est pourquoi il faut aller au-delà des architectures de von Neumann qui, à cause de la séparation des unités de calcul et de mémoire, ralentissent le débit des calculs. Ainsi, l'approche neuromorphique est un candidat de rupture sérieux afin de réduire l'empreinte énergétique de l'apprentissage machine. En effet, ce mode de calcul repose sur les Réseaux de Neurones à Impulsions (RNIs), plus fidèles au cerveau biologique. En effet, le cerveau humain consomme uniquement 20 watts pour effectuer simultanément de nombreuses tâches cognitives complexes.Aujourd'hui, les RNIs peinent à surpasser les performances des méthodes classiques. Ceux-ci étant plus récents, et donc moins étudiés, une meilleure approche de leur conception pourrait permettre d'allier performances et faible coût énergétique. C'est pourquoi la conception automatique des RNIs est étudiée dans cette thèse. L'intérêt est notamment porté sur l'Optimisation des HyperParamètres (OHP). Un HyperParamètre (HP) est un paramètre contrôlant divers aspects de l'apprentissage des RNIs, mais dont la valeur ne peut pas être déterminée par l'apprentissage.Ainsi, nous étudions l'impact de l'OHP sur les RNIs et l'impact des RNIs sur l'OHP. Le but étant d'améliorer les algorithmes utilisés et de mieux comprendre le comportement des RNIs au regard de leurs HPs.Dans la littérature, que ce soit pour les RNAs ou RNIs, l'OHP est traité de la même manière. Or, le "No Free Lunch theorem" spécifie qu'il n'existe pas d'algorithme universel significativement efficace pour tous les problèmes d'optimisation. Une conséquence de ce théorème est que, sans connaissances préalables du problème, il est impossible d'optimiser efficacement. On ne peut donc pas choisir un algorithme d'OHP avant d'avoir réellement défini le problème. Ainsi, bien que RNAs et RNIs partagent des propriétés communes, les RNIs sont connus pour leurs propriétés uniques. La littérature fait notamment état d'une extrême sensibilité des performances des RNIs par rapport à leur architecture et à leurs HPs.Par conséquent, appliquer aveuglément les mêmes méthodologies aux RNAs et RNIs pourrait nuire aux performances de l'OHP, et donc de la meilleure solution obtenue.
Résumé traduit
Artificial Neural Networks (ANNs) are a machine learning technique that has become indispensable. By learning from data, ANNs make it possible to solve certain complex cognitive tasks. Over the last three decades, ANNs have seen numerous major advances. These include convolution networks and attention mechanisms. These advances have enabled the development of image recognition, large language models, and text-to-image conversion. Undeniably, ANNs have become an invaluable tool for many applications, such as chemistry with AlphaFold, translation with DeepL, archaeology, healthcare, and recently, in February 2024, video generation with Sora.In 1943, McCulloch and Pitt's work on the formal neuron allowed Rosenblatt to give birth to the first ANNs known as perceptrons in 1958. Machine learning then went through periods of disinterest, due to theoretical obstacles such as the NP-completeness of the problems tackled, technological issues such as limited computing power, and budgetary constraints. Since the 1990s, we've seen an exponential revival of interest in ANNs thanks to the democratization of graphics processing units (GPUs). This growing interest led to the first artificial intelligence spring in the 2010s, and since 2020 to the boom of generative models. However, several new barriers could put the brakes on the interest in these models.The first is the end of Moore's Law, due to the physical limits reached by transistors. The second is energy consumption. Indeed, while research has long focused largely on the predictive performances of ANNs, other aspects have been neglected. These include energy efficiency, robustness, security, interpretability, transparency, and so on.This is why we need to go beyond von Neumann architectures, which currently slow down calculation throughput because of the separation of processing and memory units. The neuromorphic approach is a serious breakthrough candidate for reducing the energy footprint of machine learning. Indeed, this mode of calculation is based on Spiking Neural Networks (SNNs), which are closer to the biological brain. The human brain consumes only 20 watts to perform numerous complex cognitive tasks simultaneously. So, the challenge of neuromorphic computing is to considerably reduce the energy consumption of current models through biomimicry. Neuromorphic computing could also enable advances in other cross-disciplinary research fields, such as neuroscience.Today, SNNs are struggling to outperform conventional methods. As they are more recent and therefore less studied, a better approach to their design could make it possible to combine performance and low-energy cost. That is why the automatic design of SNNs is studied within this thesis, with a focus on HyperParameter Optimization (HPO). A hyperparameter is a parameter controlling various aspects of the training phase of a SNN, but whose value cannot be determined by training.Thus, we study the impact of HPO on SNNs and the impact of SNNs on HPO. The aim is to improve the HPO algorithms and to better understand the behavior of SNNs regarding their hyperparameters.In the literature, the HPO is treated in the same way, whether for ANNs or SNNs. However, the ``No Free Lunch theorem'' specifies that there is no universal algorithm that is significantly efficient for all optimization problems. A consequence of this theorem is that, without prior knowledge of the problem, it is impossible to optimize efficiently. That is, we need a clear definition of the problem before selecting an HPO algorithm. So, while ANNs and SNNs share common properties, SNNs are known for their unique behaviors. In particular, the literature shows that the performances of SNNs are highly sensitive to their architecture and hyperparameters.Consequently, blindly applying the same methodologies to both ANNs and SNNs could negatively affect the performances of the HPO algorithm, and hence the best solution obtained.
- Directeur(s) de thèse : Talbi, El-Ghazali - Boulet, Pierre
- Président de jury : Preux, Philippe
- Membre(s) de jury : Reyboz, Marina
- Rapporteur(s) : Masquelier, Timothée - Nakib, Amir
- Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille - Centre Inria de l'Université de Lille - Institut de Recherche sur les Composants logiciels et matériels pour l'Information et la Communication Avancée
- École doctorale : École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
AUTEUR
- Firmin, Thomas