Avancées en vision neuromorphique : représentation événementielle, réseaux de neurones impulsionnels supervisés et pré-entraînement auto-supervisé
Advancements in neuromorphic vision : event representation, supervised spiking neural networks, and self-supervised pretraining
- Caméra Événementielle
- Réseau de Neurones Impulsionnels
- Calcul Neuromorphique
- Vision par ordinateur
- Réseaux neuronaux (informatique)
- Apprentissage profond
- Reconnaissance automatique des émotions
- Apprentissage non supervisé (intelligence artificielle)
- Algorithmes bio-inspirés (intelligence artificielle)
- Artificial Intelligence
- Computer Vision
- Event Camera
- Spiking Neural Network
- Neuromorphic Computing
- Langue : Français
- Discipline : Informatique et applications
- Identifiant : 2023ULILB035
- Type de thèse : Doctorat
- Date de soutenance : 05/12/2023
Résumé en langue originale
Avec l'avènement de l'apprentissage profond, les réseaux de neurones artificiels (ANNs) sont devenus l'approche prédominante pour résoudre les tâches de vision par ordinateur, atteignant des performances remarquables lorsqu'ils sont correctement entraînés. Cependant, au fil du temps, les ANNs ont gagné en complexité et en taille, exigeant de plus en plus de ressources informatiques et entraînant une consommation d'énergie significative.Pour résoudre le problème de la consommation d'énergie, des technologies neuromorphiques telles que les réseaux de neurones impulsionnels (SNNs) et les caméras événementielles ont émergé comme des solutions prometteuses. Les SNNs sont des réseaux de neurones inspirés de la biologie qui traitent l'information sous forme d'impulsions binaires asynchrones. Les caméras événementielles sont des capteurs visuels économes en énergie composés de pixels indépendants réagissant de manière asynchrone aux changements de luminosité, produisant une sortie binaire et asynchrone appelée "événements". Malgré leurs avantages, notamment en termes d'efficacité énergétique, ces approches neuromorphiques restent moins développées que les solutions de vision conventionnelles comprenant des images et des ANNs.La principale motivation de cette thèse est d'approfondir notre compréhension de ces technologies neuromorphiques. Pour ce faire, nous explorons d'abord de nouveaux problèmes de vision en utilisant ces technologies, puis nous utilisons ces nouvelles tâches comme contextes expérimentaux pour analyser les aspects fondamentaux de la vision neuromorphique. Dans nos contributions, nous explorons trois principales orientations de recherche.Tout d'abord, nous développons une nouvelle technique de représentation d'événements en images événementielles, en mettant l'accent sur l'intégration efficace de l'information temporelle. Nos expériences démontrent les avantages compétitifs de notre nouvelle approche, tant en termes de performances que de robustesse face aux corruptions des caméras événementielles.Deuxièmement, nous examinons l'utilisation de SNNs profonds supervisés pour des solutions de vision artificielle économes en énergie. Nous abordons de nouveaux défis de vision par ordinateur pour les SNNs, notamment la localisation d'objet (à partir d'images ou d'événements) et la reconnaissance d'expressions faciales (FER) basée sur les événements. De plus, nous exploitons la conception de SNNs profonds pour des tâches de vision par ordinateur afin d'analyser l'impact de plusieurs aspects fondamentaux des SNNs sur leurs performances. Cela inclut une étude sur les codages neuronaux pour convertir les images en trains d'impulsions, la robustesse des SNNs face aux corruptions des capteurs, l'influence de la latence temporelle, les avantages de l'augmentation de données pour l'entraînement des SNNs, et l'efficacité énergétique des SNNs par rapport à des ANNs de même complexité. Nos études fournissent des informations cruciales, révélant les comportements spécifiques des SNNs lorsqu'ils sont entraînés de manière supervisée, par rapport à d'autres règles d'apprentissage traditionnelles pour les neurones impulsionnels.Enfin, nous posons les bases d'une nouvelle approche visant à réduire le besoin de données événementielles annotées utilisées pour former des réseaux de neurones (ANN ou SNN). Nous concevons une méthode simple mais très efficace d'apprentissage de représentations auto-supervisé (SSRL) pour pré-entraîner un encodeur convolutif sans supervision. Comme cette méthode est nouvelle, nous définissons des protocoles d'évaluation standardisés pour comparer les performances de notre approche de SSRL événementiel avec les futurs travaux de recherche. À travers nos études expérimentales, nous démontrons l'impact significatif du SSRL événementiel pour réduire la nécessité de données annotées et analysons les distinctions entre différents types de réseaux de neurones dans l'extraction de caractéristiques non supervisées.
Résumé traduit
With the emergence of deep learning, Artificial Neural Networks (ANNs) have become the predominant approach for solving computer vision tasks, achieving remarkable performance when properly trained. However, over time, ANNs have grown in complexity and size, demanding increasingly more computational resources and resulting in significant energy consumption.To address this energy consumption issue, neuromorphic technologies inspired by the biological brain, particularly Spiking Neural Networks (SNNs) and event cameras, have emerged as promising solutions. SNNs, on one hand, are neural networks inspired by biology that efficiently process information as asynchronous sequences of binary spikes. Event cameras, on the other hand, are energy-efficient visual sensors comprising independent pixels that react asynchronously to changes in brightness, producing a sparse, asynchronous, and binary output known as "events." Due to their numerous advantages, notably in terms of energy efficiency, these neuromorphic approaches have attracted considerable attention in recent years. However, despite their increasing adoption for addressing computer vision challenges, this emerging field of "neuromorphic vision" still lags behind more conventional vision solutions such as images and ANNs.The primary motivation of this thesis is to advance our understanding of these neuromorphic technologies. To do so, we first explore new vision problems using these technologies and subsequently utilize these novel tasks as experimental contexts to analyze fundamental aspects of neuromorphic vision. In our research contributions, we investigate three key research directions.First, we develop a novel technique for representing events in event frames, with a focus on the efficient integration of temporal information. Our experiments demonstrate the competitive advantages of our new approach, both in terms of performance and robustness against event camera corruptions.Secondly, we delve into the use of deep SNNs trained in a supervised manner for energy-efficient computer vision solutions. We address new computer vision challenges for SNNs, including single object localization (using frames or events) and event-based Facial Expression Recognition (FER). Additionally, we leverage the effective design of deep SNNs for complex computer vision tasks to analyze the impact of several fundamental design aspects of supervised SNNs on their performance. This includes an investigation into neural coding schemes for converting images into spike trains, the robustness of SNNs against sensor corruptions, the influence of temporal latency, the benefits of event-based data augmentation for SNN training, and the energy efficiency of the designed SNNs compared to ANNs with similar architecture. Our studies yield critical insights, revealing specific behaviors of SNNs when trained in a supervised manner, compared to other traditional learning rules for spiking neurons.Finally, we establish the groundwork for a novel framework aimed at reducing the need for annotated event-based data used to train neural networks (ANNs or SNNs). We design a straightforward yet highly effective method for Self-Supervised Representation Learning (SSRL) to pretrain a convolutional encoder without supervision. As this method represents a novelty, we define standardized evaluation protocols to benchmark the performance of our event-based SSRL approach in comparison to future research works. Through our experimental investigations, we demonstrate the substantial impact of event-based SSRL in reducing the requirement for labeled data and analyze the distinctions between various types of neural networks in extracting unsupervised features.
- Directeur(s) de thèse : Djeraba, Chaabane
- Président de jury : Dhaenens, Clarisse
- Membre(s) de jury : Mennesson, José - Masquelier, Timothée
- Rapporteur(s) : Martinet, Jean - Perrinet, Laurent
- Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
- École doctorale : École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
AUTEUR
- Barchid, Sami