Titre original :

Unsupervised STDP-based Feature Learning for Video Analysis with Spiking Neural Networks

Titre traduit :

Apprentissage non supervisé basé sur le STDP pour l’analyse vidéo avec des réseaux neuronaux impulsionnels

Mots-clés en français :
  • Réseaux de neurones à impulsions
  • Stdp
  • Analyse vidéo
  • Convolutions spatio-Temporelles
  • Réseau de neurones convolutif à impulsions
  • Règle de plasticité en fonction du temps d’occurrence des impulsions

  • Reconnaissance de l'activité humaine (informatique)
  • Apprentissage non supervisé (intelligence artificielle)
  • Vision par ordinateur
  • Algorithmes bio-inspirés (intelligence artificielle)
Mots-clés en anglais :
  • Spiking neural network
  • Stdp
  • Video analysis
  • Spatio-Temporal convolutions

  • Langue : Anglais
  • Discipline : Informatique et applications
  • Identifiant : 2024ULILB002
  • Type de thèse : Doctorat
  • Date de soutenance : 06/02/2024

Résumé en langue originale

La reconnaissance des actions humaines (HAR) est une tâche importante en analyse vidéo, en raison de ses applications dans de nombreux domaines. Les réseaux neuronaux convolutionnels profonds constituent actuellement l'état de l'art en matière d'HAR, mais leur coût de calcul élevé limite leur utilisation sur les appareils à faible consommation. En outre, ils reposent essentiellement sur l'apprentissage supervisé, qui nécessite de grandes quantités de données étiquetées. Les réseaux neuronaux à impulsions (SNN) sont des modèles qui traitent les informations sous forme d'impulsions à faible énergie, au lieu de valeurs numériques. Ces derniers peuvent surmonter les limitations des réseaux neuronaux analogiques (RNA) tels que le problème de l'efficacité énergétique, lorsqu'ils sont mis en œuvre sur du matériel neuromorphique. Toutefois, les méthodes d'apprentissage supervisé des SNN, telles que la conversion ANN-SNN et la rétropropagation à impulsions, ont leurs propres limites, notamment la nécessité d'une grande quantité de données étiquetées pour l'apprentissage. D'autre part, les SNN peuvent tirer parti de règles d'apprentissage non supervisées, telles que la règle de plasticité fonction du temps d'occurrence des impulsions (STDP), ce qui réduit leur dépendance aux données étiquetées. Malgré ces avantages, les SNN non supervisés doivent encore relever des défis pour atteindre les niveaux de performance des ANN sur des données complexes. Ainsi, comprendre comment un SNN basé sur la STDP peut apprendre efficacement les caractéristiques spatio-temporelles devient crucial pour l'amélioration de leur performance. Cette thèse couvre les connaissances en vision par ordinateur et en modélisation du mouvement, ainsi que les sujets relatifs aux SNN.Dans cette thèse, notre objectif principal est d'apprendre des caractéristiques spatio-temporelles avec des SNN de manière non supervisée via STDP à des fins d'analyse vidéo. Nous étudions les moyens de combler l'écart de performance entre les SNN et les ANN lors du traitement des données spatio-temporelles. Par conséquent, la première contribution de cette thèse est d'étudier les capacités d'extraction de caractéristiques d'un réseau neuronal convolutif à impulsions (CSNN) basé sur la STDP avec différentes représentations statiques du mouvement. Les méthodes de modélisation du mouvement sont introduites, catégorisées en représentations basées sur les trames ou basées sur les séquences, et traitées à l'aide d'un CSNN 2D. On obtient ainsi un référentiel clair de la capacité de ces modèles à extraire des caractéristiques spatio-temporelles à partir de différents types de représentations du mouvement. Notre deuxième contribution est de présenter le premier modèle CSNN 3D basé sur la STDP qui peut extraire des caractéristiques spatio-temporelles naturellement à partir de vidéos, sans nécessiter d'étapes supplémentaires de modélisation du mouvement. Ce modèle est plus performant que les CSNN 2D pour l'analyse vidéo, en particulier pour les vidéos plus longues. Ensuite, dans notre troisième contribution, nous explorons la possibilité de réduire le nombre de paramètres de ces réseaux en proposant des convolutions spatiales et temporelles séparées (S3TC). Cela permet de réduire le nombre de paramètres entraînables de ces réseaux, mais aussi de réduire potentiellement la complexité pour leur mise en œuvre sur du matériel neuromorphique. Les S3TC sont plus performants que les CSNN 3D et produisent une activité plus élevée à la sortie, ce qui réduit le problème de disparition des impulsions. Notre quatrième contribution présente des CSNN à deux flux basés sur la STDP. Les méthodes à deux flux sont efficaces pour l'extraction de caractéristiques spatio-temporelles, avec des performances de pointe sur les tâches HAR dans le domaine traditionnel. Par conséquent, nous utilisons des flux spatiaux et temporels à impulsions basés sur des CSNN pour obtenir des caractéristiques spatio-temporelles.

Résumé traduit

A substantial amount of visual data is publicly released on a daily basis, with a significant portion of this data comprising videos. This has rendered video analysis an important endeavor in the computer vision field. Among the various video analysis tasks, Human Action Recognition (HAR) holds significant importance due to its applications across numerous domains, such as surveillance, human-machine interaction, autonomous vehicles, healthcare, security, and military sectors. Deep Convolutional Neural Networks currently stand as the state-of-the-art for HAR, but their high computational costs limit usage on energy-constrained devices. They also rely generally on supervised learning, which necessitates vast amounts of labeled data for training. Spiking neural networks (SNNs) are models that process the information in the form of low-energy spikes, instead of regular values. These third generation neural network can overcome the bottlenecks of traditional Analog Neural Networks (ANNs), when implemented on neuromorphic hardware, such as the widespread energy efficiency problem. However, supervised SNN training methods, like ANN-to-SNN conversion and spiking backpropagation, have their own limitations, such as the requirement of a large amount of labeled data for training. On the other hand, SNNs can leverage unsupervised learning rules, such as the Spike Timing-Dependent Plasticity rule (STDP), reducing their dependency on labeled data. Despite these advantages, unsupervised SNNs still face challenges in reaching the performance levels of ANNs on complex data. Thus, understanding how an STDP-based SNN can efficiently learn spatio-temporal features becomes crucial in the pursuit of enhancing their performance for human action recognition tasks. This thesis covers knowledge in computer vision and motion modeling, as well as SNN topics.In this thesis, our main objective is to learn spatio-temporal features and perform video analysis with SNNs in an unsupervised manner using the STDP learning rule. We investigate ways to close the performance gap between SNNs and their non-spiking counterparts when processing spatio-temporal data. Therefore, the first contribution in this thesis is to study the feature learning capabilities of an STDP-based Convolutional Spiking Neural Network (CSNN) with different static representations of motion. Motion modeling methods are introduced, categorized into frame-based and shot-based representations, and processed using a 2D CSNN. This produces a clear baseline of the capability of these models to extract spatio-temporal features from different types of motion representations. Our second contribution is to present the first STDP-based 3D CSNN model that can extract spatio-temporal features naturally from videos, without requiring extra motion modeling steps. This model outperforms 2D CSNNs for video analysis, especially with longer videos. Then, in our third contribution, we explore the possibility of reducing the number of parameters of these networks by proposing spiking separated spatial and temporal convolutions (S3TCs). This not only reduces the computational cost of these networks even further, but also potentially reduces the hardware complexity for implementing these networks on neuromorphic hardware. S3TCs outperform 3D CSNNs, and produce a higher spiking activity at the output, which potentially reduces the severity of the spike vanishing problem. Our fourth contribution introduces spiking STDP-based two-stream CSNNs. Two-stream methods are effective spatio-temporal feature extraction methods, with state-of-the-art performance on HAR tasks in the non-spiking domain. Therefore, we use spiking spatial and temporal streams based on CSNNs to obtain spatio-temporal features. This produces an assessment of the capability of these unsupervised STDP-based models to extract effective spatio-temporal features in the spiking domain.

  • Directeur(s) de thèse : Bilasco, Ioan Marius
  • Président de jury : Grisoni, Laurent
  • Membre(s) de jury : Tirilly, Pierre - Kijak, Ewa
  • Rapporteur(s) : Martinet, Jean - Girau, Bernard
  • Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
  • École doctorale : École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)

AUTEUR

  • El Assal, Mireille
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre