Titre original :

Approche neuronale profonde pour la reconnaissance conjointe audio-vidéo de violences dans un environnement ferroviaire embarqué

Titre traduit :

Deep learning approach for audio-video recognition of violences in an on-board rail environment

Mots-clés en français :
  • Sûreté ferroviaire
  • Fusion audio-vidéo

  • Reconnaissance de l'activité humaine (informatique)
  • Vidéosurveillance
  • Traitement du signal -- Techniques numériques
  • Violence dans les transports publics
  • Sécurité ferroviaire
  • Apprentissage profond
  • Réseaux neuronaux (informatique)
Mots-clés en anglais :
  • Audio-Visual fusion
  • Audio processing
  • Video processing

  • Langue : Français
  • Discipline : Micro-nanosystèmes et capteurs
  • Identifiant : 2023ULILN023
  • Type de thèse : Doctorat
  • Date de soutenance : 25/09/2023

Résumé en langue originale

Faisant face à l'augmentation du nombre de coups et blessures volontaires recensés dans les rames ferroviaires depuis plusieurs années, la SNCF installe des systèmes de vidéosurveillance à l'intérieur de ces rames. Malheureusement, ces systèmes de vidéosurveillances font face à plusieurs difficultés : toutes les images ne sont pas transmises au sol pour être supervisées, les vidéos sont soumises à des limites (hors-champ, occultation, reflet, flou, etc.), et enfin la quantité croissante de flux vidéo devient complexe à superviser efficacement par des opérateurs. Cette thèse s'inscrit dans la problématique de reconnaissance automatique d'activités humaines et aborde spécifiquement le problème de la reconnaissance de situations violentes dans un environnement ferroviaire embarqué. L'objectif est d'ajouter le traitement du signal audio à celui de la vidéo afin de bénéficier des complémentarités et/ou cohérences de ces deux perceptions. Pour cela, ces travaux ont consisté à étudier le traitement conjoint de signaux audio et vidéo par des architectures neuronales profondes. Les architectures mises en place s'appuient sur des extracteurs de caractéristiques proposés dans la communauté tel que I3D pour le signal vidéo et OpenL3 pour le signal audio. La structure temporelle des caractéristiques extraites de chaque signal est ensuite modélisée à l'aide de couches récurrentes (LSTM). Enfin, la reconnaissance de violence est obtenue en combinant la sortie des LSTM à différents niveaux (moyens, haut et décisionnel) et avec différentes fonctions (concaténation, mécanisme à porte et attention). Pour mettre en œuvre ces architectures, un jeu de données a été enregistré à bord d'une rame ferroviaire en dynamique. Ce jeu de données est composé de scénarios d'agressions joués par des comédiens professionnels dans de multiples contextes (densités de figurants, lieux et positions dans la rame...). L'annotation de ce jeu de données a été produite en dissociant complètement les modes audio et vidéo, car la perception des violences peut varier d'un signal à un autre. Enfin, des évaluations de ces modèles audio et/ou vidéo de reconnaissance de violences sont présentées en fonction des différentes architectures neuronales proposées. Nous avons également analysé les performances de reconnaissances en fonction de différents degrés de violence, de la durée de perception, différents degrés d'occultation, en fonction de la distance aux capteurs.

Résumé traduit

In recent years, the SNCF has installed video surveillance systems on trains in response to the increasing number of violences on trains. Unfortunately, these video surveillance systems face several difficulties: not all the images are transmitted to the ground for monitoring, the videos are subject to limitations (out-of-screen, occlusion, reflections, blurring, etc.), and finally the increasing quantity of video streams becomes complex to be monitord efficiently by the operators. This thesis is part of the problem of automatic recognition of human activities and specifically addresses the problem of recognition of violent situations in an onboard railway environment. The objective is to add audio signal processing to video signal processing in order to benefit from the complementarities and/or coherences of these two perceptions. To this end, these works consisted in studying the joint processing of audio and video signals by deep neural architectures. The architectures implemented are based on feature extractors proposed in the community such as I3D for the video signal and OpenL3 for the audio signal. The temporal structure of the features extracted from each signal is then modeled using recurrent layers (LSTM). Finally, violence recognition is achieved by combining the output of LSTMs at different levels (medium, high and decisional) and with different strategies (concatenation, gated mechanism and attention). In order to implement these architectures, a dataset has been recorded on board a train in dynamic. This dataset consists of violence scenarios played by professional actors in different contexts (people density, locations and positions in the train...). The annotation of this dataset was done by completely dissociating the audio and video modes, since the perception of violence can vary from one signal to another. Finally, we present the evaluation of these audio and/or video models of violence recognition according to the different neural architectures proposed. We have also analyzed the recognition performances as a function of different degrees of violence, of the duration of perception, of different degrees of occlusion and as a function of the distance to the sensors.

  • Directeur(s) de thèse : Boukour, Fouzia
  • Président de jury : Brémond, François
  • Membre(s) de jury : Sodoyer, David - Ambellouis, Sébastien - Nicodeme, Claire - Afanou, Sitou
  • Rapporteur(s) : Achard, Catherine - Lézoray, Olivier
  • Laboratoire : Laboratoire Électronique Ondes et Signaux pour les Transports (LEOST)
  • École doctorale : École doctorale Sciences de l’ingénierie et des systèmes (Lille)

AUTEUR

  • Marteau, Tony
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre