Titre original :

Segmentation d'instance dans des images fisheye et détection de points clés de squelette dans des vidéos : application à la vidéoprotection à bord du futur train autonome

Titre traduit :

Instance segmentation in fisheye images and skeleton keypoints detection in videos : application to videoprotection in the future autonomous train

Mots-clés en français :
  • Détection de points-Clés
  • Images fisheye

  • Vision par ordinateur
  • Apprentissage profond
  • Traitement d'images -- Techniques numériques
  • Vidéosurveillance
  • Reconnaissance de l'activité humaine (informatique)
Mots-clés en anglais :
  • People detection
  • Keypoints detection
  • Videosurveillance
  • Machine learning
  • Image processing

  • Langue : Français
  • Discipline : Micro-nanosystèmes et capteurs
  • Identifiant : 2022ULILN024
  • Type de thèse : Doctorat
  • Date de soutenance : 22/11/2022

Résumé en langue originale

Les projets de train autonomes se multiplient à travers le monde. En france un consortium dirigé par l'IRT Railenium a pour objectif de construire un prototype de train atteignant GoA4 (Grade of Automation 4) et qui serait capable de circuler sans pilote et sans personnel humain à bord. En l'absence de personnel, les besoins de services et de sécurité des passagers doivent être pris en charge par des systèmes automatisés. De tels systèmes doivent disposer d'informations variées et détaillées, en particulier sur l'état et les actions des passagers à bords. Les algorithmes de vision par ordinateur, en particulier ceux basés sur l'apprentissage automatique par réseaux de neurones profonds, aussi appelé Deep Learning, ont récemment atteint des niveaux de performances convenables pour analyser des flux vidéos de caméras de surveillance. Plusieurs défis spécifiques au contexte des trains autonomes doivent cependant être relevés. Certaines caméras chargées de surveiller les passagers à l'intérieur du train seront de type grand angle ou Fisheye. Ces caméras produisent des images présentant des distorsions en barillet importantes, qui ne sont pas présentes dans les principales bases de données d'entraînement, et qui permettent l'apprentissage des réseaux de neurones convolutifs modernes. Une méthode a été développée pour entraîner des algorithmes de segmentation sémantique sur des images fisheye artificielles. Nous appliquons pour la première fois cette méthode à la tâche de segmentation d'instance, et nous étudions ses performances sur deux nouvelles bases annotées d'images présentant des distorsions en barillet, ainsi que l'effet de l'initialisation et de certains paramètres. De plus, les nouveaux algorithmes de suivi de pose ont atteint une certaine maturité. Cependant, ils sont généralement top-down, et ne disposent pas d'une mémoire à long terme. Nous proposons une nouvelle méthode de détection de points clés de squelette, qui adapte un algorithme récent de Video Object Segmentation (VOS), qui dispose d'une mémoire à long terme, à la tâche de détection de points clés de squelette en vidéo. Ces algorithmes ont ensuite été testés sur des données réelles enregistrées dans le modèle de train utilisé pour le train autonome.

Résumé traduit

Autonomous train projects are multiplying around the world. In France a consortium directed by IRT Railenium has the goal to build a train prototype that achieves GoA4 (Grade of Automation 4) that would be able to navigate without a pilot and without on-board staff. In the absence of staff, the needs of services and security of the passengers must be taken care of by automatic systems. Such systems must have varied and detailed information, in particular on the state and actions of the passengers on board. Computer vision algorithms, in particular those based on machine larning by deep neural networks, also called "Deep Learning" algorithms, have recently achieved a level of performance adequate to analyse video streams from surveillance cameras. However, many challenges specific to the context of autonommous trains need to be adressed. Some cameras tasked with surveillance of passengers inside the train will be of the wide-angle or Fisheye type. Those cameras produce images that contain important barrel distortions, that are not present in the main datasets that permit the training of modern convolutional neural networks. A method was developed to train semantic segmentation algorithm on artificial fisheye images. We apply for the first time this method for the task of instance segmentation, and we study its performance on two new annotated image datasets with barrel distortions, as well as the effect of distorsions and certain parameters. Moreover, recent pose tracking algorithms have achieved some degree of maturity. However, they are generally top-down, and do not make use of a long term memory. We propose a new method for skeleton key-points detection in video, that adapts a recent Video Object Segmentation (VOS) algorithm, that makes use of a long term memory, to the task of skeleton key-points detection in videos.

  • Directeur(s) de thèse : Berbineau, Marion - Lézoray, Olivier
  • Président de jury : Brémond, François
  • Membre(s) de jury : Meurie, Cyril - Mahtani, Ankur
  • Rapporteur(s) : Achard, Catherine - Ainouz, Samia
  • Laboratoire : Laboratoire Électronique Ondes et Signaux pour les Transports (LEOST)
  • École doctorale : École doctorale Sciences de l’ingénierie et des systèmes (Lille)

AUTEUR

  • Dufour, Rémi
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre