De l’analyse en composantes principales fonctionnelle à l’autoencodeur convolutif profond sur les trajectoires de formes de Kendall pour l’analyse et la reconnaissance de la démarche en 3D
From functional PCA to convolutional deep AE on kendall’s shape trajectories for 3D gait analysis and recognition
- Biométrie comportementale
- Données squelettiques 3D
- Reconnaissance de l'activité humaine (informatique)
- Vision par ordinateur
- Apprentissage automatique
- Géométrie de Riemann
- Analyse en composantes principales
- Marche (locomotion)
- Langue : Anglais
- Discipline : Informatique et applications
- Identifiant : 2020LILUI066
- Type de thèse : Doctorat
- Date de soutenance : 26/11/2020
Résumé en langue originale
Récemment, le développement de solutions automatiques et intelligentes pour la compréhension du contenu des vidéos et plus particulièrement pour l’analyse spatio-temporelle des mouvements Humains est au cœur de plusieurs domaines de recherche tels que les vidéos surveillances, les interactions Homme-Machine et la rééducation. Dans ce projet de thèse, nous proposons de procéder à l’analyse et la reconnaissance de la démarche en 3D qui est aussi un domaine de recherche actif en biométrie comportementale grâce au caractère non-invasif (aucune coopération de l’utilisateur), convivial (user-friendly) et bon marché de la démarche. Cette dernière a suscité plus d’intérêt avec la démocratisation de caméras de profondeurs bon marché (e.g., la Kinect), capables d’estimer en temps réel et de manière relativement précise les squelettes 3D et leurs mouvements, quand la personne est dans le champ de vue du capteur. Mais ces données squelettiques souffrent de la variabilité temporelle et spatiale. Pour faire face à ces verrous, nous proposons des nouvelles approches à partir de données squelettiques 3D où une séquence est d’abord représentée sur l’espace de formes de Kendall S par une trajectoire paramétrée par le temps. Les variabilités liées à l’échelle, la translation et la rotation sont ainsi filtrées. Cependant, vu la structure sphérique (non-linéaire) de la variété S, il n’est pas possible d’appliquer des techniques d’apprentissage automatique conventionnelle directement. C’est pourquoi nous avons eu recours à quelques outils de la géométrie riemannienne pour gérer le problème de non-linéarité. Notre première contribution présente une adaptation de l’Analyse en Composantes Principales Fonctionnelle (ACP fonctionnelle), qui tient compte de la nonlinéarité de l’espace de Kendall S. A l’issue de l’étape d’apprentissage, une nouvelle base de trajectoires principales, i.e., fonctions principales, est constituée. Étant donné une nouvelle trajectoire, elle est projetée sur cette nouvelle base avant d’être classée par une Machine à Vecteurs de Support (SVM). Les résultats expérimentaux sur différentes bases de données sont très compétitifs comparés à la littérature avec en plus une signature plus compacte et plus robuste. De plus, motivés par la puissance des réseaux de neurones et de l’apprentissage profond (Deep Learning), nous proposons, en deuxième méthode, un autoencodeur convolutif profond à caractère géométrique puisqu’il analyse les trajectoires de formes précédemment citées tout en tenant compte de la structure géométrique de notre espace de représentation. En fait, des étapes géométriques assurent que ces trajectoires peuvent être transmises à l’autoencodeur convolutif pour aboutir à une représentation compacte et discriminante permettant une bonne identification des personnes, et ce sans avoir recours à aucune technique d’alignement (e.g., DTW) ni de modélisation temporelle (e.g., HMM, RNN). Les résultats obtenus sur plusieurs bases publiques sont prometteurs par application à la reconnaissance de la démarche en 3D.
Résumé traduit
In the field of Computer Vision and Pattern Recognition, human behavior understanding has attracted the attention of several research groups and specialized companies. Successful intelligent solutions will be playing an important role in applications which involve humanrobot or human-computer interaction, biometrics recognition (security), and physical performance assessment (healthcare and well-being) since it will help the human beings were their cognitive and limited capabilities cannot perform well. In my thesis project, we investigate the problem of 3D gait recognition and analysis as gait is user-friendly and a well-accepted technology especially with the availability of RGB-D sensors and algorithms for detecting and tracking of human landmarks in video streams. Unlike other biometrics such as fingerprints, face or iris, it can be acquired at a large distance and do not require any collaboration of the end user. This point makes gait recognition suitable in intelligent video surveillance problems used, for example, in the security field as one of the behavioral biometrics or in healthcare as good physical patterns. However, using 3D human body tracked landmarks to provide such motions’ analysis faces many challenges like spatial and temporal variations and high dimension. Hence, in this thesis, we propose novel frameworks to infer 3D skeletal sequences for the purpose of 3D gait analysis and recognition. They are based on viewing the above-cited sequences as time-parameterized trajectories on the Kendall shape space S, results of modding out shape-preserving transformations, i.e., scaling, translation and rotation. Considering the non-linear structure of the manifold on which these shape trajectories are lying, the use of the conventional machine learning tools and the standard computational tools cannot be straightforward. Hence, we make use of geometric steps related to the Riemannian geometry in order to handle the problem of nonlinearity. Our first contribution is a geometric-functional framework for 3D gait analysis with a direct application to behavioral biometric recognition and physical performance assessment. We opt for an extension of the functional Principal Component Analysis to the underlying space. This functional analysis of trajectories, grounding on the geometry of the space of representation, allows to extract compact and efficient biometric signatures. In addition, we also propose a geometric deep convolutional auto-encoder (DCAE) for the purpose of gait recognition from time-varying 3D skeletal data. To accommodate the Neural Network architectures to obtained manifold-valued trajectories on the underlying non-linear space S, these trajectories are mapped to a certain vector space by means of someRiemannien geometry tools, prior to the encoding-decoding scheme. Without applying any prior temporal alignment step (e.g., Dynamic Time Warping) or modeling (e.g., HMM, RNN), they are then fed to a convolutional auto-encoder to build an identity-relevant latent space that showed discriminating capacities for identifying persons when no Temporal Alignment is applied to the time-parametrized gait trajectories: Efficient gait patterns are extracted. Both approaches were tested on several publicly available datasets and shows promising results.
- Directeur(s) de thèse : Ben Amor, Boulbaba - Ghorbel, Faouzi
- Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
- École doctorale : École doctorale Sciences pour l'ingénieur (Lille)
AUTEUR
- Hosni, Nadia