Titre original :

Analyse et prédiction du comportement humain dans des séquences temporelles non contrôlées

Titre traduit :

Analysis and prediction of human behavior temporal sequences in the wild

Mots-clés en français :
  • Matrice de Gram

  • Informatique affective
  • Vision par ordinateur
  • Reconnaissance automatique des émotions
  • Reconnaissance gestuelle
  • Géométrie de Riemann
  • Évaluation de la douleur
Mots-clés en anglais :
  • Pain
  • Human
  • Behaviour
  • Prediction
  • Sequence
  • Action

  • Langue : Anglais
  • Discipline : Informatique et applications
  • Identifiant : 2022ULILB019
  • Type de thèse : Doctorat
  • Date de soutenance : 30/09/2022

Résumé en langue originale

La compréhension du comportement humain est sujet de recherche important depuis plusieurs années. En effet, le développement de nouvelles machines qui travaillentet aident les humains dans leur quotidien n'a jamais été aussi important aujourd'hui. Il est alors important de développer des méthodes appropriées pour une meilleure compréhension du comportement humain. Dans ce sens, les récents progrès en informatique et en vision par ordinateur ont permit le développement de ces méthodes. La compréhension des mouvements du corps et du visage peut être effectuée par la détection de points de repères 2D ou 3D à partir de différentes sources comme une vidéo or le flux d'une caméra. Cette acquisition nous permet de construire une séquence temporelle de configurations de points de repères qui peuvent être traitées pour répondre à différents problèmes, comme la reconnaissance d'actions ou d'émotions. Cependant, des déformations peuvent être observées pendant l'analyse, du fait des changements de point de vue, la détection ou le suivi incorrect des points de repères, particulièrement dans les situations non contrôlées. Dans cette thèse, nous proposons deux approches spatio-temporelles basées sur les points de repères du corps et du visage. La représentation avec des matrices de Gram définie des matrices définissent semi-positives de rang fixe qui vivent sur des variétés Riemannienne non linéaires, sur lesquelles les techniques classiques de calculs et d'apprentissages machine ne peuvent pas être appliquées. Pour surmonter ce problème, les trajectoires définissent par des séquences de matrices de Gram sur la variété des matrices définissent semi-positives sont analysées en considérant une métrique qui respecte la géométrie Riemanienne sur la variété. L'approche proposée a été évaluée sur différentes applications d'analyse du mouvement du corps et de la reconnaissance d'action à partir de points de repères sur lecorps en 2D et 3D, ainsi que sur l'analyse d'expressions faciales pour estimer le niveau de douleur à partir de points de repères faciaux. La seconde approche proposée utilise un réseau de neurone basé sur un réseau conventionnel sur les graphes et le Transformer, qui combine le calcul de l'attention au niveau spatial et temporel de séquences de repères faciaux 2D. Cette approche a été évaluée sur l'estimation de l'indice de douleur au niveau des séquences. Les résultats obtenus par l'application des deux approches sur des jeux de données importants sont compétitifs avec les récents résultats obtenus dans l'état de l'art.

Résumé traduit

Human behavior understanding has been an important research topic in the past decades. Indeed, the development of machines that work and help humans in their daily lives has never been more important than it is today. It is important to develop appropriate methods to better understand human behavior. In this sense, recent breakthroughs in computer science and computer vision have made the development of such methods possible. Understanding body and facial movements can be done by detecting 2D or 3D landmarks from different sources like a video or the feed of a camera. Performing this acquisition process over time makes it possible to construct temporal sequences of landmark configurations that can be processed to address different tasks, including the recognition of actions and emotions. However, deformations can be observed during the analysis, due to view variations, inaccurate landmark detection or tracking, especially in uncontrolled situations. In this thesis, we propose two space-time approaches of body joint and facial landmark sequences, while tackling different problems in understanding of human behavior. Firstly, we propose a representation based on trajectories of Gram matrices computed from body joints or facial landmarks. The Gram matrices representation defines positive semi-definite matrices of fixed rank that lay on a non-linear Riemannian manifold, where traditional computations and machine learning techniques could not be applied. To overcome this issue, the trajectories defined by sequences of Gram matrices on the manifold of SemiPositive definite matrices are analyzed by considering metric properties induced by the Riemannian geometry of the manifold. The proposed approach was evaluated in several applications related to body movements and action recognition from skeletons using 2D and 3D body joints as well as facial expression analysis to estimate the level of pain directly from 2D facial landmarks. Secondly, we propose a neural network architecture based on a Graph Convolutional Network and a Transformer model that combines the computation of attention at spatial and temporal level of 2D facial landmark sequences. We evaluate this second approach in the estimation of pain level at sequence level. The results obtained by applying the two proposed approaches on widely used data are competitive with respect to recent state-of-the-art methods proposed in the literature.

  • Directeur(s) de thèse : Daoudi, Mohamed - Del Bimbo, Alberto
  • Président de jury : Hamad, Denis
  • Membre(s) de jury : Berretti, Stefano - Pala, Pietro - Hammal, Zakia - Ferrari, Claudio
  • Rapporteur(s) : Hamad, Denis - Aouada, Djamila
  • Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
  • École doctorale : Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille)

AUTEUR

  • Szczapa, Benjamin
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre