Deep learning for simulation in healthcare : Application to affective computing and surgical data science
Apprentissage profond pour la simulation en santé : Application à l'informatique affective et à la science des données chirurgicales
- Apprentissage profond
- Apprentissage automatique Multimodal
- Vision par ordinateur
- Informatique affective
- Science des données chirurgicales
- Simulation médicale
- Apprentissage profond
- Informatique affective
- Capture de mouvements
- Médecine -- Étude et enseignement -- Simulation, Méthodes de
- Chirurgie -- Informatique
- Stress
- Apprentissage profond
- Formation par simulation haute fidélité
- Émotions
- Deep learning
- Multimodal machine learning
- Computer vision
- Affective computing
- Surgical data science
- Medical simulation
- Langue : Anglais
- Discipline : Mathématiques et leurs interactions
- Identifiant : 2024ULILS033
- Type de thèse : Doctorat
- Date de soutenance : 08/11/2024
Résumé en langue originale
Dans cette thèse, nous abordons diverses tâches dans les domaines de l’informatique affective et de la science des données chirurgicales qui ont le potentiel d’améliorer la simulation médicale. Plus précisément, nous nous concentrons sur quatre défis clés : la détection du stress, la reconnaissance des émotions, l’évaluation des compétences chirurgicales et la reconnaissance des gestes chirurgicaux. La simulation est devenue un élément important de la formation médicale, offrant aux étudiants la possibilité d’acquérir de l’expérience et de perfectionner leurs compétences dans un environnement sûr et contrôlé. Cependant,malgré des avancées significatives, la formation basée sur la simulation fait encore face à d’importants défis qui limitent son plein potentiel. Parmi ces défis figurent la garantie de scénarios réalistes, la prise en compte des variations individuelles dans les réponses émotionnelles des apprenants, et, pour certains types de simulations, comme les simulations chirurgicales, l’évaluation objective des performances. Intégrer le suivi des états cognitifs,des niveaux de stress et des états émotionnels des étudiants en médecine, ainsi que l’incorporation d’outils fournissant des retours objectifs et personnalisés, en particulier pour les simulations chirurgicales, pourrait aider à pallier ces limitations. Ces dernières années, l’apprentissage profond a révolutionné notre façon de résoudre des problèmes complexes dans diverses disciplines, entraînant des avancées significatives en informatique affective et en science des données chirurgicales. Cependant, plusieurs défis spécifiques à ces domaines subsistent. En informatique affective, la reconnaissance automatique du stress et des émotions est difficile en raison des problèmes de définition de ces états et de la variabilité de leur expression chez les individus. De plus, la nature multimodale de l’expression du stress et des émotions ajoute une couche de complexité supplémentaire, car l’intégration efficace de sources de données diverses demeure un défi majeur. En science des données chirurgicales, la variabilité des techniques chirurgicales entre les praticiens, la nature dynamique des environnements chirurgicaux, et l’intégration de plusieurs modalités soulignent les difficultés pour l’évaluation automatique des compétences chirurgicales et la reconnaissance des gestes. La première partie de cette thèse propose un nouveau cadre de fusion multimodale basé sur le Transformer pour la détection du stress, en exploitant plusieurs techniques de fusion. Ce cadre intègre des signaux physiologiques provenant de deux capteurs,chaque capteur étant traité comme une modalité distincte. Pour la reconnaissance des émotions, nous proposons une approche multimodale innovante utilisant un réseau de neurones convolutifs sur graphes (GCN) pour fusionner efficacement les représentations intermédiaires de plusieurs modalités, extraites à l’aide de Transformer encoders unimodaux. Dans la deuxième partie de cette thèse, nous introduisons un nouveau cadre d’apprentissage profond qui combine un GCN avec un Transformer encoder pour l’évaluation des compétences chirurgicales, en exploitant des séquences de données de squelettes de mains.Nous évaluons notre approche en utilisant des données issues de deux tâches de simulation chirurgicale que nous avons collectées. Nous proposons également un nouveau cadre multimodal basé sur le Transformer pour la reconnaissance des gestes chirurgicaux, intégrant un module itératif de raffinement multimodal afin d’améliorer la fusion des informations complémentaires entre différentes modalités. Pour pallier les limitations des ensembles de données existants en reconnaissance des gestes chirurgicaux, nous avons collecté deux nouveaux ensembles de données spécifiquement conçus pour cette tâche, sur lesquels nous avons effectué des benchmarks unimodaux et multimodaux pour le premier ensemble de données et des benchmarks unimodaux pour le second.
Résumé traduit
In this thesis, we address various tasks within the fields of affective computing and surgicaldata science that have the potential to enhance medical simulation. Specifically, we focuson four key challenges: stress detection, emotion recognition, surgical skill assessment, andsurgical gesture recognition. Simulation has become a crucial component of medical training,offering students the opportunity to gain experience and refine their skills in a safe, controlledenvironment. However, despite significant advancements, simulation-based trainingstill faces important challenges that limit its full potential. Some of these challengesinclude ensuring realistic scenarios, addressing individual variations in learners’ emotionalresponses, and, for certain types of simulations, such as surgical simulation, providing objectiveassessments. Integrating the monitoring of medical students’ cognitive states, stresslevels and emotional states, along with incorporating tools that provide objective and personalizedfeedback, especially for surgical simulations, could help address these limitations.In recent years, deep learning has revolutionized the waywe solve complex problems acrossvarious disciplines, leading to significant advancements in affective computing and surgicaldata science. However, several domain-specific challenges remain. In affective computing,automatically recognizing stress and emotions is challenging due to difficulties in definingthese states and the variability in their expression across individuals. Furthermore, themultimodal nature of stress and emotion expression introduces another layer of complexity,as effectively integrating diverse data sources remains a significant challenge. In surgicaldata science, the variability in surgical techniques across practitioners, the dynamic natureof surgical environments, and the challenge of effectively integrating multiple modalitieshighlight ongoing challenges in surgical skill assessment and gesture recognition. The firstpart of this thesis introduces a novel Transformer-based multimodal framework for stressdetection that leverages multiple fusion techniques. This framework integrates physiologicalsignals from two sensors, with each sensor’s data treated as a distinct modality. Foremotion recognition, we propose a novel multimodal approach that employs a Graph ConvolutionalNetwork (GCN) to effectively fuse intermediate representations from multiplemodalities, extracted using unimodal Transformer encoders. In the second part of this thesis,we introduce a new deep learning framework that combines a GCN with a Transformerencoder for surgical skill assessment, leveraging sequences of hand skeleton data. We evaluateour approach using two surgical simulation tasks that we have collected. Additionally,we propose a novel Transformer-based multimodal framework for surgical gesture recognitionthat incorporates an iterative multimodal refinement module to enhance the fusionof complementary information from different modalities. To address existing dataset limitationsin surgical gesture recognition, we collected two new datasets specifically designedfor this task, on which we conducted unimodal and multimodal benchmarks for the firstdataset and unimodal benchmarks for the second.
- Directeur(s) de thèse : Amad, Ali - Daoudi, Mohamed
- Président de jury : Hamad, Denis
- Membre(s) de jury : Santana Maia, Deise - Berretti, Stefano
- Rapporteur(s) : Hamad, Denis - Herrero, Astrid
- Laboratoire : Lille Neuroscience et Cognition (Lille) - Lille Neurosciences & Cognition - U 1172
- École doctorale : École graduée Biologie-Santé (Lille ; 2000-....)
AUTEUR
- Feghoul, Kevin