Titre original :

Apprentissage par transfert en épidémiologie : construction et évaluation d’un « diagnosis embedding » à partir de la base nationale médico-administrative du PMSI

Mots-clés en français :
  • Réutilisation de données
  • apprentissage par transfert
  • données massives
  • épidémiologie

  • Programme de médicalisation des systèmes d'information
  • Données massives
  • Modélisation prédictive
  • Intelligence artificielle en médecine
  • Épidémiologie
  • Mégadonnées
  • Apprentissage machine
  • Études épidémiologiques
  • Langue : Français
  • Discipline : Médecine. Santé Publique
  • Identifiant : 2020LILUM246
  • Type de thèse : Doctorat de médecine
  • Date de soutenance : 30/06/2020

Résumé en langue originale

Introduction : Dans le domaine biomédical, la réutilisation des données fournit des informations sur un nombre limité de variables pour de nombreux patients, alors que les études épidémiologiques classiques permettent de décrire de nombreuses variables pour un nombre de patients limité. Le transfert de représentations construites à partir de la réutilisation de données vers des études épidémiologiques pourrait améliorer la qualité de la modélisation dans ces études. Les méthodes de word embedding permettent de construire des représentations à faible dimensionalité et peuvent être appliquées à des données médicales structurées. Notre objectif était de construire un embedding de diagnostics à partir d'une base de données médico-administrative nationale, puis de la transférer à une étude épidémiologique avec un nombre limité de patients. Méthodes : Nous avons construit des embeddings de diagnostics, à partir des versions Continuous Bag Of Words (CBOW) et Skip-gram de Word2Vec, à partir de 21,7 millions de séjours de 2008 de la base nationale du PMSI. Nous avons transféré ces embeddings à deux études épidémiologiques et comparé leurs performances avec celles obtenues à partir des codes diagnostiques bruts. Les événements à prédire étaient la réhospitalisation à 30 jours ou le décès intra-hospitalier consécutifs à une hospitalisation pour une broncho-pneumopathie chronique obstructive. Les modèles étaient évalués par la valeur de l’aire sous la courbe ROC (AUC) Résultats : Les modèles prédictifs de réhospitalisation ont été construits sur 770 séjours. L’AUC des modèles basés sur CBOW, Skip-gram et sur les diagnostics bruts étaient 0,548 (IC95%: [0,532 ; 0,564], 0,568 [0,552 ; 0,584] et 0,547 [0,531 ; 0,563], respectivement. Les modèles prédictifs de décès ont été construits sur 380 séjours. L’AUC des modèles basés sur CBOW, Skip-gram et sur les diagnostics bruts étaient de 0,862 (IC95%: [0,848 ; 0,877], 0,868 [0,854 ; 0,883] et 0,840 [0,824 ; 0,856], respectivement. Conclusion : L'utilisation d'un embedding, construit à partir d'une grande base de données médico-administrative puis transféré dans un contexte épidémiologique, a permis d'améliorer les tâches de prédiction, démontrant la possibilité de transférer une représentation construite à partir de données massives.

Résumé traduit

...

  • Directeur(s) de thèse : Ficheur, Grégoire

AUTEUR

  • Riant, Margaux
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre