Titre original :

Vers une définition des big data en santé basée sur la littérature

Mots-clés en français :
  • Big data, exploration de données, réutilisation des données, omiques

  • Données massives
  • Exploration de données
  • Santé
  • Systèmes d'information sur la santé
  • Informatique médicale
  • Bases de données factuelles
  • Fouille de données
  • Revue de la littérature
  • Langue : Français
  • Discipline : Médecine. Santé Publique
  • Identifiant : 2015LIL2M101
  • Type de thèse : Doctorat de médecine
  • Date de soutenance : 11/05/2015

Résumé en langue originale

Contexte : Le terme « Big data » émerge récemment dans la littérature scientifique. Ce terme n’est pas encore référencé dans le MeSH (Medical Subject Headings). Or son usage semble ambigu et les propriétés attribuées à ce terme par les auteurs varient selon les articles. L’objectif de ce travail est de proposer une définition du terme « Big data » à partir d’une revue de la littérature incluant les articles mentionnant ce terme et de décrire systématiquement les propriétés rattachées à ce terme par les auteurs. Méthode : Nous avons conduit une recherche systématique de la base de données PubMed de tous les articles publiés jusqu’au 9 mai 2014 en utilisant le terme de recherche « Big data ». Ces articles ont été classés en domaines d’études. Le nombre d’individus statistiques (n) et le nombre de variables (p) ont été relevés pour les articles décrivant un jeu de données. Nous avons également considéré les caractéristiques attribuées aux Big data par les auteurs. En s’appuyant sur cette analyse, une définition des Big data a été proposée. Résultats : Cent quatre-vingt-seize articles ont été inclus. Trois principales catégories d’études ont été identifiées : les spécialités « omiques », les spécialités médicales et la santé publique. Les Big data peuvent être définies comme des données avec un Log(n * p) supérieur ou égal à 7. Les propriétés des Big data sont ses grandes variétés de données et leur importante vélocité. Les Big data soulèvent des défis concernant la véracité, la gestion des données, l’extraction d’informations utiles, le partage des informations et l’existence d’experts humains ayant à la fois des compétences cliniques et analytiques. L’émergence des Big data nécessitent la création de nouvelles méthodes de calcul qui optimisent la gestion de données. Les concepts reliés sont la réutilisation des données (data reuse), la possibilité de connaissances erronées et la question de la confidentialité des données. Conclusion : Les Big data sont définies par le volume. La taille des données qui les qualifie de « Big data » va probablement augmenter avec le temps. Les Big data ne doivent pas être confondues avec le data reuse : les données peuvent être massives sans être forcément réutilisées dans un autre objectif, par exemple dans le cas des spécialités « omiques ». Inversement, des données peuvent être réutilisées sans être nécessairement de grande dimension. C’est le cas par exemple de l’utilisation secondaire du dossier patient informatisé.

Résumé traduit

...

  • Directeur(s) de thèse : Chazard, Emmanuel

AUTEUR

  • Baro, Émilie
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre