Titre original :

Dé-identification automatisée de courriers médicaux : proposition et évaluation de la méthode FASDIM

Mots-clés en français :
  • Anonymisation, dé-identification, confidentialité, secret médical, Natural Language Processing, Traitement Automatisé de Langage

  • Traitement automatique du langage naturel
  • Secret médical
  • Protection de l'information (informatique)
  • Traitement du langage naturel
  • Confidentialité
  • Langue : Français
  • Discipline : Médecine du travail
  • Identifiant : 2012LIL2M008
  • Type de thèse : Doctorat de médecine
  • Date de soutenance : 17/01/2012

Résumé en langue originale

Contexte : Les données médicales contenues dans les courriers médicaux constituent une source importante d’information pour la recherche clinique et les actions de Santé Publique. Ces données ne sont exploitables que si la vie privée du patient est respectée, ce qui peut être obtenu par la dé-identification des courriers médicaux, aussi appelée « anonymisation ». La dé-identification consiste à supprimer dans un document toutes les données directement ou indirectement nominatives permettant d’identifier une personne. Afin de traiter un grand nombre de courriers, la méthode de dé-identification doit être automatisée, cependant aucune méthode n’existe en langue française. Matériel et méthode : FASDIM est une méthode simple et rapide de dé-identification de courriers médicaux en texte libre, permettant de supprimer les données identifiantes (Protected Health Information ou "PHI"). La méthode repose sur la création d'une liste de mots autorisés, associée à la création d'une liste de motifs dans lesquels les nombres sont protégés. Ensuite, les mots non autorisés ainsi que les nombres non protégés au préalable sont supprimés du texte. Enfin, FASDIM est évalué sur trois aspects: 1) efficacité à supprimer les données identifiantes, 2) perte d'information médicale engendrée par la méthode, 3) temps de travail nécessaire à sa mise en place et sa mise à jour. Résultats : FASDIM permet de dé-identifier les courriers médicaux non structurés en langue française avec un rappel de 98,1 % et une précision de 79,6 %, soit une F-measure à 87,9 %, ce qui garantit la confidentialité des documents. L’évaluation de la perte d’information montre un taux de conservation de l’information médicale de 99,02 %. Le temps requis pour implémenter la méthode est d’une quarantaine d’heure. FASDIM est donc un outil simple, rapide à mettre en place et permettant de préserver la vie privée du patient.

Résumé traduit

...

  • Directeur(s) de thèse : Chazard, Emmanuel

AUTEUR

  • Mouret-Kubiak, Capucine
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre