Titre original :

Apprentissage fédéré sécurisé et préservant la confidentialité avec intelligence artificielle explicable pour les systèmes intelligents dans le domaine de la santé

Titre traduit :

Secure and Privacy-preserving Federated Learning with Explainable Artificial Intelligence for Smart Healthcare System

Mots-clés en français :
  • Apprentissage fédéré
  • Intelligence artificielle explicable
  • Attaque par empoisonnement

  • Intelligence artificielle en médecine
  • Apprentissage profond
  • Protection de l'information (informatique)
  • Monitorage médical
  • Secret médical
  • Systèmes informatiques -- Mesures de sûreté
Mots-clés en anglais :
  • Healthcare
  • Privacy
  • Ecg
  • Federated Learning
  • Security

  • Langue : Anglais
  • Discipline : Informatique, Automatique
  • Identifiant : 2023ULILB019
  • Type de thèse : Doctorat
  • Date de soutenance : 28/08/2023

Résumé en langue originale

La croissance de la population à travers le monde a un impact significatif sur divers secteurs, notamment la main-d'œuvre, les soins de santé et l'économie mondiale. Le secteur de la santé est l'un des secteurs les plus touchés par la croissance de la population en raison de la demande croissante en ressources et en installations de santé. Des systèmes intelligents ont été intégrés pour améliorer la prise de décision afin de faire face à ces problèmes et d'offrir des soins de santé améliorés. Parmi ces systèmes, ceux basés sur l'apprentissage en profondeur (DL) ont surpassé de nombreux systèmes statistiques et ML traditionnels grâce à leur capacité à découvrir et à apprendre automatiquement des caractéristiques liées à une tâche donnée. Par conséquent, l'utilisation du DL a connu une augmentation constante dans de nombreuses applications. Néanmoins, généralement, la formation des modèles DL repose sur un seul serveur centralisé, ce qui pose de nombreux défis : (1) à l'exception de quelques grandes entreprises, la plupart des petites entreprises disposent de données de qualité limitée, insuffisantes pour soutenir la formation des modèles DL, (2) l'accès aux données soulève souvent des problèmes de confidentialité. La collecte et l'analyse d'informations sensibles sur les patients doivent être sécurisées et respectueuses de la vie privée pour protéger les droits individuels à la vie privée, (3) coût élevé de communication et de ressources de calcul requis, (4) un grand nombre de paramètres entraînables rendent les résultats du DL difficiles à expliquer, ce qui est requis dans certaines applications.Par rapport au DL centralisé, l'apprentissage fédéré (FL) améliore à la fois la confidentialité et les coûts de communication, où les clients collaborent pour former un modèle commun sans partager directement les données brutes. Le FL réduit au minimum les violations de la confidentialité et protège les données sensibles en les maintenant distribuées localement. Cela permet une formation collaborative du modèle tout en réduisant le risque d'accès non autorisé et de violations de données. De plus, il favorise l'apprentissage collaboratif en ne partageant que les mises à jour du modèle plutôt que l'ensemble des données.Cependant, le FL présente ses propres défis. Par exemple, la nature hétérogène des données locales entre les clients rend difficile la formation d'un modèle global performant et robuste. De plus, la nature distribuée et le contrôle d'accès des données locales dans le FL le rendent plus vulnérable aux attaques malveillantes. De plus, le défi d'expliquer les résultats du DL reste toujours un défi, et des méthodes doivent être développées pour apporter confiance, responsabilité et transparence dans des applications sensibles, telles que les soins de santé.Par conséquent, l'objectif de cette thèse est de créer des cadres robustes, sécurisés, performants et respectueux de la vie privée dans des environnements fédérés. Ces cadres seront spécifiquement conçus pour des applications de santé de bout en bout, en tenant compte de la présence de données non identiquement distribuées entre

Résumé traduit

The growing population around the globe has a significant impact on various sectors including the labor force, healthcare, and the global economy. The healthcare sector is among the most affected sectors by the growing population due to the increasing demand for resources, and healthcare facilities. Intelligent systems have been incorporated to enhance decision-making in order to tackle such issues and offer improved healthcare. Among such systems, those based on deep learning (DL), have outperformed many traditional statistical and ML systems owing to their capability of automatically discovering and learning related features for a given task. Therefore, the use of DL has seen a steady increase in many applications. Nevertheless, usually, the training of DL models relies on a single centralized server, which brings many challenges: (1) except for some big enterprises most of the small enterprises have limited quality data, which is insufficient to support the training of DL models, (2) access to data, often raises privacy concerns. The collection and analysis of sensitive patient information must be secure and privacy-preserving to protect individual privacy rights, (3) high communication cost and computation resources required, (4) a large number of trainable parameters make the outcome of DL hard to explain, which is required in some applications. Compared to centralized DL, federated learning (FL) improves both privacy and communication costs, where clients collaboratively train a joint model without sharing the raw data directly. FL minimizes privacy breaches and safeguards sensitive data by keeping it distributed locally. This enables collaborative model training while reducing the risk of unauthorized access and data breaches. Additionally, it promotes collaborative learning by sharing only model updates instead of the entire dataset. However, FL brings its own challenges. For example, heterogeneous local data among the clients makes it challenging to train a high-performing and robust global model. Additionally, the distributed nature and access control of local data in FL make it more vulnerable to malicious attacks. Moreover, the challenge of explaining the results of DL still remains challenging, and methods are needed to be developed to bring trust, accountability, and transparency in sensitive applications, such as healthcare. Therefore, the aim of this thesis is to create robust frameworks that are secure, high-performing, and privacy-friendly within federated settings. These frameworks will be specifically designed for end-to-end healthcare applications, considering the presence of non-identically distributed data among clients in FL to bring robustness. By addressing these challenges, the objective is to enhance the overall system's resilience and effectiveness. We also propose a methodology for detecting anomalies within federated settings, particularly in applications with limited available data for the abnormal class. Furthermore, clients in FL are usually resource-constrained with limited computation and communication resources available. Therefore, to support efficient computation and communication in a federated setting we propose a lightweight framework (in terms of the trainable number of parameters). Additionally, to provide explanations of the DL models' outcomes, which are usually hard to explain because of the large number of parameters, we propose model-agnostic explainable AI modules to help explain the results of DL models. Moreover, in order to protect the proposed frameworks against cyber attacks, such as poisoning attacks, we propose a framework in federated settings, which makes the proposed healthcare frameworks more secure and trustworthy. Finally, with experimental analysis using baseline datasets for one of the most common health conditions i.e., cardiovascular diseases and human activity recognition, we show the superiority of the proposed frameworks over state-of-the-art work.

  • Directeur(s) de thèse : Koehl, Ludovic - Li, Shujun - Tran, Kim Phuc
  • Président de jury : Siarry, Patrick
  • Membre(s) de jury : Saddem, Ramla - Ullah, Rehmat
  • Rapporteur(s) : Siarry, Patrick - He, Hongmei
  • Laboratoire : GEMTEX (Roubaix)
  • École doctorale : Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille)

AUTEUR

  • Raza, Ali
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre