Enhancing Differentially private machine learning : Optimizations for Repeated Query scenarios
Amélioration de l’apprentissage automatique différentiellement confidentiel : optimisations pour les scénarios de requêtes répétées
- Automatique
- Informatique
- Confidentialité différentielle
- Apprentissage automatique
- Protection de l'information (informatique)
- Données massives
- Machine learning
- Differential privacy
- Federated learning
- Privacy
- Langue : Anglais
- Discipline : Informatique et applications
- Identifiant : 2025ULILB016
- Type de thèse : Doctorat
- Date de soutenance : 15/10/2025
Résumé en langue originale
Les réseaux de neurones profonds, et autres modèles d'apprentissageautomatique, ont connu ses dernières années une croissance sans précédent.Avec cet engouement, est apparue une crainte de plus en plus fondéeconcernant la confidentialité des masses de données nécessaires àl'entraînement de ces modèles. La combinaison de ces deux facteursa été un moteur essentiel à l'intérêt porté aux techniques d'apprentissageautomatique respectueuses de la vie privée. La confidentialité différentielles'est imposée comme canon de la mesure deconfidentialité. Cette mesure est maintenant intégrée dans un grand nombre d'interactionsà la donnée comme l'apprentissage automatique ou l'analyse collaborative,où plusieurs parties prenantes souhaitent interroger un donnée partagée sansexposer la leur. Le principal défi dans ce domaine est d'arbitrer entre les garanties deconfidentialité et l'utilité du résultats. En effet, les techniques permettantde protéger la confidentialité vont généralement se faire au détriment de la précisiondu résultat.Cette thèse se concentre sur les techniques permettant d'améliorerl'apprentissage automatique de modèles et les outils d'analyse de ceux-ci,tout en garantissant un niveau satisfaisant de confidentialité surla donnée sous-jacente. Premièrement, elle propose uneapproche novatrice pour les méthodes de descente de gradientrespectueuse de la confidentialité en s'attaquant au biais introduit parles méthodes actuelles. En utilisant les propriétés sur la régularité du gradient plutôt que de letronquer, comme il est d'usage dans les méthodes populaires, notre méthodeparvient à limiter le biais et le bruit ajouté au gradient. Nous proposons ainsiun nouvel algorithme qui surpasse l'état de l'art sur des jeux de donnéesvariés.Deuxièmement, la thèse couvre les techniques permettant de calculerdes fonctions de répartition empirique respectueuses de la confidentialité,même dans les cas où la donnée est partagée entre plusieurs entités. Cetteétude propose une nouvelle méthode compatible avec différents protocolesde sécurité, offrant des garanties de confidentialité démontrables etune analyse des coûts computationnels. De nombreuses applicationsdifférentes sont testées expérimentalement,dont les résultats prouvent l'utilité de cette méthode.Par l'analyse des mécanismes d'optimisation et des fonctions de répartition,cette thèse participe au développement de techniques d'apprentissageautomatique et d'analyse respectueuses de la vie privée, plus pratiques et efficaces.
Résumé traduit
Deep neural networks and other machine learning models have experiencedunprecedented growth in recent years. Alongside this enthusiasm, there hasbeen an increasing and well-founded concern about the privacy of the vastamounts of data required to train these models. The combination of thesetwo factors has been a key driver of interest in privacy-preservingmachine learning techniques. Differential Privacy has emerged as the goldstandard for measuring privacy. This framework is now applied on awide range of data-driven tasks, such as machine learning and collaborativeanalysis, where multiple stakeholders wish to query shared data withoutexposing their own. The main challenge in this domain lies in balancingprivacy guarantees with the utility of the results. Indeed,privacy-preserving techniques often come at the cost of reduced utility.This thesis focuses on techniques to improve machine learning models andtools for analyzing them, while ensuring a satisfactory level ofprivacy for the underlying data. First, it introduces an innovativeapproach to privacy-preserving gradient descent methods by addressingthe bias introduced by existing methods. By leveraging properties ofgradient regularity rather than clipping the gradient, as it iscommonly done in popular methods, our approach effectively reducesbias and the noise added to the gradient. We propose a new algorithmthat surpasses the state of the art across various datasets.Second, the thesis explores techniques for computing privacy-preservingempirical cummulative distribution functions, even in cases where thedata is distributed across multiple entities. This study proposes anovel method compatible with different security protocols,offering provable privacy guarantees and an analysis of computational costs.range of applications are explored, and experimental results arepresented to validate the utility of these methods.By analyzing optimization mechanisms and distribution functions,this thesis contributes to the development of more practical andefficient privacy-preserving machine learning and data analysis techniques.
- Directeur(s) de thèse : Ramon, Jan
- Président de jury : Bourhis, Pierre
- Membre(s) de jury : Boutet, Antoine
- Rapporteur(s) : Loubes, Jean-Michel - Clausel, Marianne
- Laboratoire : Centre Inria de l'Université de Lille - Centre de Recherche en Informatique, Signal et Automatique de Lille
- École doctorale : École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
AUTEUR
- Barczewski, Antoine



