Titre original :

Measuring and Mitigating Allocation Unfairness Across the Machine Learning Pipeline

Titre traduit :

Mesurer et atténuer l'injustice d'allocation dans le processus d'apprentissage automatique

Mots-clés en français :
  • Tal
  • Confidentialité différentielle
  • Equité

  • Apprentissage automatique
  • Allocation des ressources
  • Traitement automatique du langage naturel
  • Discrimination multiple
  • Équité
  • Droit à la vie privée
  • Protection de l'information (informatique)
Mots-clés en anglais :
  • Nlp
  • Privacy
  • Fairness

  • Langue : Anglais
  • Discipline : Informatique et applications
  • Identifiant : 2024ULILB004
  • Type de thèse : Doctorat
  • Date de soutenance : 27/03/2024

Résumé en langue originale

Avec l'arrivée de l'apprentissage automatique, les institutions gouvernementales et autres bureaucraties connaissent un changement de paradigme, car les algorithmes les assistent de plus en plus, voire remplacent certaines de leurs fonctions. Par conséquent, tout comme les philosophes du début du XXe siècle ont examiné ces changements institutionnels, il est essentiel d'analyser ces algorithmes sous l'angle de leur impact sociétal.Conformément à cet objectif général, cette thèse vise à examiner et à proposer des moyens d'atténuer les préjudices associés à l'utilisation de l'apprentissage machine. Plus précisément, nous étudions l'impact des algorithmes d'apprentissage automatique dans les contextes où des groupes de population se voient attribuer ou refuser des opportunités et des ressources de manière injuste. En réponse, nous proposons une série d'algorithmes conçus pour mesurer et contrecarrer l'injustice tout au long du processus d'apprentissage automatique. Nous commençons par proposer FairGrad, un algorithme fondé sur le gradient qui ajuste dynamiquement l'influence des exemples pendant le processus d'entraînement, afin de garantir l'équité. Ensuite, nous examinons FairGrad et divers autres mécanismes d'application d'équité sous l'angle de l'intersectionnalité, où de multiples attributs démographiques sensibles sont pris en compte simultanément. Nos expériences révèlent que plusieurs approches présentent un comportement de nivellement par le bas : elles optimisent les mesures d'équité actuelles en portant atteinte aux groupes concernés. Nous présentons une nouvelle mesure d'équité, [dollar]alpha[dollar]-Intersectional Fairness ([dollar]alpha[dollar]-Équité intersectionnelle), qui aide à mettre au jour ce phénomène.Sur la base de ces résultats, notre étape suivante se concentre sur la résolution du problème de nivellement par le bas. Pour en atténuer les effets, nous introduisons un mécanisme de génération de données qui exploite la structure hiérarchique inhérente au cadre intersectionnel et augmente les données des groupes en combinant et en transformant les données de groupes plus généraux. À travers nos expériences, nous montrons que cette approche permet non seulement de produire de nouveaux exemples réalistes, mais aussi d'améliorer les performances dans les scénarios les plus défavorables. Enfin, nous explorons l'intersection entre protection de la vie privée, autre préoccupation sociétale, et équité. Nous présentons FEDERATE, une nouvelle méthode qui combine l'apprentissage antagoniste et la confidentialité différentielle pour dériver des représentations privées qui conduisent à des résultats plus équitables. Il est intéressant de noter que nos résultats suggèrent que, dans notre contexte expérimental, vie privée et équité peuvent coexister et se complètent fréquemment.

Résumé traduit

With the advent of machine learning, the government institutions and other bureaucracy are undergoing a paradigm shift, as algorithms increasingly assist in and even replace some of their functions. Consequently, just as early 20th-century philosophers scrutinized these institutional changes, it is crucial to analyze these algorithms through the lens of their societal impact.In line with this general objective, this thesis aims to examine and propose ways to mitigate the harms associated with employing machine learning (ML). Specifically, we study the impact of ML algorithm in the settings where groups of population are unfairly assigned or withheld opportunities and resources. In response, we propose a series of algorithms designed to measure and counteract unfairness throughout the ML pipeline. We begin by proposing FairGrad, a gradient based algorithm which dynamically adjusts the influence of examples throughout the training process to ensure fairness. We then examine FairGrad, and various other fairness enforcing mechanism from the lens of intersectionality where multiple sensitive demographic attributes are considered together. Our experiments reveal that several approaches exhibit "leveling down'' behavior, implying that they optimize for current fairness measures by harming the involved groups. We introduce a new fairness measure called [dollar]alpha[dollar]-Intersectional Fairness which helps uncover this phenomena.Building upon these findings, our next step focuses on addressing the leveling down issue. To mitigate its effects, we introduce a data generation mechanism that exploits the hierarchial structure inherent to the intersectional setting, and augments data for groups by combining and transforming data from more general groups. Through our experiments we find that this approach not only produces realistic new examples but also enhances performance in worst-case scenarios. Finally, we explore the intersection of privacy, another societal concern, with fairness. We present FEDERATE, a novel method that combines adversarial learning with differential privacy to derive private representations that lead to fairer outcomes. Interestingly, our results suggest that in our experimental context privacy and fairness can coexist and frequently complement each other.

  • Directeur(s) de thèse : Denis, Pascal
  • Président de jury : Gravier, Christophe
  • Membre(s) de jury : Bellet, Aurélien - Keller, Mikaela
  • Rapporteur(s) : Lauscher, Anne - Habernal, Ivan
  • Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille - Centre Inria de l'Université de Lille
  • École doctorale : École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)

AUTEUR

  • Maheshwari, Gaurav
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre