Titre original :

Improving Web User Privacy Through Content Blocking

Titre traduit :

Préserver la vie privée en ligne grâce au blocage de contenu

Mots-clés en français :
  • Vie privée
  • Confidentialité
  • Pistage en ligne
  • Navigateur
  • Empreinte de navigateur
  • Javascript
  • Blocage de contenu

  • Vie privée
  • Protection de l'information (informatique)
  • Navigateurs (logiciels)
  • Traces numériques
  • JavaScript (langage de programmation)
Mots-clés en anglais :
  • Privacy
  • Online tracking
  • Browser
  • Browser fingerprinting
  • Javascript

  • Langue : Anglais
  • Discipline : Informatique et applications
  • Identifiant : 2023ULILB011
  • Type de thèse : Doctorat
  • Date de soutenance : 31/05/2023

Résumé en langue originale

Le Web a connu une croissance constante depuis sa création en 1990. En parallèle de cette production permanente de contenu, le pistage des utilisateurs est apparu rapidement et s'est développé de manière tout aussi soutenue. Les utilisateurs sont alors suivis aussi bien entre les sites Web que dans leur comportement sur chaque page. Pour combattre ce pistage, les développeurs de navigateurs et d'extensions ont proposé différentes stratégies, de l'isolation des sites les uns par rapport aux autres jusqu'à demander aux utilisateurs la permission d'utiliser certaines fonctionnalités sensibles. Dans cette thèse, on s'intéresse à une de ces stratégies de protection côté client : le blocage de contenu. Le blocage de contenu consiste à empêcher le chargement ou l'exécution de certaines parties des pages Web, protégeant ainsi les utilisateurs de celles-ci. Les outils de blocage de contenu existants reposent surtout sur des listes de filtrage qui spécifient les parties des pages à bloquer. Cependant, elles souffrent de nombreux inconvénients : elles peuvent notamment être incomplètes ou incapables de cibler certains types de ressources. On présente quatre contributions pour améliorer la vie privée des internautes en modifiant le contenu des pages :1. On mesure la dépendance au JavaScript d'éléments courants des pages Web et dans quelle mesure bloquer JavaScript permet d'améliorer la vie privée. On trouve que 43 % des pages Web de notre échantillon ne dépendent pas strictement de JavaScript et que 67 % des pages sont susceptibles d'être utilisables si l'on se préoccupe seulement du contenu principal de la page.2. En s'appuyant sur les connaissances acquises concernant la casse des pages quand JavaScript est bloqué, on conçoit un ensemble de réparations pour corriger les cas courants de casse. On introduit le concept de User Browsing Intent (UBI) (intention de navigation) et, en se concentrant sur la UBI « read-only », on mesure à quel point ces réparations sont utiles dans le cas de cette UBI.3. On propose un système côté serveur pour remplacer les composants d'interface dépendants généralement de JavaScript par des versions sans JavaScript, et on évalue les bénéfices de cette substitution, notamment d'un point de vue sécurité et de réduction de la consommation des terminaux.4. On conçoit un algorithme de signature pour produire des signatures robustes de fonctions JavaScript et détecter le bundling (empaquetage) de fonctions de pistage provenant de scripts de pistage connus avec du code bénin. On trouve que 22.7 % des domaines de notre échantillon comprennent de telles fonctions de pistage, qui contournent ainsi, de fait, les outils de blocage existants. On propose finalement une technique pour bloquer ces fonctions de pistage tout en préservant les fonctionnalités du code environnant.

Résumé traduit

The web has seen steady growth since its inception in 1990. Along with this constant production of content, user tracking has appeared early and seen continuous development. Users are thus followed across websites and their behavior observed on individual web pages. To combat user tracking, browser vendors and extension developers have proposed different strategies, ranging from site isolation to asking the user before using sensitive features. In this thesis, we focus on one of this client-side privacy protection strategy: content blocking. Content blocking consists in preventing unwanted parts of web pages from being downloaded or executed, thus protecting the user from them. Existing content blocking tools mostly rely on filter lists which specify what parts of web pages to block. They however suffer from several issues, including incomplete coverage and being unable to target certain kinds of resources. We present four contributions for improving user privacy by modifying page content:1. We measure the dependency on common web page elements on JavaScript and how much blocking JavaScript can improve user privacy. We find that 43 % of web pages from our sample do not strictly depend on JavaScript and that 67 % of pages are likely to be usable when caring only about the main page section.2. Building on the acquired knowledge of page breakage when blocking JavaScript, we design a set of repairs to repair common page breakage types. We introduce the concept of User Browsing Intent (UBI) and, focusing on the ‘read-only' UBI, we measure how much these repairs are useful in the case of this UBI.3. We propose a server-side system to substitute interface page elements usually relying on JavaScript with noscript alternatives, and discuss the benefits of this replacement in particular in terms of device energy savings and security.4. We devise a signature scheme to generate robust signatures of JavaScript functions, and detect the bundling of tracking functions from known tracking libraries with functional code. We find that 22.7 % of domains in our sample bundle such tracking functions with functional code, effectively circumventing existing blocking tools. We propose a technique for blocking these tracking functions while preserving functional code.

  • Directeur(s) de thèse : Rouvoy, Romain
  • Président de jury : Routier, Jean-Christophe
  • Membre(s) de jury : Laperdrix, Pierre - Fass, Aurore
  • Rapporteur(s) : Bielova, Nataliia - Barais, Olivier
  • Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille - Centre Inria de l'Université de Lille
  • École doctorale : Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille)

AUTEUR

  • Fouquet, Romain
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre