Apprentissage semi-supervisé basé sur les graphes avec des graphes manquants et bruités
Graph-based semi-supervised learning in missing and noisy graph settings
- Apprentissage semi-supervisé basé sur les graphes
- Données -- Étiquetage
- Traitement automatique du langage naturel
- Apprentissage supervisé (intelligence artificielle)
- Représentations de graphes
- Traitement du signal -- Techniques numériques
- Semi-supervised
- Natural language processing
- Graph-based learning
- Langue : Anglais
- Discipline : Informatique et applications
- Identifiant : 2021LILUB013
- Type de thèse : Doctorat
- Date de soutenance : 27/10/2021
Résumé en langue originale
Au cours des dernières années, les méthodes d'apprentissage automatique ont été intégrées dans divers systèmes de traitement du langage naturel. Ces méthodes ont montré des résultats impressionnants dans une variété de tâches dans de multiples domaines, en particulier par l'apprentissage supervisé. Cependant, ces méthodes reposent généralement sur de grandes quantités de données étiquetées, ce qui implique une forte intervention humaine dans le pipeline de modélisation et un coût potentiel élevé pour l'annotation des données. L'apprentissage semi-supervisé basé sur les graphes (GSSL) est un cadre théorique qui atténue ces problèmes en exploitant les informations fournies par les données non étiquetées.Il prend en entrée un ensemble de données et un graphe qui représente les connexions entre les éléments, étiquetés et non étiquetés. Un obstacle dans l'utilisation de GSSL est qu'un graphe n'est pas toujours disponible, et bien qu'il existe des techniques heuristiques pour les construire, elles ne parviennent généralement pas à capturer la véritable topologie des données. Dans cette thèse, nous proposons deux méthodes originales pour traiter les scénarios où les données étiquetées sont rares et où le graphe n'est disponible ou est seulement une observation bruitée d'un vrai graphe inconnu. Notre première méthode combine l'apprentissage des graphes et l'apprentissage des métriques pour apprendre conjointement un graphe et une transformation de données que nous pouvons ensuite insérer dans un algorithme GSSL standard, comme par exemple Label Spreading ou Graph Convolutional Networks. Pour notre deuxième méthode, nous adoptons une approche probabiliste et utilisons les outils des modèles génératifs pour construire un cadre dans lequel nous inférons conjointement un graphe et les paramètres d'un modèle de classification semi-supervisée "end-to-end". Nous montrons empiriquement que nos méthodes donnent des résultats compétitifs dans la classification de textes. De plus, nous obtenons des graphes spécifiques aux tâches qui capturent des propriétés intéressantes sur les données. Finalement, nous identifions les défis et discutons des directions potentielles pour les relever.
Résumé traduit
In the last few years Machine Learning methods have been incorporated in various Natural Language Processing systems.As a result, these methods have shown impressive results in a variety of tasks across multiple domains, in particular, through supervised learning.However, these methods usually rely on large amounts of labeled data, implying a strong presence of human intervention in the modeling pipeline and a potential high cost for data annotation.Graph-based Semi-supervised Learning (GSSL) is a framework that alleviates these issues by exploiting the information provided by the unlabeled data.It takes as input a dataset and a graph that represents pairwise connections between elements, both labeled and unlabeled.A bottleneck in the use of GSSL in arbitrary datasets is that a graph is not always readily available, and although there are heuristic techniques to build them, they usually fall short of capturing the true topology of the data.In this thesis we propose two original methods to deal with scenarios where labeled data is scarce and where either no graph is available, or where the a-priori graph is considered a noisy observation of an unknown true graph.Our first method combines Graph Learning and Metric Learning to jointly learn a graph and a data transformation that we can subsequently plug into a standard GSSL algorithm such as Label Spreading of Graph Convolutional Networks.For our second method we adopt a probabilistic approach and use the tools from deep generative models to build a framework where we jointly infer a graph and the parameters of a semi-supervised classification model in an end-to-end fashion.We empirically show that our methods yield competitive results in text classification.Furthermore, we are able to learn task-specific graphs that capture interesting properties about the data.Finally, we identify challenges and discuss potential directions to address them.
- Directeur(s) de thèse : Tommasi, Marc
- Président de jury : Gaussier, Éric
- Membre(s) de jury : Denis, Pascal - Bellet, Aurélien - Vazirgiannis, Michalis
- Rapporteur(s) : Gaussier, Éric - Hudelot, Céline
- Laboratoire : Centre Inria de l'Université de Lille - Centre de Recherche en Informatique, Signal et Automatique de Lille
- École doctorale : École doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
AUTEUR
- Vargas Vieyra, Mariana