Titre original :

Multi-lingual dependency parsing : word representation and joint training for syntactic analysis

Titre traduit :

Parsing en dépendances multilingue : représentation de mots et apprentissage joint pour l’analyse syntaxique

Mots-clés en français :
  • Apprentissage multilingue

  • Traitement automatique du langage naturel
  • Intelligence artificielle
  • Linguistique -- Informatique
  • Analyse automatique (linguistique)
  • Apprentissage automatique
  • Grammaire de dépendance
  • Langue : Anglais
  • Discipline : Informatique et applications
  • Identifiant : 2019LILUI019
  • Type de thèse : Doctorat
  • Date de soutenance : 20/05/2019

Résumé en langue originale

Les parsers en dépendances modernes ont des résultats comparables à ceux d'experts humains. Cependant, ils sont encore gourmands en données annotées et ces données ne sont disponibles que pour quelques langues. Pour rendre l'analyse syntaxique accessible aussi aux langues peu dotées, de nombreuses méthodes sont apparues comme le transfert de modèle ou d'annotation. Dans cette thèse, nous proposons de nouvelles méthodes de partage de l'information entre plusieurs langues en utilisant leurs traits grammaticaux communs.Nous utilisons cette morphologie partagée pour apprendre des représentations de mots délexicalisés qui aideront l'apprentissage de modèles d'analyse syntaxique. Nous proposons aussi une nouvelle méthode d'apprentissage nommée apprentissage phylogénétique qui utilise l'arbre généalogique des langues pour guider l'apprentissage des modèles. Enfin, à l'aide de notre mesure de la complexité morphosyntaxique nous étudions le rôle de la morphologie pour l'analyse en dépendances.

Résumé traduit

While modern dependency parsers have become as good as human experts, they still rely heavily on hand annotated training examples which are available for a handful of languages only. Several methods such as model and annotation transfer have been proposed to make high quality syntactic analysis available to low resourced languages as well. In this thesis, we propose new approaches for sharing information across languages relying on their shared morphological features. In a fist time, we propose to use shared morphological features to induce cross-lingual delexicalised word representations that help learning syntactic analysis models. Then, we propose a new multi-task learning framework called phylogenetic learning which learns models for related tasks/languages guided by the tasks/languages evolutionary tree. Eventually, with our new measure of morphosyntactic complexity we investigate the intrinsic role of morphological information for dependency parsing.

  • Directeur(s) de thèse : Tommasi, Marc - Denis, Pascal
  • Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
  • École doctorale : École doctorale Sciences pour l'ingénieur (Lille)

AUTEUR

  • Dehouck, Mathieu
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre