Titre original :

Apprentissage de grammaires catégorielles pour simuler l'acquisition du langage naturel à l'aide d'informations sémantiques

  • Langue : Français
  • Discipline : Informatique Informatique
  • Identifiant : 2004LIL10011
  • Type de thèse : Doctorat
  • Date de soutenance : 01/01/2004

Résumé en langue originale

Cette classe mérite d'être étudiée parce que ses membres permettent de générer l'ensemble des langages hors-contexte ou algébriques et parce que l'interface qu'elle permet avec une interprétation sémantique la rend apte à modéliser certaines particularités des langues naturelles. Mais les résultats d'apprenabilité connus ne concernent que des sous-classes triviales (classe des grammaires rigides) ou donnent lieu à des algorithmes rédhibitoires (classes des grammaires k-valuées avec k > 1). Nous définissons une nouvelle sous-classe de grammaires catégorielles classiques à la fois intéressante d'un point de vue de la théorie des langages (puisque ses représentants permettent de générer l'ensemble des langages de structures de toutes les grammaires catégorielles classiques) et d'un point de vue de l'apprentissage automatique (puisqu'elle est apprenable au sens de Gold à condition de fournir des données adaptées). Pour tester la validité et l'efficacité de notre proposition nous avons constitué un corpus de textes en français avec des annotations sémantiques. Les résultats des expérimentations sont prometteurs, spécialement en ce qui concerne l'influence de certains facteurs comme l'ordre des phrases (de la plus courte à la plus longue) et la redondance du vocabulaire, qui s'avère bénéfique, confirmant certaines hypothèses psycholinguistiques. L'apprentissage automatique du langage naturel reste encore un challenge pour la recherche moderne, d'autant plus que cette tâche nécessite une approche pluridisciplinaire, englobant les sciences cognitives, la linguistique et l'informatique. Cette thèse traite une sous partie de ce vaste domaine, l'acquisition de la syntaxe d'une langue à l'aide de la sémantique, formalisée comme un processus d'inférence grammaticale. La théorie des langages formels, la logique et la théorie de l'apprentissage y apportent leurs contributions en offrant trois modèles formels: les grammaires catégorielles pour représenter la syntaxe, la logique de Montague d'où une sémantique simplifiée est extraite et le modèle d'identification à la limite, par exemples positifs, de Gold, comme support du processus d'inférence. Le choix de ces modèles résulte d'une exploration des études psycholinguistiques et cognitives sur l'acquisition enfantine qui soutiennent les hypothèses suivantes: l'acquisition a lieu en présence d'exemples positifs seuls; il existe des connaissances d'ordre sémantique qui sont innées ou qui peuvent être extraites directement de l'environnement. Nos recherches se sont concentrées sur la classe des grammaires catégorielles dites AB ou classiques qui a donné lieu ces dernières années à des résultats d'apprenabilité au sens de Gold (principalement dus à Kanazawa) intéressants.

  • Directeur(s) de thèse : Gilleron, Rémi - Todoroi, Dumitru

AUTEUR

  • Dudau, Daniela
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès réservé aux membres de l'Université de Lille sur authentification