Titre original :

Méthodes pour la reconstruction du répertoire des transcrits d'un gène à partir de données RNA-seq de 3ème génération

Titre traduit :

Methods for the reconstruction of a gene transcript repertoire from 3rd generation RNA-seq data

Mots-clés en français :
  • Épissage alternatif
  • Bioinformatique
  • Séquençage 3ème génération
  • Isoforme alternatif
  • Prediction
  • Séquençage ARN

  • Épissage alternatif
  • Bioinformatique
  • Séquençage de l'ARN
  • Exons
Mots-clés en anglais :
  • Alternative splicing
  • 3rd-Gen NGS
  • Splicing isoform
  • RNA-Sequencing
  • Prediction
  • Bioinformatics

  • Langue : Français
  • Discipline : Informatique et applications
  • Identifiant : 2024ULILB027
  • Type de thèse : Doctorat
  • Date de soutenance : 18/10/2024

Résumé en langue originale

L'épissage alternatif est un processus de régulation de la structure interne des ARNs, contribuant à la maturation des Pré-ARN en ARN mature. Ce processus, synchrone à la transcription, permet à la cellule de produire différents ARN à partir d'un même gène. On estime que 95 % des gènes humains connaissent des événements d'épissage alternatif, impliqués dans des processus cellulaires cruciaux tels que la différenciation et le développement cellulaire, la réponse au stress environnemental et l'immunité.L'épissage alternatif est étudié grâce au séquençage du transcriptome, dit de seconde ou de troisième génération. Les technologies de seconde génération, avec des lectures courtes (150 à 300 pb), offrent une excellente qualité de séquençage (taux d'erreur supérieur à 0,01 %). Cependant, la longueur limitée des lectures empêche le séquençage des transcrits en pleine longueur, entraînant une détermination ambiguë des combinaisons d'exons au sein des isoformes. À l'inverse, le séquençage de troisième génération propose des lectures longues couvrant la totalité de la longueur du transcrit (jusqu'à 30 kb), mais avec un taux d'erreur plus élevé (de 5 à 10 %) et une tendance à la troncation en début et en fin de lectures.Travailler avec des lectures longues est donc complexe et nécessite des outils et méthodes spécifiques. Depuis le début des années 2020, l'importance de l'épissage alternatif et le développement continu des technologies de séquençage à longue lecture ont conduit à une augmentation des publications d'outils d'identification des isoformes alternatifs. Ces outils proposent diverses approches pour identifier les isoformes d'épissage à l'échelle du génome, avec ou sans séquence de référence et avec ou sans annotation.Dans ce travail de thèse, nous contribuons à cet écosystème en créant le premier outil d'identification des isoformes alternatifs fonctionnant sans annotation à l'échelle du gène. RNA-Tailor est un outil versatile pour l'étude des événements d'épissage de novo, chez des espèces modèles ou non modèles, sans connaissance a priori autre qu'une séquence génomique de référence. Se focaliser sur un seul gène permet d'une part de lever les contraintes sur le temps de calcul et de gagner en précision. On peut alors utiliser des méthodes plus fines, utilisant moins d'heuristiques mais plus gourmandes en temps de calcul. Cela permet également de combiner des techniques plus précises et exigeantes en calcul, comme l'autocorrection des séquences de lectures, la correction fine des alignements par réalignement et de la correction autour des jonctions d'épissage. D'autre part, travailler à l'échelle du gène permet d'être moins synthétique et stricte. Nous pouvons nous autoriser la conservation de plus de signal dans les résultats.Ainsi, RNA-tailor est conçu pour être adapté à l'étude exploratoire des variants d'épissage avec un module complémentaire permettant d'examiner la dégradation des transcrits prédits (production d'un graphe d'inclusion, filtrage et correction des isoformes prédits selon divers critères). Cela permet, pour un gène donné, d'explorer les résultats de manière différente, sans s'attacher spécifiquement au fait d'être très sensible ou très précis.En plus de la méthode, nous présentons des résultats en comparaison des autres outils de l'état de l'art, mais aussi une analyse sur les différents étapes et outils mis en œuvre dans le pipeline de RNA-tailor.Pour cela, nous avons développé différents méthodes d'analyse pour comparer et positionner RNA-tailor par rapport aux autres outils, comme la création d'événements artificiels d'épissage pour étudier la capacité des outils à les retrouver, ou encore le taux de codons stop dans les exons internes des isoformes multi-exoniques, un indicateur permettant d'apprécier la qualité de prédiction des isoformes sans besoin d'annotation.

Résumé traduit

Alternative splicing is a process that regulates the internal structure of RNAs, contributing to the maturation of pre-mRNA into mature mRNA. This process, synchronized with transcription, allows the cell to produce different RNAs from the same gene. It is estimated that 95% of human genes undergo alternative splicing events, which are involved in critical cellular processes such as cell differentiation and development, environmental stress response, and immunity.Alternative splicing is studied through transcriptome sequencing, referred to as second or third-generation sequencing. Second-generation technologies, with short reads (150 to 300 bp) provide excellent sequencing quality (error rate greater than 0.01%). However, the limited read length prevents sequencing of full-length transcripts, leading to ambiguous determination of exon combinations within isoforms. In contrast, third-generation sequencing provides long reads covering the entire length of the transcript (up to 30 kb), but with a higher error rate (5 to 10%) and a tendency for truncation at the beginning and end of the reads.Working with long reads is therefore complex and requires specific tools and methods. Since the early 2020's, the importance of alternative splicing and the continuous development of long-read sequencing technologies have led to an increase in the publication of tools for alternative isoform identification. These tools offer a variety of approaches to identify splicing isoforms at the genome scale, with or without a reference sequence and with or without annotation.In this PhD work, we contribute to this ecosystem by developing the first tool for identifying alternative isoforms without annotation at the gene level. RNA-Tailor is a versatile tool for studying de novo splicing events in both model and non-model species, without any prior knowledge other than a reference genomic sequence. By focusing on a single gene, we can lift constraints on computation time and gain precision. We can then use more refined methods that use fewer heuristics but are more computationally intensive. This also allows for the combination of more precise and demanding computational techniques, such as sequence read self-correction, fine alignment correction through realignment, and correction around splice junctions. Moreover, working at the gene level allows for a less synthetic and stringent approach. We can afford to retain more signal in the results.Thus, RNA-Tailor is designed to be suitable for exploratory studies of splicing variants, with an additional module allowing to study the degradation of predicted transcripts (creation of an inclusion graph, filtering, and correction of predicted isoforms according to various criteria). This enables the exploration of results for a given gene in different ways, without specifically focusing on being highly sensitive or precise.In addition to the method, we present results in comparison to other state-of-the-art tools, as well as an analysis of the different steps and tools implemented in the RNA-Tailor pipeline. To this end, we have developed several analysis methods to compare and position RNA-Tailor relative to other tools, such as creating artificial splicing events to study the tools' ability to detect them, or analyzing the rate of stop codons in the internal exons of multi-exonic isoforms, an indicator that allows assessment of isoform prediction quality without the need for annotation.

  • Directeur(s) de thèse : Varré, Jean-Stéphane
  • Président de jury : Boulier, François
  • Membre(s) de jury : Lacroix, Vincent
  • Rapporteur(s) : Ouangraoua, Aïda - Laine, Élodie
  • Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
  • École doctorale : École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)

AUTEUR

  • Marchand, Lilian
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre