Pépite | Algorithmique pour l’annotation automatique de peptides non ribosomiques

Imprimer Version XML Ajouter à mon panier

Titre original :

Algorithmique pour l’annotation automatique de peptides non ribosomiques

Titre traduit :

Algorithms for automatic annotation of non ribosomal peptides

Mots-clés en français :

Annotation de polymères

Bioinformatique
Algorithmes
Peptides non-ribosomiques
Peptides non-ribosomiques
Théorie des graphes

Informations générales

Langue : Français
Discipline : Informatique
Identifiant : 2016LIL10147
Type de thèse : Doctorat
Date de soutenance : 01/12/2016

Résumé en langue originale

La composition monomérique de polymères joue un rôle essentiel dans la comparaison de structures et dans la biologie de synthèse. Cependant, la plupart des ressources moléculaires en ligne donne accès à la structure atomique des molécules et non à leur structure monomérique. Nous avons donc créé un logiciel appelé smiles2monomers (s2m) pour inférer la structure monomérique passer des atomes aux monomères. L’algorithme sous-jacent se déroule en deux phases : une phase de recherche par isomorphisme de sous graphe des monomères au sein de la structure atomique puis une recherche du meilleur pavage non chevauchant des monomères trouvés. La recherche est basée sur un index markovien améliorant les vitesses de recherche de 30% par rapport à l’état de l’art. Le pavage est lui constitué d’un algorithme glouton couplé à un raffinement par “branch & cut”. s2m a été testé sur deux jeux de données déjà annotés. Il retrouve les annotations manuelles avec une excellente sensibilité en des temps très courts. Notre équipe développe Norine, base de données de référence de polymères particuliers appelés Peptides Non Ribosomiques (NRP). s2m, exécuté sur l’ensemble des données de Norine, a mis à jour de nombreuses annotations erronées en base. s2m est donc à la fois capable de créer de nouvelles annotations et d’en corriger des anciennes. Les nouvelles annotations nous servent à la fois à découvrir de nouveaux NRP, de nouvelles fonctionnalités NRP et potentiellement dans le futur à synthétiser des NRP non naturels.

Résumé traduit

The monomeric composition of polymers is powerful for structure comparison and synthetic biology, among others. However, most of the online molecular resources only provide atomic structures but not monomeric structures. So, we designed a software called smiles2monomers (s2m) to infer monomeric structures from chemical ones. The underlying algorithm is composed of two steps: a search of the monomers using a subgraph isomorphism algorithm fitted to our data and a tiling algorithm to obtain the best coverage of the polymer by non-overlapping monomers. The search is based on a Markovian index improving the execution time by 30% compared to the state of art. The tiling is performed using a greedy algorithm refined by a “branch & cut” algorithm. s2m had been tested on two different already annotated datasets. The software reconstructed the manual annotations with an excellent sensibility in a very short time. Norine database, the reference knowledge base about specific polymers called Non Ri bosomal Peptides (NRP), is developed by our research group. s2m, executed on the Norine database, alerted us about wrong manual annotations. So, s2m not only creates new annotations, but also facilitates the process of annotation curation. The new annotations generated by the software are currently used for the discovery of new NRP, new activities and may be used to create completely new and artificial NRP.

Informations sur les contributeurs

Directeur(s) de thèse : Pupin, Maude - Noé, Laurent
Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
École doctorale : École doctorale Sciences pour l'ingénieur (Lille ; 1992-2021)

AUTEUR

Dufresne, Yoann

Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.

Accès libre

Accéder au document