Titre original :

Méthodes informatiques pour la reconnaissance des protéines : application à la prédiction de la O-GlcNAcylation et aux interactions du SARS-CoV-2

Titre traduit :

Computational methods for protein recognition : application to O-GlcNAcylation prediction and SARS-CoV-2 interactions

Mots-clés en français :
  • O-GlcNAcylation

  • Interactions protéine-protéine
  • Protéines -- Modifications posttraductionnelles
  • Bioinformatique
  • Simulation de docking moléculaire
  • Dynamique moléculaire
  • SARS-CoV-2 (virus)
  • Protéines virales
  • Covid-19
Mots-clés en anglais :
  • Protein-Protein interactionsmodeling
  • O-GlcNAcylation
  • Prediciton
  • Modeling
  • Covid-19
  • Critical assessment of prediction of interactions (CAPRI)

  • Langue : Anglais
  • Discipline : Aspects moléculaires et cellulaires de la biologie
  • Identifiant : 2022ULILS108
  • Type de thèse : Doctorat
  • Date de soutenance : 16/12/2022

Résumé en langue originale

Les interactions entre les protéines sont l'une des bases du développement de la vie. Leur identification et compréhension sont toujours des éléments majeurs de la recherche fondamentale et appliquée. Dans cette optique, on s'intéresse aux modifications post-traductionnelles des protéines qui ont la capacité d'altérer leur efficacité et leur durée de vie. Les interactions spécifiques entre protéines sont désormais étudiées au niveau atomique grâce au développement des méthodes expérimentales pour résoudre des structures de complexes protéiques. Cependant, ces méthodes ne permettent toujours pas d'obtenir les résultats escomptés et leur coût, que ce soit financier ou en termes de temps, peut empêcher la compréhension de certains phénomènes, notamment lors d'émergence de crise sanitaire comme le COVID-19. C'est pourquoi, en parallèle, des méthodes informatiques telles que l'amarrage moléculaire ou la dynamique moléculaire ont été développées. Cette thèse se situe dans ces deux contextes: dans un premier temps, la prédiction de sites de O-GlcNAcylation, une modification post-traductionnelle, catalysée par une seule enzyme appelée OGT, très étudiée qui est impliquée dans différentes maladies telles que le cancer, la maladie d'Alzheimer et le diabète de type 2. Dans un second temps, et ceci dans le contexte du COVID-19, des interactions entre les protéines humaines et virales ont été mises en avant mais avec la montée rapide de cas d'infection et les méthodes expérimentales étant trop longues, une expérimentation mondiale appelée CAPRI a proposé plusieurs des ces interactions aux modélisateurs du monde entier.La prédiction de sites de O-GlcNAcylation n'est pas une recherche récente car des outils proposent déjà cette possibilité. Afin de les comparer, une base de données a été créée pour les différencier. Comme les différents logiciels montraient un trop grand nombre de faux positifs, une amélioration basée sur cette plus grande base de données mais aussi sur des caractéristiques structurelles a été proposée. Malgré cela, les résultats montrent une trop grande hétérogénéité pour permettre une prédiction sûre. Des résultats supplémentaires appuient la théorie du besoin de protéines auxiliaires pour permettre à l'enzyme la reconnaissance de son substrat. Afin de mieux comprendre les mécanismes de cette modification, l'interaction entre la beta-caténine et l'OGT a été étudiée spécifiquement. En effet, cette interaction a été montrée comme étant impliquée dans le cancer colorectal et révèle donc un intérêt particulier.Pour établir la véracité des modèles proposés pour les interactions entre les protéines du SARS-CoV-2 et de l'humain, une méthode basée sur le consensus de tous les modèles produits a été développée. Au vu des premiers résultats, cette méthode semblait performante. C'est pourquoi sa capacité de prédiction a été testée sur une nouvelle grande base de données, fournie par CAPRI. Une fois encore, la méthode développée a montré de bons résultats. Elle a ensuite été comparée aux logiciels de scoring actuels et montre ici de meilleurs résultats. Hélas, cette méthode montre que les modèles d'interaction entre les protéines virales et humaines ne sont pas aussi fiables que souhaités.

Résumé traduit

Interactions between proteins are one of the foundations of the development of life and their identification and understanding are still major elements of fundamental and applied research. In this context, the focus is on post-translational modifications of proteins that can alter their efficiency and lifetime. In addition, specific interactions between proteins can now be studied at the atomic level thanks to the development of experimental methods for solving the structures of protein complexes. However, these methods still do not always provide the expected results and their cost, whether financial or in terms of time, may prevent the understanding of certain phenomena, particularly during the emergence of a health crisis such as COVID-19. This is why, in parallel, computational methods such as molecular docking or molecular dynamics have been developed. This thesis is situated in these two contexts: firstly, the prediction of O-GlcNAcylation sites, a post-translational modification, catalyzed by a single enzyme called OGT, which has been extensively studied and implicated in different diseases such as cancer, Alzheimer's disease and type 2 diabetes. Secondly, in the context of COVID-19, interactions between human and viral proteins were highlighted through a world-wide study, in which the CAPRI protein docking experiment proposed several of these interactions to expert modelers of protein complexes in order to better understand the mechanisms of COVID-19.The prediction of O-GlcNAcylation sites is not a new research field, as some tools for this type of prediction already exist. We have created a new data set, in order to compare and differentiate these. As the different algorithms consistently showed too many false positives, we developed an improvement based on a larger dataset but also on structural characteristics. However, the results still show too much heterogeneity to allow a safe prediction. Additional results support the theory that chaperone proteins are required for the enzyme to recognise its substrate. In order to better understand the mechanisms of this modification, the interaction between beta-catenin and OGT was specifically studied. This interaction has been shown to be involved in colorectal cancer and is therefore of particular interest.To establish the veracity of the proposed models for the interactions between the human and SARS-CoV-2 proteins, a method based on the consensus of all the models produced was developed. Initial test results showed this method to be effective. We therefore tested its predictive capacity on a new and larger dataset provided by CAPRI. Once again, the developed method showed good results. It was then compared with pre-existing scoring algorithms on a similar benchmark and demonstrated improved results. The method also showed that the interaction models between viral and human proteins are not as reliable as desired.

  • Directeur(s) de thèse : Lensink, Marc
  • Président de jury : Biot, Christophe
  • Membre(s) de jury : Smet-Nocca, Caroline - Olivier, Stéphanie - Lefebvre, Tony
  • Rapporteur(s) : Guerois, Raphaël - Sacquin-Mora, Sophie
  • Laboratoire : Unité de glycobiologie structurale et fondamentale (UGSF)
  • École doctorale : École doctorale Biologie-Santé (Lille)

AUTEUR

  • Mauri, Théo
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre