Titre original :

Deep learning for population genetics : inferring demography and targets of natural selection using convolutional neural networks

Titre traduit :

Apprentissage profond pour la génétique des populations : inférer la démographie et les cibles de sélection naturelle à l’aide de réseaux de neurones convolutifs

Mots-clés en français :
  • Génomique
  • Réseaux de neurones convolutifs
  • Apprentissage profond
  • Biodiversité
  • Science collaborative
  • Balayages sélectifs
  • Inférences démographiques

  • Génomique
  • Génétique des populations
  • Apprentissage profond
  • Diversité des espèces
  • Sélection naturelle
Mots-clés en anglais :
  • Genomics
  • Convolutionnal Neural Networks
  • Deep-Learning
  • Biodiversity
  • Collaborative science

  • Langue : Anglais
  • Discipline : Biologie de l'environnement, des organismes, des populations, écologie
  • Identifiant : 2024ULILR074
  • Type de thèse : Doctorat
  • Date de soutenance : 13/12/2024

Résumé en langue originale

L'inférence de l'histoire démographique et la détection de la sélection naturelle sont des défis majeurs en génétique des populations. Les méthodes traditionnelles, bien qu'efficaces, reposent sur des hypothèses souvent irréalistes, comme l'absence de sélection ou de changements démographiques simultanés. Or, dans de nombreuses populations naturelles, la sélection affecte la diversité génétique, rendant les inférences évolutives plus complexes. Cette interaction entre démographie et sélection constitue un obstacle important. Dans cette thèse, nous explorons l'utilisation des réseaux de neurones convolutifs (CNN), une technique d'apprentissage profond, pour surmonter les limitations des méthodes classiques. L'apprentissage profond a récemment trouvé des applications en génétique des populations grâce à la disponibilité croissante des données génomiques. Notre travail se concentre ici sur deux tâches : (1) classifier des données génomiques selon leur histoire démographique et (2) détecter et localiser les cibles de la sélection naturelle le long du génome. L'objectif n'est pas de développer un outil ‘prêt à l'emploi' mais de comprendre les choix nécessaires dans l'entraînement des CNN pour ces tâches, en mettant en lumière les défis et considérations spécifiques au développement de méthodes basées sur l'apprentissage profond pour la génétique des populations. Notre approche commence par la simulation de données pseudo-génomiques sous divers scénarios démographiques et de sélection, utilisées ensuite pour l'entraînement des réseaux. Les performances des CNN sont comparées à des méthodes déjà largement utilisées en génétique des populations, comme ABC-RF (Approximate Bayesian Computation Random Forest) pour la classification et SweepFinder2 pour la détection de la sélection. Nos résultats montrent que, pour la classification, les architectures CNN pré-entraînées et ‘fine-tuned' sur des alignements génomiques bruts surpassent généralement les autres approches, y compris les CNN travaillant à partir de statistiques résumées. Les CNN entraînés avec sur scénarios comportant un balayage sélectif présentent des performances similaires ou supérieures à ceux sans sélection, sans compromettre la qualité de l'entraînement. Malgré la précision supérieure des CNN, l'ABC-RF reste un outil précieux pour les applications les plus simples, en raison de son utilisation déjà répandue. Pour la détection des cibles de sélection, les CNN montrent une meilleure précision que SweepFinder2 dans divers scénarios démographiques, bien qu'ils produisent davantage de faux positifs. Un seuil de filtrage des prédictions est donc recommandé. À l'inverse, SweepFinder2 est plus conservateur, réduisant les faux positifs mais manque donc certains balayages identifiés par les CNN. En ce qui concerne la localisation des cibles de sélection, les CNN dépassent les performances de SweepFinder2 en termes de précision. En d'autre termes, notre étude met en évidence les forces complémentaires des CNN et de SweepFinder2. Les CNN sont particulièrement performants dans l'identification et la localisation des balayages, tandis que la prudence de SweepFinder2 peut être bénéfique dans certains contextes démographiques. Dans leur ensemble, nos résultats démontrent qu'un bon apprentissage peut permettre à des CNN de présenter des résultats équivalents voir meilleurs que ceux de méthodes déjà utilisées. De plus, ils suggèrent qu'une approche hybride, combinant plusieurs méthodes, pourrait améliorer la précision et la fiabilité des inférences démographiques et de la détection de la sélection en génétique des populations.

Résumé traduit

Inferring demographic history and detecting natural selection are major challenges in population genetics. Traditional methods, while effective, often rely on unrealistic assumptions, such as the absence of selection or simultaneous demographic changes. However, in many natural populations, selection affects genetic diversity, making evolutionary inferences more complex. This interaction between demography and selection is a significant obstacle. In this thesis, we explore the use of convolutional neural networks (CNNs), a deep learning technique, to overcome the limitations of traditional methods. Deep learning has recently found applications in population genetics due to the growing availability of genomic data. Our work focuses on two main tasks: (1) classification of genomic data based on demographic history, and (2) detecting and locating targets of natural selection along the genome. The aim is not to develop a ready-to-use tool but to understand the necessary choices for training CNNs on these tasks, highlighting the challenges and considerations specific to developing deep learning-based methods for population genetics. Our approach begins with simulating pseudo-genomic data under various demographic and selection scenarios, which is then used to train the networks. The performance of CNNs is compared to well-established methods in population genetics, such as Approximate Bayesian Computation Random Forest (ABC-RF) for classification and SweepFinder2 for detecting selection. Our results show that, for classification, CNN pre-trained architectures fine-tuned on raw genomic alignments generally outperform other approaches, including CNNs based on summary statistics. CNNs trained on scenarios incorporating selective sweeps achieve performance that is similar or superior to those trained without selection, without compromising training quality. Despite the higher accuracy of CNNs, ABC-RF remains valuable for simpler applications due to its widespread use. For detecting selection targets, CNNs demonstrate better accuracy than SweepFinder2 across various demographic scenarios, although they tend to produce more false positives. Therefore, applying a prediction filtering threshold is recommended. In contrast, SweepFinder2 is more conservative, reducing false positives but missing some sweeps identified by CNNs. When it comes to localizing selection targets, CNNs surpass SweepFinder2 in terms of precision. In other words, our study highlights the complementary strengths of CNNs and SweepFinder2. CNNs are particularly effective at identifying and locating sweeps, while SweepFinder2's cautious approach can be beneficial in certain demographic contexts. Overall, our findings demonstrate that with proper training, CNNs can achieve results comparable to or better than those of existing methods. Furthermore, they suggest that a hybrid approach, combining multiple methods, could improve the accuracy and reliability of demographic inferences and selection detection in population genetics.

  • Directeur(s) de thèse : Vekemans, Xavier - Roux, Camille
  • Président de jury : Austerlitz, Frédéric
  • Membre(s) de jury : Jay, Flora - Leblois, Raphaël
  • Rapporteur(s) : Austerlitz, Frédéric - Sokolovska, Nataliya
  • Laboratoire : Evolution, Ecologie et Paléontologie (Evo-Eco-Paléo)
  • École doctorale : École doctorale Sciences de la matière, du rayonnement et de l'environnement (Lille ; 1992-....)

AUTEUR

  • Lan-Fong, Guillaume
Droits d'auteur : Ce document est protégé en vertu du Code de la Propriété Intellectuelle.
Accès libre