Imprimer |
Approche génomique de la détection des barrières au flux de gènes (Genomic Approach to Detecting Barriers to Gene Flow) Burban, Ewen - (2024-03-29) / Université de Rennes - Approche génomique de la détection des barrières au flux de gènes
| |||
Langue : Anglais Directeur(s) de thèse: Glémin, Sylvain; Tenaillon, Maud Discipline : Écologie, évolution Laboratoire : Ecobio Ecole Doctorale : EGAAL Classification : Sciences de la vie, biologie, biochimie Mots-clés : spéciation, barrières au flux de gènes, ABC, machine learning
| |||
Résumé : La caractérisation des mécanismes qui sous-tendent l'isolement reproductif entre des lignées divergentes est essentielle pour comprendre le processus de spéciation. Au cours de leur évolution, les populations développent progressivement un isolement reproductif (IR) en passant par des étapes intermédiaires, souvent appelées "zone grise de la spéciation". L'établissement de l'IR se manifeste par l'apparition de régions génomiques qui agissent comme des barrières réduisant le flux de gènes local par rapport au reste du génome. Les approches de génomique des populations impliquent donc l'identification de locus avec des signatures spécifiques, différentes du reste du génome. Cependant, d'autres processus peuvent créer des signatures similaires, ce qui fait de la détection des barrières une tâche difficile. Dans ma thèse, j'ai développé un nouvel outil, RIDGE - Reproductive Isolation Detection using Genomic Polymorphisms – un nouvel outil libre et portable adapté en particulier aux approches comparatives. RIDGE utilise une approche ABC (Approximate Bayesian Computation) et de “model averaging” basée sur des “random forest” pour prendre en compte divers scénarios de divergence entre lignées. Il prend en compte l'hétérogénéité du taux de migration, de la sélection en liaison et de la recombinaison le long du génome, estimant la proportion de barrières et effectuant des tests par locus pour détecter les barrières au flux génique. Des simulations et des analyses de jeux de données publiés sur des paires d'espèces de corbeaux indiquent que RIDGE est efficace pour détecter la migration en cours et identifier les locus barrières, même pour des temps de divergence récents. De plus, la contribution des statistiques résumées varie en fonction du jeux de données, ce qui met en évidence la complexité des signaux génomiques des barrières et l’intérêt de combiner plusieurs statistiques résumées. Par la suite, j'ai appliqué RIDGE à des paires de populations sauvages/domestiques : le maïs (allogame) et le millet (autogame), les deux ayant été domestiquées il y a environ 9 000 ans. Des flux de gènes entre les formes ont été documentés dans ces deux systèmes. Les modèles avec migration continue au cours du temps et hétérogène le long du génome sont clairement ressortis comme dominants. RIDGE a également démontré sa capacité à distinguer les locus barrière des locus de domestication (qui ont subi des balayages sélectifs au sein des formes domestiques). Les perspectives de ce travail comprennent l'application de RIDGE à de multiples paires population/espèce englobant un large spectre de divergence afin de déterminer les bases génomiques de l’IR au cours de la spéciation, de tester la théorie de «l’effet boule de neige” formulée par Orr en 1995 ou de déterminer la nature des gènes de spéciation. Abstract : Characterizing the mechanisms that underlie reproductive isolation between diverging lineages is central in understanding the speciation process. As populations evolve, they gradually develop reproductive isolation (RI) by passing through intermediate steps, often referred to as the "gray zone of speciation". This isolation is marked by the emergence of genomic regions acting as barriers to local gene flow, distinct from the rest of the genome. Detecting these barrier loci involves identifying outlier loci with specific signatures. However, other processes can create similar patterns, which challenges barrier loci detection. In my thesis, I developed a new tool, RIDGE - Reproductive Isolation Detection using Genomic Polymorphisms, a novel free and portable tool tailored for this purpose in a comparative framework. RIDGE utilizes an Approximate Bayesian Computation model-averaging approach based on a random forest to accommodate diverse scenarios of lineage divergence. It considers heterogeneity in migration rate, linked selection, and recombination, estimates barrier proportion and conducts locus-scale tests for gene flow barriers. Simulations and analyses of published datasets in crow species pairs demonstrate RIDGE's efficacy in detecting ongoing migration and identifying barrier loci, even for recent divergence times. Furthermore, the contribution of summary statistics varies depending on the dataset, highlighting the complexity of gene flow barrier genomic signals and the interest of combining several statistics. Subsequently, I applied RIDGE to wild/domestic pairs in maize (an outcrosser), and foxtail millet (a selfer), both domesticated around 9,000 years ago. Gene flow between forms has been reported in these two systems. Consistently, models with ongoing migration and heterogeneity in migration rate were clearly dominant over other models. RIDGE also demonstrated its ability to distinguish between barrier loci and domestication loci (that experienced selective sweeps within the domestic forms). The perspectives of this work include applying RIDGE to multiple population/species pairs encompassing a large spectrum of divergence to determine the genomic pattern of RI during speciation, to test the snowball theory formulated by Orr in 1995 or to determine the nature of speciation genes. |