Identification, génotypage et représentation des variants de structure dans les pangénomes (Identification, genotyping and representation of structural variants in pangenomes) Romain, Sandra - (2024-11-08) / Université de Rennes - Identification, génotypage et représentation des variants de structure dans les pangénomes
| |||
Langue : Anglais Directeur(s) de thèse: Lemaitre, Claire Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATISSE Classification : Informatique Mots-clés : variants structuraux, inversions, génotypage, identification d’inversions, graphes de variation, graphes de pangénomes
| |||
Résumé : Les variants structuraux (SVs), des variations génomiques de plus de 50 pb, contribuent de manière significative à la diversité génétique et à l'évolution des espèces. La détection et le génotypage précis des SVs est crucial pour comprendre leur rôle dans la variation phénotypique et l'adaptation. Les graphes de variation (VGs) et graphes de pangénomes (PGs), qui représentent les variations génomiques comme des chemins alternatifs dans un graphe, offrent une approche prometteuse pour l'analyse des SVs. Cette thèse explore l'utilisation des VGs et PGs pour la détection et le génotypage des SVs, en se concentrant sur un complexe de quatre espèces de papillons Coenonympha alpins. Deux outils bio-informatiques ont été développés au cours de cette thèse : (1) SVJedi-graph, le premier génotypeur de SVs à partir de lectures longues utilisant un VG pour représenter les SVs, fournissant une précision de génotypage supérieure aux outils de l’état de l’art, en particulier pour les SVs proches et chevauchants, et (2) INVPG-annot, un outil d’identification des inversions dans les PGs, qui a permi de démontrer que les inversions sont représentées par différentes topologies dans les PGs selon l’outil de construction utilisé. L'analyse comparative des génomes des papillons Coenonympha a permis d'identifier douze grandes inversions (≥ 100 kbp) entre les quatre espèces, dont certaines pourraient jouer un rôle dans l'isolement reproductif et l'adaptation locale de deux de ces espèces. Bien que l'approche basée sur les PGs présente des avantages pour la comparaison de génomes, des défis restent à relever pour l'analyse des grands variants comme les inversions. Abstract : Structural variants (SVs), genomic variations of more than 50 bp, contribute significantly to genetic diversity and species evolution. Accurate detection and genotyping SVs is crucial to understanding their role in phenotypic variation and adaptation. Variation graphs (VGs) and pangenome graphs (PGs), which represent genomic variations as alternative paths in a graph, offer a promising approach for the analysis of SVs. This thesis explores the use of VGs and PGs for the detection and genotyping of SVs, focusing on a complex of four species of alpine Coenonympha butterflies. Two bioinformatics tools were developed during this thesis: (1) SVJedi-graph, the first long-read SV genotyper using a VG to represent SVs, providing a genotyping accuracy superior to state-of-the-art tools, particularly for close and overlapping SVs, and (2) INVPG-annot, a tool for identifying inversions in PGs, which demonstrated that inversions are represented by different topologies in PGs depending on the construction tool used. Comparative analysis of the Coenonympha butterfly genomes identified twelve large inversions (≥ 100 kbp) between the four species, some of which could play a role in the reproductive isolation and local adaptation of two of these species. While the PG-based approach offers advantages for genome comparison, challenges remain for the analysis of large variants such as inversions. |