Identification and quantification of microbial strains in metagenomic samples using variation graphs (Identification et quantification de souches microbiennes dans des échantillons métagénomiques par utilisation de graphes de variations) Da Silva, Kévin - (2022-03-08) / Universite de Rennes 1 Identification and quantification of microbial strains in metagenomic samples using variation graphs
| |||
Langue : Anglais Directeur(s) de thèse: Peterlongo, Pierre Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : Métagénomique, Graphes de variations, Souche, Algorithme
| |||
Résumé : Les études actuelles se tournent vers l'utilisation de graphes au lieu de références linéaires afin de représenter plusieurs génomes. En parallèle, calculer les abondances des souches dans des échantillons métagénomiques suscite un intérêt croissant. Cela permettrait de mettre en évidence de nouvelles associations entre souches et phénotypes ouvrant des avancées pour le diagnostique et thérapeutiques. Nous avons développé StrainFLAIR, démontrant l'utilisation de graphes de variations dans ce contexte en indexant des séquences génomiques similaires telles que retrouvées entre souches d'une même espèce, et nous proposons de nouvelles solutions algorithmiques afin d'identifier et quantifier les souches à partir d'un ensemble de génomes séquencés en requêtant le graphe. Nous avons validé notre approche sur des données simulées constituées d'un mélange de souches d'une seule espèce. Les résultats montrent que StrainFLAIR a pu identifier les souches présentes dans l'échantillon parmi les références utilisées, détecter la présence de nouvelles souches proches de ces références, et estimer les abondances de ces souches. Nous avons également validé notre approche sur un mock composé de plusieurs espèces et souches. Les résultats montrent à nouveau que StrainFLAIR a pu profiler correctement l'échantillon même dans une configuration plus complexe. Abstract : Current studies are shifting from the use of single linear references to graph structures in order to represent multiple genomes. In parallel, resolving strain-level abundances within metagenomic samples is of growing interest for microbiome studies, as it would highlight new associations between strain variants and phenotypes that suggest major steps for diagnostic and therapeutic purposes. We developed StrainFLAIR that shows the use of variation graphs in this context by indexing highly similar genomic sequences as found with strains of a species, and we propose novel algorithmic solutions to identify and quantify strains in a set of sequenced genomes by querying this graph. We validated our approach first on simulated datasets which focused on a mixture of strains from a single species. The results show that StrainFLAIR was able to identify the present strains among the existing references, to detect new strains close to the existing references, and to estimate their relative abundances. We also validated \tool on a mock composed of several species and strains. The results show again StrainFLAIR's ability to profile correctly the sample even in this more complex configuration. |