Identification of strains of a bacterial species from long reads

Imprimer

Identification of strains of a bacterial species from long reads
(Identification de souches d’une espèce bactérienne à partir de longues lectures)

Siekaniec, Grégoire - (2021-12-10) / Universite de Rennes 1
Identification of strains of a bacterial species from long reads

Accéder au document :

https://ged.univ-rennes1.fr/nuxeo/site/esupversion...

Langue : Anglais

Directeur(s) de thèse: Nicolas, Jacques; Guédon, Éric

Discipline : Informatique

Laboratoire : IRISA

Ecole Doctorale : MATHSTIC

Classification : Informatique

Mots-clés : Bioinformatique, Identification de souches bactériennes, Streptococcus thermophilus, lecture longue, indexation, graine espacée

Bioinformatique
Streptococcus thermophilus

Résumé : Actuellement, l'identification à partir de séquences génomiques de souches d'une espèce bactérienne présentes dans un échantillon reste un processus complexe et chronophage. Cette difficulté provient de la grande similarité génomique entre ces souches. Cependant, pouvoir les différencier rapidement est crucial dans de nombreux domaines, que ce soit en agroalimentaire (comme Streptococcus thermophilus) ou en santé publique. Récemment, la troisième génération de technologies de séquençage, et plus particulièrement les séquenceurs d'Oxford Nanopore Technologies, permettent d'obtenir des séquences longues mais erronées à partir d'échantillons contenant des souches bactériennes. Ces lectures contiennent plus d'informations que les anciennes lectures courtes de seconde génération. Or, actuellement, il existe encore assez peu de logiciels bioinformatiques développés pour identifier les souches bactériennes à partir de longues lectures erronées. Cette thèse propose donc une nouvelle méthode d'identification de souches bactériennes basée sur l'hypothèse qu'une lecture nanopore est suffisamment longue pour permettre de distinguer une souche (ou un groupe de souches) des autres. Cette méthode utilise une technique d'indexation particulièrement compacte d'une base de données de génomes connus. Elle repose également sur l'utilisation d'une graine espacée afin de rechercher les séquences dans l'index en étant moins sensible aux erreurs des lectures longues. La méthode est implémentée dans un logiciel appelé ORI (Oxford nanopore Reads Identification) qui a montré des résultats robuste d'identification bactérienne sur des données réelles de Streptococcus thermophilus.

Abstract : Currently, the identification from genomic sequences of strains of a bacterial species present in a sample remains a complex and time consuming process. This difficulty comes from the genomic similarity between these strains. However, being able to differentiate them quickly is crucial in many fields, whether in agri-food (such as Streptococcus thermophilus) or in public health. Recently, the third generation of sequencing technologies, and more specifically the Oxford Nanopore Technologies sequencers, make it possible to obtain long but erroneous sequences from samples containing bacterial strains. These reads contain more information than the short reads from the second generation. However, currently, there are still few bioinformatics softwares developed to identify bacterial strains from erroneous long reads. This thesis therefore proposes a new method of bacterial strain identification based on the assumption that a nanopore read is long enough to distinguish one strain (or group of strains) from others. This method uses a particularly compact indexing technique of a known genome database. It also relies on the use of a spaced seed in order to search for sequences in the index while being less sensitive to long reads errors. The method is implemented in a software called ORI (Oxford nanopore Reads Identification) which has shown robust bacterial identification results on real data of Streptococcus thermophilus.