Imprimer |
Des lectures aux transcrits : méthodes de novo pour l'analyse du séquençage des transcriptomes de deuxième et troisième génération (From reads to transcripts : de novo methods for the analysis of transcriptome second and third generation sequencing) Marchet, Camille - (2018-09-28) / Universite de Rennes 1, Rennes 1 - Des lectures aux transcrits : méthodes de novo pour l'analyse du séquençage des transcriptomes de deuxième et troisième génération
| |||
Langue : Anglais Directeur(s) de thèse: Peterlongo, Pierre Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : transcriptomique, Troisième génération de séquençage, mRNA, Bioinformatique, Algorithmes
| |||
Résumé : Le but de ce travail de thèse est de permettre le traitement de données issues du séquençage de transcriptomes, c'est-à-dire les séquences d'ARN messager, qui reflètent l’expression des gènes. Plus précisément, il s’agit mettre à profit les caractéristiques des données produites par les nouvelles technologies de séquençage, dites de troisième génération (TGS). Ces technologies produisent des séquences de grande taille, qui peuvent couvrir la longueur totale des molécules d'ARN. Ceci présente l’avantage d’éviter la phase d’assemblage des séquences, une étape source de difficultés et d'erreurs mais nécessaire avec les données générées par les précédentes technologies de séquençage appelées NGS. En revanche, les données TGS sont bruitées (jusqu’à 15% d’erreurs de séquençage), nécessitant le développement de nouveaux algorithmes pour analyser ces données. Les travaux de cette thèse ont essentiellement consisté au développement méthodologique et à l’implémentation de nouveaux algorithmes permettant le regroupement des séquences TGS par gène, puis à leur correction et enfin à la détection des différents isoformes de chaque gène. Abstract : The purpose of this thesis work is to allow the processing of transcriptome sequencing data, i.e. messenger RNA sequences, which reflect gene expression. More precisely, it is a question of taking advantage of the characteristics of the data produced by the new sequencing technologies, known as third generation (TGS). These technologies produce large sequences, which cover the total length of RNA molecules. This has the advantage of avoiding the sequence assembly phase, which was tricky, though necessary with the data generated by previous sequencing technologies called NGS. On the other hand, TGS data are noisy (up to 15% sequencing errors), requiring the development of new algorithms to analyze this data. The core work of this thesis consisted in the methodological development and implementation of new algorithms allowing the grouping of TGS sequences by gene, then their correction and finally the detection of the different isoforms of each gene. |