Caractérisation et détection d'insertions constitutionnelles de grande taille dans le cadre d'un usage médical (Characterization and detection of large constitutional insertions for medical use) Delage, Wesley - (2020-12-11) / Universite de Rennes 1 - Caractérisation et détection d'insertions constitutionnelles de grande taille dans le cadre d'un usage médical
| |||
Langue : Français Directeur(s) de thèse: Lemaitre, Claire; Thevenon, Julien Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : Bioinformatique, séquençage de génome, détection d'insertions génomiques
| |||
Résumé : La détection de variations génétiques est un enjeu majeur dans le diagnostic des maladies génétiques chez l’homme. Certains types de variations sont détectés dans la routine d'analyse. D'autres, comme les variations de structure de type insertion sont bien plus complexes à identifier. Le développement de nouvelles technologies de séquençage dites longs reads permet de faciliter la détection de ces insertions. Elles ont notamment permis la génération d’ensembles de variants de référence d’une qualité sans précédent. Néanmoins, cette technologie possède encore des faiblesses qui ne permettent pas son utilisation pour la détection de variants dans un usage clinique. Il est donc essentiel d’améliorer les outils de détection basés sur les technologies de séquençage de courtes lectures utilisées dans un contexte médical. Cette thèse présente la caractérisation des différentes insertions et des facteurs limitant leur détection, basée sur ces jeux de données de référence de haute qualité. L’utilisation de simulations d'insertions a permis de quantifier l’impact de ces facteurs et mis en lumière la faiblesse des outils actuels à détecter et assembler la séquence des insertions. Ces résultats ont permis de proposer des pistes d'améliorations des outils de détection d’insertions. Plusieurs améliorations ont ainsi été implémentées dans l'outil existant MindTheGap et ont permis de surpasser certaines de ses limites. Abstract : The detection of genetic variations is a major challenge in the diagnosis of human genetic diseases. Some types of variations are detected in the analysis routine. Others, such as insertion-type structural variations, are much more complex to identify. The development of new sequencing technologies known as long reads facilitates the detection of these insertions. In particular, they have made it possible to generate reference callsets with an unprecedented quality. Nevertheless, this technology still has weaknesses that make it impossible to use it for the variant calling in clinical use. It is therefore essential to improve detection tools based on short read sequencing technologies used in a medical context. This thesis presents the characterization the different insertions and the factors limiting their detection, based on these high quality reference callsets. The use of insertion simulations has allowed to quantify the impact of these factors and highlighted the weakness of current tools to detect and assemble the sequences of insertions. These results have allowed to propose ways to improve insertion detection tools. Several improvements have been implemented in the existing MindTheGap tool and have overcome some of its limitations. |