Comparison of homologous protein sequences using direct coupling information by pairwise Potts model alignments (Comparaison de protéines homologues avec dépendances entre positions par alignement de modèles de Potts) Talibart, Hugo - (2021-02-24) / Universite de Rennes 1 Comparison of homologous protein sequences using direct coupling information by pairwise Potts model alignments
| |||
Langue : Anglais Directeur(s) de thèse: Nicolas, Jacques; Coste, François Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : protéines, homologie, modèle de Potts, Direct Coupling Analysis, alignement de séquences, coévolution
| |||
Résumé : Pour attribuer des annotations de structure et de fonction au nombre toujours croissant de protéines séquencées, la principale approche consiste à utiliser des méthodes de recherche d'homologues basées sur des alignements significatifs de séquences à des protéines ou familles de protéines déjà annotées. Bien que les méthodes existantes soient performantes, elles ne prennent pas en compte la co-évolution entre les résidus. Dans cette thèse, nous proposons de tirer parti d'avancées récentes dans le domaine de la prédiction de contact en représentant les protéines par des modèles de Potts, qui modélisent les couplages directs entre les positions en plus de la composition positionnelle, et de comparer les protéines en alignant ces modèles. Cette nouvelle utilisation des modèles de Potts nous a amenés à identifier de nouveaux critères pour leur construction dans un idéal de canonicité. Dû aux dépendances distantes, le problème d'alignement de deux modèles de Potts est NP-difficile. Nous avons introduit ici une méthode basée sur la formulation de l'alignement comme un problème de programmation linéaire en nombres entiers, dont la solution exacte peut être trouvée en temps raisonnable. Nos résultats suggèrent que prendre en compte les couplages directs permet d'améliorer la qualité de l'alignement d'homologues plus lointains et pourrait ainsi améliorer la détection d'homologie lointaine. Abstract : To assign structural and functional annotations to the ever increasing amount of sequenced proteins, the main approach relies on sequence-based homology search methods based on significant alignments of query sequences to annotated proteins or protein families. While powerful, existing approaches do not take coevolution between residues into account. Taking advantage of recent advances in the field of contact prediction, in this thesis we propose to represent proteins by Potts models, which model direct couplings between positions in addition to positional composition, and to compare proteins by aligning these models. This novel application of Potts models raised further requirements for their construction, and we identified several key points towards building more comparable Potts models, towards an ideal of canonicity. Due to non-local dependencies, the problem of aligning Potts models is NP-hard. Here, we introduced a method based on an Integer Linear Programming formulation of the problem which can be optimally solved in tractable time. Our first results suggest that taking pairwise couplings into account can improve the alignment of remote homologs and could thus improve remote homology detection. |