Probabilistic and constraint based modelling to determine regulation events from heterogeneous biological data (Modélisation probabiliste ou à base de contraintes pour déterminer des régulations à partir de données biologiques hétérogènes) Aravena Duarte, Andrés Octavio - (2013-12-13) / Universite de Rennes 1, Université du Chili (Santiago) Probabilistic and constraint based modelling to determine regulation events from heterogeneous biological data
| |||
Langue : Anglais Directeur(s) de thèse: Siegel, Anne; Maass, Alejandro Discipline : Informatique Classification : Informatique, Sciences de la vie, biologie, biochimie Mots-clés : Bioinformatique, Biologie des systèmes, Réseau de régulations génétiques, Modélisation, Reconstruction de réseau
| |||
Résumé : Cette thèse propose une méthode pour construire des réseaux de régulations causales réalistes, qui a un taux de faux positifs inférieur aux méthodes traditionnelles. Cette approche consiste à intégrer des informations hétérogènes à partir de deux types de prédictions de réseau pour déterminer une explication causale des gènes co-exprimés. Ce processus d'intégration se modélise par un problème d'optimisation combinatoire, de complexité NP-difficile. Nous proposons une approche heuristique pour déterminer une solution approchée en un temps d'exécution raisonnable. Nos expérimentations montrent que, pour l'espèce modèle E. coli, le réseau de régulation résultant de l'application de cette méthode a une précision supérieure à celle construite avec des outils traditionnels. La bactérie Acidithiobacillus ferrooxidans présente des défis importants pour la détermination expérimentale de son réseau de régulation. En utilisant les outils que nous avons développés, nous proposons un réseau de régulation putatif et analysons la pertinence de ses régulateurs centraux. Dans une deuxième partie de cette thèse, nous explorons la façon dont ces relations de régulation se manifestent, en développant une méthode pour compléter un réseau de régulation lié à la maladie d'Alzheimer. Enfin, nous abordons le problème mathématique de la conception de la sonde de puces à ADN. Nous concluons que, pour prévoir pleinement les dynamiques d'hybridation, nous avons besoin d'une fonction d'énergie modifiée pour les structures secondaires des molécules d'ADN attachées en surface et proposons un schéma pour la détermination de cette fonction. Abstract : This thesis proposes a method to build realistic causal regulatory networks hat has lower false positive rate than traditional methods. The first contribution of this thesis is to integrate heterogeneous information from two types of network predictions to determine a causal explanation of the observed gene co-expression. The second contribution is to model this integration as a combinatorial optimization problem. We demonstrate that this problem belongs to the NP-hard complexity class. The third contribution is the proposition of a heuristic approach to have an approximate solution in a practical execution time. Our evaluation shows that the E.coli regulatory network resulting from the application of this method has a higher accuracy than the putative one built with traditional tools. The bacterium Acidithiobacillus ferrooxidans is particularly challenging for the experimental determination of its regulatory network. Using the tools we developed, we propose a putative regulatory network and analyze it to rank the relevance of central regulators. In a second part of this thesis we explore how these regulatory relationships are manifested in a case linked to human health, developing a method to complete a linked to Alzheimer 's disease network. As an addendum we address the mathematical problem of microarray probe design. We conclude that, to fully predict the hybridization dynamics, we need a modified energy function for secondary structures of surface-attached DNA molecules and propose a scheme for determining such function. |