Analysis and integration of heterogeneous large-scale genomics data : application to B cell differentiation and follicular lymphoma non coding mutations (Analyse et intégration de données génomiques larges et hétérogènes : application à la différentiation des cellules B naïve et au lymphome folliculaire) Louarn, Marine - (2020-11-26) / Universite de Rennes 1 Analysis and integration of heterogeneous large-scale genomics data : application to B cell differentiation and follicular lymphoma non coding mutations
| |||
Langue : Anglais Directeur(s) de thèse: Siegel, Anne; Fest, Thierry Discipline : Informatique Laboratoire : INRIA-RENNES Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : Bio-informatique, technologies du web sémantique, inférence de réseaux de régulations
| |||
Résumé : L’inférence de réseaux de régulation à partir de données hétérogènes a pour but d’identifier les régulateurs clefs impliqués dans des processus biologiques aboutissant à des cancers. Dans cette thèse, je m’intéresse à la différenciation des cellules B naïves, d'où émerge le lymphome folliculaire. Ma première contribution souligne les problèmes de réutilisation et de reproductibilité des méthodes d’inférence de réseaux actuelles. Pour surmonter ces limites, je propose une structure utilisant les technologies du Web Sémantique pour intégrer et requêter ces jeux de données hétérogènes de manière systématique (deuxième contribution). Le pipeline d'origine est reproduit par des requêtes sur le graphe de données, ce résultat peut lui-même être intégré et enrichi avec des données publiques (troisième contribution). Ceci démontre l’utilité de cette approche et de ses bénéfices en terme de réutilisation et de reproductibilité. Ma quatrième contribution est une nouvelle méthode d’inférence de réseaux prenant en compte la connaissance des experts, pour étendre l’analyse à des jeux de données restreints et biologiquement proches et pour introduire la notion de relations signées, incluant les inhibitions. Enfin, l'application de cette méthode à la différenciation des cellules B, a permis la découverte de 146 FT avec un impact potentiel majeur sur le réseau (cinquième contribution). Abstract : Regulatory networks inference from heterogeneous data is a computational step aiming at identifying key regulators involved in differentiation processes leading to cancer. In this thesis I focus on B cell differentiation, from which follicular lymphoma emerges. The first contribution outlines the reproducibility and reusability limitations of a state-of-the-art method for network inference from genomic data. To overcome these limitations, I demonstrated that Semantic Web technologies can structure and integrate large-scale heterogeneous datasets in a systematic way (second contribution). The original analysis workflow outputs could be reproduced as queries on a graph of data, which could itself be layered and enriched with public databases (third contribution). This demonstrates the technical relevance of this approach and underlines its benefits in improving reusability and reproducibility. As a fourth contribution, a new method for network inference was designed to take expert knowledge into account - both to extend the previous framework to the analysis of smaller, closely-related datasets and to enrich the inferred networks with signs, therefore including inhibitory regulatory processes. Finally, the method was applied to B cell differentiation, leading to the discovery of 146 TF with potential large impact on the network (fifth contribution). |