Machine learning algorithms in the health sector : integration of functional knowledge toenhance the analysis of gut microbiota data (Algorithmes d'apprentissage automatique en santé : intégration de connaissances a priori via le microbiote et les bases de connaissances associées) Ruiz, Baptiste - (2024-11-28) / Université de Rennes Machine learning algorithms in the health sector : integration of functional knowledge toenhance the analysis of gut microbiota data
| |||
Langue : Anglais Directeur(s) de thèse: Siegel, Anne; Le Huërou-Luron, Isabelle Discipline : Informatique Laboratoire : INRIA-RENNES Ecole Doctorale : MATISSE Classification : Informatique Mots-clés : Microbiote intestinal, métagénomique, intégration de connaissances, Apprentissage Automatique
| |||
Résumé : La composition du microbiote intestinal influence diverses maladies et peut être utilisée pour la classification automatique de l'état de santé. Cette thèse propose une méthode intégrant l'annotation fonctionnelle du microbiote intestinal dans un processus de classification automatique pour améliorer l'interprétation des résultats. En utilisant les données taxonomiques et les annotations fonctionnelles via le pipeline EsMeCaTa, un profil fonctionnel du microbiote est établi. Ces profils, microbien et fonctionnel, servent à entraîner des Forêts Aléatoires pour différencier les échantillons malades des témoins. Une sélection automatique des variables basée sur leur importance est itérée jusqu'à la diminution des performances de classification. Les résultats montrent que les profils fonctionnels offrent des performances comparables aux profils microbiens et permettent d'identifier un sous-ensemble robuste de variables discriminantes. Ces variables se sont révélées plus fiables que celles obtenues par des méthodes de référence et ont été validées par une recherche bibliographique. L'analyse des interconnexions entre taxons et annotations fonctionnelles a révélé que certaines annotations importantes sont issues de l'influence cumulative de taxons non sélectionnés. Abstract : The gut microbiota composition is a recognized factor in various diseases and serves as a robust basis for automatic disease state classification. A deeper functional understanding of this community is needed to enhance the biological interpretability of these approaches. This thesis presents a method for integrating functional annotation of the gut microbiota into an automatic classification process, facilitating downstream result interpretation. The process utilizes taxonomic composition data and links each component to its functional annotations via the EsMeCaTa pipeline, creating a functional profile of the gut microbiota. Both microbial and functional profiles are used to train Random Forest classifiers to distinguish between unhealthy and control samples. An automatic variable selection, based on variable importance, is iterated until classification performance declines. The results demonstrate that functional profiles provide comparable performance to microbial profiles and yield a robust subset of discriminant variables through repetition. These selections proved more reliable than those from state-of-the-art methods and were validated through manual literature review. Analysis of the interconnections between selected taxa and functional annotations revealed that significant annotations arise from the cumulative influence of non-selected taxa. |