Transformers models for interpretable and multilevel prediction of protein functions from sequences (Modèle Transformer pour l’interprétabilité et les prédictions multi-niveaux des fonctions des protéines à partir de leurs séquences) Buton, Nicolas - (2023-10-18) / Université de Rennes - Transformers models for interpretable and multilevel prediction of protein functions from sequences
| |||
Langue : Anglais Directeur(s) de thèse: Dameron, Olivier Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATISSE Classification : Informatique Mots-clés : Annotation fonctionnelle automatique , Apprentissage profond , Transformer , Enzymes, Gene Ontology
| |||
Résumé : L'annotation automatique des séquences protéiques est en plein essor pour gérer l'augmentation des séquences non annotées expérimentalement. Premièrement nous avons étudié l'application du Transformer à la prédiction des fonctions enzymatiques. Le modèle EnzBert améliore le macro-f1 de 41% à 54% comparé au précédent état de l'art. De plus une comparaison des méthodes d'interprétabilité montre qu'une approche basée sur l'attention obtient un score F-Gain de 96,05%, surpassant les méthodes classiques (91,44%). Deuxièmement l'intégration de la Gene Ontology dans les modèles de prédiction de fonctions a été explorée. Deux approches ont été testées : l'intégration dans le processus de labellisation et l'utilisation de plongements hyperboliques. Les résultats obtenus confirment à la fois l'efficacité de la propagation des labels selon la hiérarchie GO et la supériorité des plongements hyperboliques (mean WFmax: 0.36) par rapport au modèle euclidien (0.34) en petite dimension (32). Ils maintiennent une plus grande cohérence avec la Gene Ontology (relations correctement ordonnées : 99.25%-99.28% vs. 78.48%-91.41% pour modèle euclidien). Abstract : Automatic annotation of protein sequences is on the rise to manage the increasing number of experimentally unannotated sequences. First, we investigated the application of the Transformer for enzymatic function prediction. The EnzBert model improves macro-F1 from 41% to 54% compared to the previous state-of-the-art. Furthermore, a comparison of interpretability methods shows that an attention-based approach achieves an F-Gain score of 96.05%, surpassing classical methods (91.44%). Second, the integration of Gene Ontology into function prediction models was explored. Two approaches were tested: integration in the labeling process and the use of hyperbolic embeddings. The results confirm both the effectiveness of the True Path Rule and the superiority of hyperbolic embeddings (mean WFmax: 0.36) compared to the Euclidean model (0.34) in low dimensions (32). They maintain greater consistency with the Gene Ontology (correctly ordered relations: 99.25%-99.28% vs. 78.48%-91.41% for the Euclidean model). |