Contributions à l’apprentissage machine distribué multitâche (Contributions to distributed multi-task machine learning) Bouchra Pilet, Amaury - (2021-11-10) / Universite de Rennes 1 - Contributions à l’apprentissage machine distribué multitâche
| |||
Langue : Anglais Directeur(s) de thèse: Frey, Davide; Taïani, François Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : Distribué, Décentralisé, Fédéré, Apprentissage machine, Multitâche, Réseaux de neurones
| |||
Résumé : L’apprentissage machine est un des domaines les plus importants et les plus actifs dans l’informatique moderne. La plupart des systèmes d’apprentissage machine actuels utilisent encore une architecture essentiellement centralisée. Même si l’application finale doit être délivrée sur de nombreux systèmes, parfois des millions (voire des milliards) d’appareils individuels, le processus d’apprentissage est toujours centralisé dans un centre de calcul. Ce peut être un problème notamment si les données d’apprentissage sont sensibles, comme des conversations privées, des historiques de recherche ou des données médicales. Dans cette thèse, nous nous intéressons au problème de l'apprentissage machine distribué dans sa forme multitâche : une situation dans laquelle différents utilisateurs d'un même système d'apprentissage machine ont des tâches similaires, mais différentes, à apprendre, ce qui correspond à des applications majeures de l'apprentissage machine moderne, comme la reconnaissance de l'écriture ou de la parole. Nous proposons tout d'abord le concept d'un système d'apprentissage machine distribué multitâche pour les réseaux de neurones. Ensuite, nous proposons une méthode permettant d'optimiser automatiquement le processus d'apprentissage en identifiant les tâches les plus similaires. Enfin, nous étudions comment nos propositions correspondent aux intérêts individuels des utilisateurs. Abstract : Machine learning is one of the most important and active fields in present computer science. Currently, most machine learning systems are still using a mainly centralized design. Even when the final application is to be delivered in several systems, potentially millions (and even billions) of personal devices, the learning process is still centralized in a large datacenter. This can be an issue if the training data is sensitive, like private conversations, browsing histories, or health-related data. In this thesis, we tackle the problem of distributed machine learning in its multi-task form: a situation where different users of a common machine learning system have similar but different tasks to learn, which corresponds to major modern applications of machine learning, such as handwriting recognition or speech recognition. We start by proposing a design of an effective distributed multi-task machine learning system for neural networks. We then propose a method to automatically optimize the learning process based on which tasks are more similar than others. Finally, we study how our propositions fit the individual interests of users. |