List recommendations with multi-armed bandits (Recommandation de listes d'items par bandits manchots) Gauthier, Camille-Sovanneary - (2022-03-17) / Universite de Rennes 1 List recommendations with multi-armed bandits
| |||
Langue : Anglais Directeur(s) de thèse: Fromont, Élisa; Gaudel, Romaric Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATHSTIC Classification : Informatique Mots-clés : Systèmes de recommandation, Bandits Manchots
| |||
Résumé : Nous étudions le problème d'apprentissage de l'ordonnancement en ligne de L items pour K positions prédéfinies sur une page web. Pour cela, nous nous intéressons aux algorithmes de bandits manchots qui apprennent les paramètres de modèles de clics identifiés, tel que le modèle basé sur les positions (PBM). Les algorithmes de l'état-de-l'art s'attaquent rarement au PBM complet, où tous les paramètres sont inconnus. De plus, l'état de l'art contient peu d'algorithmes basés sur Thompson Sampling ou sur les bandits unimodaux, malgré leurs performances empiriques reconnues. Nos deux premières contributions s'appuient sur les bandits unimodaux : GRAB est spécialisé pour un PBM complet et UniRank, traite des modèles de clics divers. Ces deux contributions, très efficaces, ont une borne supérieure de regret théorique. La troisième contribution fournit une famille de bandits adressant le problème PBM complet en couplant l'algorithme Thompson Sampling avec des méthodes d'échantillonnage par chaînes de Markov Monte-Carlo (MCMC). Deux méthodes MCMC sont utilisées : par descente de gradient par Langevin, donnant des résultats empiriques semblables à l'état de l'art avec un temps de calcul bas et stable, et par Metropolis Hasting, qui offre le regret empirique le plus bas pour ce problème pour un PBM complet. Abstract : We tackle the online learning to rank problem of assigning L items to K predefined positions on a web page in order to maximize the number of user clicks. To address this problem, one can learn, in a multiple-play semi-bandit setting, the parameters of a behavioral click model, e.g. the so-called position-based model (PBM). The bandit framework confront a learner which take actions to an environment which gives a feedback. These interactions allows the learner to builds its action strategy according to the reward it has received so far. Bandit algorithms goal is to optimize its target, in our case, the click rate over the recommended list. State-of-the-art algorithms rarely tackle the full PBM, i.e. PBM with all its parameters unknown. Moreover, efficient algorithmic frameworks such as Thompson Sampling or Unimodal bandits were seldom considered for diverse behavioral click models. Three algorithmic contributions are presented in this thesis. Two of them are based on the unimodal bandit setting: GRAB is specialized for full PBM and explores a family of graphs parameterized by the ranking of display positions. UniRank can be used in multiple click models. It builds a graph on partitions of items. These two efficient contributions achieve a theoretical regret upper-bound. The third contribution proposes a family of bandit algorithms designed to handle the full PBM and are based on a Thompson Sampling framework, coupled with Markov Chain Monte Carlo (MCMC) sampling methods. Two MCMC methods are used: Langevin Gradient Descent, PB-LB, which shows good empirical regret performance with a low and stable computation time and Metropolis Hasting, PB-MHB, less efficient but with the lowest empirical regret seen in the state-of-the-art for so few model assumptions. |