|
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|
Tri :
Date
Titre
Auteur
|
|
Informatique
/ 17-03-2022
Gauthier Camille-Sovanneary
Voir le résumé
Voir le résumé
Nous étudions le problème d'apprentissage de l'ordonnancement en ligne de L items pour K positions prédéfinies sur une page web. Pour cela, nous nous intéressons aux algorithmes de bandits manchots qui apprennent les paramètres de modèles de clics identifiés, tel que le modèle basé sur les positions (PBM). Les algorithmes de l'état-de-l'art s'attaquent rarement au PBM complet, où tous les paramètres sont inconnus. De plus, l'état de l'art contient peu d'algorithmes basés sur Thompson Sampling ou sur les bandits unimodaux, malgré leurs performances empiriques reconnues. Nos deux premières contributions s'appuient sur les bandits unimodaux : GRAB est spécialisé pour un PBM complet et UniRank, traite des modèles de clics divers. Ces deux contributions, très efficaces, ont une borne supérieure de regret théorique. La troisième contribution fournit une famille de bandits adressant le problème PBM complet en couplant l'algorithme Thompson Sampling avec des méthodes d'échantillonnage par chaînes de Markov Monte-Carlo (MCMC). Deux méthodes MCMC sont utilisées : par descente de gradient par Langevin, donnant des résultats empiriques semblables à l'état de l'art avec un temps de calcul bas et stable, et par Metropolis Hasting, qui offre le regret empirique le plus bas pour ce problème pour un PBM complet.
|
|
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|