|
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|
Tri :
Date
Titre
Auteur
|
|
Informatique
/ 03-02-2022
Le Gléau Tangui
Voir le résumé
Voir le résumé
L’objectif de la thèse est l’étude de l’apprentissage de politiques au sein de jeux non-coopératifs à somme non-nulle (de type dilemmes sociaux) dans le but de modéliser des interactions de coopération entre opérateurs de Télécom. Pour commencer, il a été intéressant d’étudier le comportement d’agents apprenants (tels que des politiques d’apprentissage par renforcement (RL) ou des bandits manchots) dans un dilemme du prisonnier itéré (IPD). Les premières conclusions montrent que le RL peine à converger vers des politiques de coopération mutuelles. Étant donné ce constat, il devient important de nous intéresser à des stratégies simples comme le Tit-for-tat (TFT) qui viendront à terme s’ajouter à des politiques plus complexes de type RL. Les principales contributions de la thèse ont été dans un premier temps des propositions d’améliorations de stratégies simples à deux joueurs telles que le TFT continu. Nous nous sommes ensuite intéressés aux modèles de dilemmes du prisonnier à N joueurs. Nous avons introduit une extension qui permet de modéliser une coopération non nécessairement bilatérale et potentiellement circulaire, ce qui a conduit alors à une proposition de stratégie adaptée, basée sur du TFT continu et des algorithmes de traitement de graphe. Dans un second temps, nous avons étendu le paradigme précédent au formalisme des dilemmes sociaux séquentiels (une extension existante de l'IPD qui permet d’étendre les actions atomiques des joueurs en des politiques plus complexes). Pour adresser ce nouveau modèle de jeu, nous avons alors proposé une stratégie qui utilise des politiques de RL et des stratégies de TFT. Enfin, nous avons procédé à quelques simulations dans un contexte Télécom. La première contribution a été l’implémentation d’un environnement de simulation de collaboration multi-opérateurs. Quelques simulations ont été ensuite conduites : les stratégies précédemment développées ont été mises en jeu dans divers scénarios de coopération multi-opérateurs.
|
|
|<
<< Page précédente
1
Page suivante >>
>|
|
documents par page
|