Constrained Exploration in Reinforcement Learning - Centre de Recherche en Économie et Statistique Accéder directement au contenu
Thèse Année : 2022

Constrained Exploration in Reinforcement Learning

Exploration sous contrainte dans l'apprentissage par renforcement

Evrard Garcelon
  • Fonction : Auteur
  • PersonId : 1217280
  • IdRef : 267056230

Résumé

A major application of machine learning is to provide personnalized content to different users. In general, the algorithms powering those recommandation are supervised learning algorithm. That is to say the data used to train those algorithms are assumed to be sampled from the same distribution. However, the data are generated through interactions between the users and the recommendation algorithms. Thus, recommendations for a user a time t can have an impact on the set of pertinent recommandation at a later time. Therefore, it is necessary to take those interactions into account. This setting is reminiscent of the online learning setting. Among online learning algorithms, Reinforcement Learning algorithms (RL) looks the most promising to replace supervised learning algorithms for applications requiring a certain degree of personnalization. The deployement in production of RL algorithms presents some challenges such as being able to guarantee a certain level of performance during exploration phases or how to guarantee privacy of the data collected by RL algorithms. In this thesis, we consider different constraints limiting the use of RL algorithms and provides both empirical and theoretical results on the impact of those constraints on the learning process.
Une application majeure de l'apprentissage machine automatisée est la personnalisation des différents contenus recommandé à différents utilisateurs. Généralement, les algorithmes étant à la base de ces systèmes sont dit supervisé. C'est-à-dire que les données utilisées lors de la phase d'apprentissage sont supposées provenir de la même distribution. Cependant, ces données sont générées par des interactions entre un utilisateur et ces mêmes algorithmes. Ainsi, les recommandations pour un utilisateur à un instant t peuvent modifier l'ensemble des recommandations pertinentes à un instant ultérieur. Il est donc nécessaire de prendre en compte ces interactions afin de produire un service de la meilleure qualité possible. Ce type d'interaction est réminiscente du problème d'apprentissage en ligne. Parmi les algorithmes dit en ligne, les algorithmes de bandits et d'apprentissage par Renforcement (AR) semblent être les mieux positionnés afin de remplacer les méthodes d'apprentissage supervisé pour des applications nécessitant un certain degré de personnalisation. Le déploiement en production d'algorithmes d'apprentissage par Renforcement présente un certain nombre de difficultés tel que garantir un certain niveau de performance lors des phases d'exploration ou encore comment garantir la confidentialité des données collectées par ces algorithmes. Dans cette thèse nous considérons différentes contraintes freinant l’utilisation d’algorithmes d’apprentissage par renforcement, en fournissant des résultats à la fois empirique et théorique sur la vitesse d’apprentissage en présence de différentes contraintes.
Fichier principal
Vignette du fichier
128301_GARCELON_2022_archivage.pdf (8.02 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03946443 , version 1 (19-01-2023)

Identifiants

  • HAL Id : tel-03946443 , version 1

Citer

Evrard Garcelon. Constrained Exploration in Reinforcement Learning. Statistics [math.ST]. Institut Polytechnique de Paris, 2022. English. ⟨NNT : 2022IPPAG007⟩. ⟨tel-03946443⟩
121 Consultations
95 Téléchargements

Partager

Gmail Facebook X LinkedIn More