* Antoine Chambaz (MODAL'X, Université Paris Nanterre) - MAP5-UMR 8145

Antoine Chambaz (MODAL’X, Université Paris Nanterre)

Carte non disponible

Intervalles de confiance pour les bandits contextuels

vendredi 24 mars 2017, 9h30 - 10h30

Salle du conseil, espace Turing


Un opérateur a le choix entre deux actions. Chaque action induit un gain aléatoire, dont la loi dépend du contexte dans lequel l’action est entreprise. L’objectif est d’apprendre, en répétant l’expérience avec parcimonie, (i) la loi conditionnelle de l’action optimale sachant le contexte et (ii) la moyenne du gain sous cette loi, qui est dégénérée. Dans ce cadre de bandit contextuel, nous abordons les questions (i) et (ii) sous l’angle de l’inférence plutôt que sous celui de la minimisation du regret. Nous élaborons ainsi un schéma d’essai clinique randomisé et séquentiel pour l’apprentissage de la règle optimale de traitement et de son effet moyen, une contribution théorique à la médecine personnalisée.

(Travail en collaboration avec Wenjing Zheng et Mark van der Laan, article « Targeted sequential design for targeted learning inference of the optimal treatment rule and its mean reward » à paraître dans /The Annals of Statistics/)