Sélection d’estimateurs par validation croisée
vendredi 13 novembre 2015, 11h00 - 12h00
Salle de réunion, espace Turing
La validation croisée est une méthode largement utilisée, en raison de sa
simplicité et de son (apparente) universalité. On peut l’utiliser dans
différents buts:
(i) estimer le risque d’un estimateur,
(ii) choisir un modèle ou un hyperparamètre, et plus généralement, choisir
parmi une famille d’estimateurs.
Cet exposé dressera les grandes lignes de ce que l’on sait sur les
performances des procédures de validation croisée, en mettant l’accent sur
l’objectif de la sélection d’estimateurs.
Au premier ordre (lorsque la taille de l’échantillon tend vers l’infini),
le paramètre clé est le biais de la procédure de validation croisée
utilisée, qui ne dépend que de la taille de l’échantillon d’entraînement.
Néanmoins, les termes de « deuxième ordre » comptent pour beaucoup dans les performances observées en pratique. Pour tenter d’éclairer ce point, nous
discuterons de résultats récents sur l’influence de la « variance » des
procédures de validation croisée sur leurs performances.
En conclusion, nous aborderons la question de choisir la meilleure
procédure de validation croisée en fonction des spécificités du problème
que l’on cherche à résoudre.
Références:
Article de survol (avec Alain Celisse):
http://projecteuclid.org/euclid.ssu/1268143839
Prépublication sur la validation croisée V-fold (rôle de la variance et
choix de V; avec Matthieu Lerasle): http://arxiv.org/abs/1210.5830