Chloé Friguet (LMBA, Université de Bretagne Sud)

Stabilité de la sélection de variable en grande dimension

vendredi 13 décembre 2013, 9h30 - 10h30

Salle de réunion, espace Turing


La sélection de variables est une étape importante lors de la construction d’un modèle de classification en grande dimension. Des méthodes parcimonieuses permettent théoriquement d’atteindre de bonnes performances de classification et d’assurer la sélection d’un ensemble de prédicteurs robuste à des perturbations sur les données. On étudie ici les propriétés de stabilité en grande dimension d’une procédure de sélection de variables usuelle : la régularisation de type LASSO. Il s’agit de montrer qu’en grande dimension, la dépendance entre covariables perturbe les procédures classiques de sélection de modèle. Notre méthode est fondée sur le modèle d’analyse en facteurs, qui décrit les relations de dépendance entre covariables grâce à un petit nombre de variables latentes. Ainsi, cette prise en compte de la structure de dépendance liant les données permet de sélectionner les variables les plus prédictives. Cette stratégie permet de stabiliser l’ensemble des variables sélectionnées par la méthode LASSO. Les résultats de la méthode proposée sont illustrés par une étude sur simulations et une étude de données réelles.