* Wilson Toussile (Université Paris Sud 11 et Université Paris Descartes) - MAP5-UMR 8145

Wilson Toussile (Université Paris Sud 11 et Université Paris Descartes)

Sélection de variable en classification non supervisée par mélange fini à partir de données génétiques multilocus

vendredi 14 janvier 2011, 9h15 - 10h30

Salle de réunion, espace Turing


Nous considérons le problème de sélection de variable en classification non supervisée par mélange fini de lois multinomiales dans un contexte de données génétiques multilocus. Le problème de sélection du nombre de composants du mélange et du sous ensemble de variables utiles est vu comme celui de sélection de modèle via pénalisation du maximum de vraisemblance. Sous des hypothèses faibles sur la fonction de pénalité, nous montrons que la procédure de sélection est consistante. Nous construisons ensuite une fonction de pénalité garantissant une inégalité oracle non-asymptotique. Ce résultat suggère une pénalité de la forme du produit de la dimension par un paramètre données-dépendant que nous calibrons grâce à l’heuristique de la pente. Nous montrons sur des données simulées que cette calibration de la pénalité peut permettre de résoudre le problème du choix du critère de sélection en fonction de la taille de l’échantillon.