* Aurélie Fischer (MAP5 et LSTA, Universités Paris Descartes et Pierre et Marie Curie) - MAP5-UMR 8145

Aurélie Fischer (MAP5 et LSTA, Universités Paris Descartes et Pierre et Marie Curie)

Introduction à la quantification et sélection de paramètres pour les courbes principales

vendredi 14 octobre 2011, 9h30 - 10h45

Salle de réunion, espace Turing


Dans cet exposé, nous commencerons par une introduction à la quantification et à la question liée du clustering, avant de présenter des résultats relatifs aux courbes principales, autre technique d’apprentissage non supervisé, ayant des similitudes avec la quantification.

La notion de courbe principale, introduite par Hastie et Stuetzle (1989), peut être vue comme une généralisation non linéaire de la première composante principale. Une courbe principale est une courbe paramétrée de R^d passant « au milieu  » d’une loi de probabilité en dimension d ou d’un nuage de données de R^d. La définition originelle de Hastie et Stuetzle repose sur la propriété d’auto-consistance, qui peut s’interpréter en disant que chaque point d’une courbe principale est la moyenne des observations se projetant sur la courbe au voisinage de ce point. D’autres définitions ont été proposées ensuite ; l’une d’entre elles, étroitement liée à l’idée initiale de Hastie et Stuetzle, repose sur la minimisation d’un critère de type moindres carrés (Kégl, Krzyzak, Linder et Zeger, 2000 ; Sandilya et Kulkarni, 2002). C’est ce point de vue que nous adopterons dans cet exposé.

Nous nous intéresserons au choix d’une bonne classe de courbes sur laquelle minimiser le critère, dans le but d’obtenir une courbe principale qui résume au mieux la forme des données sans interpoler. Pour ce faire, nous proposons une approche de sélection de modèle par pénalisation (Birgé et Massart, 1997 ; Barron, Birgé et Massart, 1999).