Benjamin Guedj (LSTA, Paris 6)

COBRA : une stratégie d’agrégation non linéaire

vendredi 24 janvier 2014, 9h30 - 10h30

Salle de réunion, espace Turing


L’agrégation d’estimateurs et de prédicteurs a motivé de très nombreux travaux depuis la fin des années 1990. Le praticien voit son activité profondément modifiée par deux mouvements conjoints : nous entrons chaque jour un peu plus dans l’ère du « big data », les volumes et dimensions des données augmentent avec les progrès constants de l’outil informatique ; parallèlement, le nombre de méthodes d’estimation et de prédiction disponibles a accompagné cette inflation impressionnante, abordant tant en classification qu’en régression une variété croissante de modèles et de contextes statistiques (estimation de probabilités, modèles additifs, modèles parcimonieux…). Citons, parmi beaucoup d’autres, les méthodes pénalisées (le Lasso et ses variantes), les $k$-plus proches voisins, les arbres et for »ts aléatoires, les approches bayésiennes, etc.
Il est dès lors légitime d’étudier des procédures d’agrégation de techniques existantes, afin de tirer le meilleur de chacune d’elles et d’éliminer autant que possible la phase—par essence subjective—de spécification d’un modèle. La littérature est riche de nombreuses méthodes d’agrégation de prédicteurs : sélection de modèles, combinaisons linéaires ou convexes sont les principales. Nous proposons dans cet exposé une approche différente, non linéaire en les prédicteurs, reposant sur un principe de moyenne locale. À la métrique usuelle induite par le design, nous proposons de substituer une métrique particulière, suggérée par des estimateurs préliminaires de la fonction de régression. Nous montrons en particulier que l’estimateur résultant est asymptotiquement aussi efficace que le meilleur des estimateurs initiaux. Nous obtenons également une inégalité oracle exacte non asymptotique en espérance, avec une vitesse de convergence explicite. Notre méthode est disponible sur le CRAN sous la forme du package R COBRA, dont les performances brutes et la vélocité sur données simulées et réelles seront commentées.