Olivier LOPEZ (ENSAI et IRMAR, Rennes)

Problèmes de réduction de dimension pour la régression en présence de données censurées

vendredi 25 janvier 2008, 9h30 - 10h45

Salle de réunion, espace Turing


{{Résumé}}

Les données censurées apparaissent dans de nombreuses applications de l’analyse de survie (économétrie, biostatistique,- fiabilité…). Nous considérerons un modèle de censure à droite : la variable d’intér »t Y n’est pas observée directement, les observations étant constituées de réalisations i.i.d. des variables : T = inf(Y, C), d = 1_{Y<=C}, où C est une variable dite variable de censure. Une question importante est celle des méthodes de régression à développer dans un tel contexte. Le modèle le plus largement considéré actuellement est le modèle semi-paramétrique de Cox, qui porte sur le taux de hasard de Y conditionnellement à des variables explicatives X de Rd (non censurées). Néanmoins, ce modèle repose sur des hypothèses qui sont mises en défaut dans certaines situations. Il devient alors crucia lde développer l'inférence dans d'autres modèles de régression. Nous nous intéresserons ici à l'estimationde m(x)= E[Y|X = x]. L'estimation non paramétrique de cette fonction de régression se heurte, de m"me qu'en l'absence de censure, au"fl-éau de la dimension" (mauvais comportement des estimateurs nonparamétriques lorsque d est grand). Suivant les conditions d'identi-abilité du modèle,la situation peut être encore plus critique en présence de censure. Ainsi, dans certains cas où l'on autorise la variable C à dépendre de X (hypothèse cruciale pour de nombreuses applications), l'estimation dans des modèles de régression paramétriques n'a été considérée jusqu'à présent que dans le casoù X est univarié (voirnotamment Van Keilegom et Akritas, 1999). En eff-et, les estimateurs existant jusqu'à présent reposent sur des estimateurs à noyau qui se comportent mal lorsque d est grand. L'objet de cet exposé est d'apporter des réponses à ces deux types de manifestations du fl-éau de la dimension. Dans ce but, nous décrirons tout d'abord un nouvel estimateur de la fonction de répartition de (X, Y ). Cet estimateur généralise la notion de fonction de répartition empirique (indisponible en présence de censure), et apparaît adapté à l'inférence en grande dimension. En particulier, l'étude de cet estimateur permet d'obtenir des résultats théoriques de type Loi des Grands Nombres et Théorème Central Limite uniformément sur des classes de fonctions dont la complexité est contrôlée par une condition sur leur entropie. La première application considérée concerne l'estimation de m dans des modèles paramétriques, dans le cas d> 1. Puis, dans le but de
lutter contre le- fléaude la dimension qui frappe l’estimation non paramétrique de m, nous présenterons quelques nouveaux résultats concernant l’estimation duparamètre d’un modèlede régression « single-index ».

References

[1] Ichimura,H.(1993).Semiparametric least squares (SLS) and weighted SLS estimation of single-index models. Journal of Econometrics 58, 71–120.
[2] Stute, W. (1996). Distributional convergence under random censorship when covariables are present. Scand. J. Statist. 23,461–471.
[3] Van Keilegom, I. & Akritas, M.G. (1999) Transfer of tail information incensored regression models. Ann. Statist. 27, 1745–1784.