* Alice Cleynen (AgroParisTech/INRA) - MAP5-UMR 8145

Alice Cleynen (AgroParisTech/INRA)

Deux approches en segmentation des données de comptage, application à l’annotation de génome

vendredi 17 janvier 2014, 9h30 - 10h30

Salle de réunion, espace Turing


Les données RNA-Seq sont devenues un outil précieux pour l’annotation de génome, l’analyse de l’expression des gènes, et la détection de nouveaux transcrits. Je modélise ces données à l’aide de la loi binomiale négative, et propose deux modèles de segmentation adaptés à leur étude à différentes échelles biologiques.
Dans un premier temps je propose un algorithme de segmentation rapide pour analyser des séries à l’échelle du chromosome, où le choix du nombre de segments se fait par vraisemblance pénalisée inspirée des procédures de Birgé et Massart.
Dans un deuxième temps, je m’intéresse à des profils beaucoup plus courts dans le but d’annoter précisément des gènes et plus particulièrement de comparer les sites de début et fin de transcription entre individus. Ceci conduit naturellement à s’intéresser à la comparaison des localisations de ruptures dans des séries indépendantes. Je me place dans un cadre de segmentation bayésienne permettant de fournir des mesures d’incertitude des localisations et propose deux méthodes pour répondre à cette question.