Grégory Nuel (Université Paris Descartes)

Présentation du score local

vendredi 15 février 2008, 14h30 - 15h30

Salle de réunion, espace Turing


Soit X=X1,…,Xn une séquence de va iid à valeur sur un alphabet fini A. Soit S:A->R une fonction de score. On définit le score local H de la sequence X par: H=max_{1<=i<=j<=n} sum_{k=i}^{j} S(X_k). Il s'agit du score maximum sur un segment de X. Cet outil est très utilisé en génomique et génétique car il permet de détecter dans une séquence biologique des régions d'intér"t sans faire d'hypothèse préalable sur la taille de ces régions. Exemple: détection de régions riche en g+c dans les séquences d'ADN, de segments hydrophobes chez les proteines, de région ou s'accumulent des signaux d'association en épidémiologie génétique, etc. Dans certains cas particuliers (E(S(X1))<0 notamment), on peut asymptotiquement approcher la distribution de H par une loi de Gumble. On dispose également d'approche fondées sur le Markov chain embedding pour calculer cette distribution de manière exacte (dans tous les cas). Il reste cependant de nombreux aspects encore mal connus qui peuvent consister des sujet de recherches intéressants: - loi de la longueur du segment associé au score H - loi du score du k-ème meilleur segment - loi du nombre de segments ayant un score strictement positifs - lien avec les chaînes de Markov cachées - lien avec les diffusions etc. En prime, cette notion de score local d'une séquence s'étend très naturellement à celle de score local de deux séquences dont la distribution est à la fois très difficile à étudier et un enjeu extr"mement important pour la bio-informatique puisque c'est précisément l'outil qui permet de détecter des ressemblances significatives en séquences (ce que fait par exemple un logiciel comme BLAST qui est quotidiennement utilisé par l'ensemble de la communauté bio-informatique).