La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome Carry-le-Rouet, Décembre 2006.

Présentations similaires


Présentation au sujet: "La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome Carry-le-Rouet, Décembre 2006."— Transcription de la présentation:

1 La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome Carry-le-Rouet, Décembre 2006

2 Reconstructions phylogénétiques Distances Maximum de parcimonie Maximum de vraisemblance Recherche de synténies Identification des orthologues Blast Alignements multiples

3 Une alternative: la recherche de « mots » communs dans les séquences (k-words, k-tups, k-grams...) Exemple classique : le « Dotplot »

4 Les alignements de chromosomes entiers sont impossibles à cause des réarrangements. La recherche de « mots communs » ne se soucie pas de leurs positions. On peut donc penser à déterminer une « distance » entre chromosomes à partir de leur contenu en mots communs.

5 B. E. Blaisdell, PNAS 83 (1986), Composition en di- et tri-nucléotides (chaînes de Markov dordre 1 et 2) de séquences codantes et non codantes test du chi2:

6 A B

7 Revue: Vinga, S. & Almeida, J. Alignment-free sequence comparison Bioinformatics 19 (2003), Gary W. Stuart Une séquence peut être représentée par un vecteur S = AATATTAAATTTATA AA = 3 AT = 4 TT = 3 TA = 4 AA TT AT { s s = (3, 4, 3, 4)

8 AA TT AT { s1s { s2s

9 AA TT AT { s1s1 u1 = 3 v1 = 4 t1 = 4 { s2s2 u2 = 4 v2 = 4 t2 = 4 s 1. s 2 = u 1 *u 2 + v 1 *v 2 + t 1 *t 2 = |s 1 |*|s 2 |*cos( ) |s 1 | = (u v t 1 2 ) 1/2

10 d(i,j) = -Log[(1 + cos )/2]

11

12 Il y a tetrapeptides possibles. Donc, si lon décompose un jeu de protéines en mots de longueur 4, chaque protéine sera représentée par un vecteur dans un espace à dimensions... De très nombreux « axes » portent peu dinformation (tetrapeptides peu ou pas présents). On réduit la taille de lespace en prenant pour repères les axes dinertie les plus significatifs du nuage de points (changement de repère) et en supprimant les axes de faible inertie.

13 x y z A A B B A A B B

14

15 Toutes les protéines dune même espèce sont regroupées en un seul vecteur --> chaque espèce est représentée par un vecteur.

16


Télécharger ppt "La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome Carry-le-Rouet, Décembre 2006."

Présentations similaires


Annonces Google