Plan Concepts de base Principes Distances Similitude et distances

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Le théorème de Thalès (18)
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Cladogramme.
Distance inter-locuteur
Le pluriel des noms
Fonctions & procédures
Introduction aux classes empiétantes François Brucker Brest (Breizh)
ACTIVITES Les fractions (10).
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Sud Ouest Est Nord Individuel 36 joueurs
ACTIVITES Le calcul littéral (3).
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Comparaison d'une distribution observée à une distribution théorique
Prospection par ondes de surface
Phylogénie et distances génétique
1. Les caractéristiques de dispersion. 11. Utilité.
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Fraction... vue autrement
Estimation de la survie comparaison des courbes de survie FRT C3.
Analyse de la variance à un facteur
07/24/09 1.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Les structures de données arborescentes
Cours de physique générale I Ph 11
Titre : Implémentation des éléments finis sous Matlab
LES NOMBRES PREMIERS ET COMPOSÉS
La phylogénie Définition :
Partie 1: Ondes et Particules.
Unit 4: Les animaux - Il y a - There is/are Unit 4: Les animaux.
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
La Saint-Valentin Par Matt Maxwell.
Unit 4: Les animaux Unit 4: Les animaux.
Calculs et écritures fractionnaires
Représentation des systèmes dynamiques dans l’espace d’état
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Les modèles linéaires (Generalized Linear Models, GLM)
1.1 LES VECTEURS GÉOMÉTRIQUES
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
2. Théorie de la consommation (demande)
Titre : Implémentation des éléments finis en Matlab
4.3 Le mouvement d’un projectile
C'est pour bientôt.....
Veuillez trouver ci-joint
Résoudre une équation du 1er degré à une inconnue
Atelier de formation : MAT optimisation II (les graphes).
ASI 3 Méthodes numériques pour l’ingénieur
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
Equation différentielle
Equation différentielle de 2ème ordre
1 - Programme de Seconde (juin 2009) Statistique et probabilités
CALENDRIER-PLAYBOY 2020.
Suites numériques Définitions.
Les Chiffres Prêts?
Médiathèque de Chauffailles du 3 au 28 mars 2009.
Rappels de statistiques descriptives
Partie II: Temps et évolution Energie et mouvements des particules
Transcription de la présentation:

Plan Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ

L’évolution est-elle parcimonieuse? Lg moyenne avec les autres données Lg des arbres avec la b-globine

Arbres obtenus pour  et  globines Souris Lapin Chien Singe Homme Chimpanzée Kangourou Mouton Vache Cheval Cochon Arbre obtenu à partir des  globines Singe Homme Chimpanzée Souris Chien Lapin Kangourou Cheval Cochon Mouton Vache Arbre obtenu à partir des  globines Différences symétriques entre les arbres

Taxonomie numérique Relations de distance et non généalogiques Information maximum Tous les caractères ont le même poids Différence mesurée entre paires de taxa, c’est une mesure globale Le phénogramme résume les relations taxinomiques La distance reflète le sens et la vitesse de l’évolution Des hypothèses supplémentaires permettent des inférences phylogénétiques

Distance et similitude Indice de concordance simple de Sokal et Michener (1958) Indice de similitude de Jaccard (1908);cas des RFLP par ex. Plus deux séquences se ressemblent plus elles sont proches.

Distances métriques et ultramétriques si i<>j (positivité) si i=j (la distance de l’UE à elle même est nulle) (commutativité) j i k 2 Distances métriques 1(Propriété de l’inégalité triangulaire ) j i k 1 Distances ultramétriques (donc les 2 plus grandes distances sont égales 2) avec djk=dik Distances additives

Correction de distances: le problème(0) On observe le même état de caractère sur deux taxons actuels.Cela peut résulter de différents événements. ou État ancestral B État actuel Taxon 1 A Taxon 2 changement État ancestral A État actuel Taxon 1 Taxon 2 A ou B A A ou B A etc.… etc.…

Correction de distances (1) j Ancêtre k Avec K= nb de sites observés 2 éléments influent sur l’état actuel observé État A ou B de l’ancêtre commun : A Pb=f, B pb=1-f Probabilité p de changement visible entre l’ancêtre et l’actuel Probabilité de l’observation État de l’ancêtre k : B, Pb 1-f État de l’ancêtre k : A, Pb f États de i et j A et A f*(1-)2 (1-f)* 2 f*(1-)2+(1-f)* 2 B et B (f)* 2 (1-f)*(1-)2 (1-f)*(1-)2+(f)* 2 A et B f*(1-)*  (1-f)*(1-)*  (1-)*  B et A (1-f)*(1-)*  f*(1-)*  (1-)*  pour chaque position

Correction de distance (2):Hypothèses La distribution des changements suit une loi de Poisson: avec r=nb de changements sur une branche n=moyenne de changements par branche Les changements sont rares et leur moyenne aussi La moyenne des changement est constante La moyenne des changements le long d’une branche est fonction du temps écoulé le long de cette branche. Si t=temps écoulé le long d’une branche m=nb de changements par u de temps n=mt et

Correction de distance (3) Quand verra-t-on une différence entre l’ancêtre et le taxon actuel (évaluation de p)? Si le nombre réel de changements est impair: r = 1,3,5,7,… + = 7 5 3 1 P p L ! r ø è 1 , impair mt e ¥ - ÷ ö ç æ = å p 2 ! 5 3 1 : x e que sait on or - = + × L 2 mt e - = ÷ ø ö ç è æ p

Correction de distance (4) Quand verra-t-on une différence entre les deux taxa actuels? mt obs e D 2 1 ) ( - ÷ ø ö ç è æ * = p ( ) mt obs e D 4 2 1 - = ÷ ø ö ç è æ + * Comment exprimer la distance réelle (ou une estimation)? Comment à partir de la distance observée déduire la distance réelle estimée? ( ) mt obs e D 1 2 4 - = obs mt D e 2 1 4 - = ( ) obs D Log mt 2 1 4 - = ( ) obs est D Log mt 2 1 - =

Séquences nucléotidiques C et T Pyrimidines A et G Purines AG   C  T  Il y a 12 possibilités de changements :   transition  transversion 4 transitions possibles et 8 transversions possibles.

Correction de distance (5) Dans le calcul précédent on n’a tenu compte que de deux états de caractère. Pour l’ADN il y en a 4 ce qui complique le calcul. Avec A=C=G=T et tous les changements équiprobables (JC), la correction devient Avec A=C=G=T et les transitions équiprobables, les transversions également, mais la fréquence transition différente de transversion (K2p), la correction devient

Correction de distance: les modèles A/G/C/T Pb SI Pb Ve Jukes et Cantor A=G=C=T=25%  Kimura 2p A=G=C=T=25%   Tamura 3p A+T=1-, G+C=   Tajima et Nei 1p AGCT  Hasegawa HKY85 2p AGCT   Tamura et Nei 3p AGCT 1(Pyr) et 2(Pur)  Modèle à 8 p AGCT 1, 2, 3 et 4 1, 2, 3 et 4

Tests statistiques des modèles (1) Test de l’invariant unique Sous le modèle de JC les paires AG et TC (transitions=P) sont 2 fois moins observables que les autres (transversions=Q). On attend donc : 2P-Q=0. On va donc estimer l’écart de JC à sa valeur théorique 0 avec qui a pour variance Et on compare représente le degré de signification souhaité et z la valeur seuil au-delà de laquelle la courbe de la probabilité a la surface /2.

Tests statistiques des modèles (2) Test de stationnarité Dans les modèles Tamura, Tajima, HKY85 à 8 paramètres, à l’équilibre la probabilité g du nucléotide x dans la séquence 1,2, … ou m est la même :. C’est ce que l’on va tester.

Tests statistiques des modèles (3) Test des invariants multiples Si la condition de stationnarité est satisfaite, quel est le modèle le plus simple qui rende compte des données? Il y a 10 couples de changements possibles (les changements réciproques étant de même probabilité) : AA, AT, AC, AG, TT, TC, TG, CC, CG, GG avec Pour chaque modèle il est possible pour Xi d’écrire une équation de la forme ou s indique le sème nucléotide, a et b les paramètres de chaque modèle Le modèle de Kimura revient alors à et tous les autres a et b sont nuls soit

UPGMA 1 Rat 1 Lapin 1 Tetrahymena Ginkgo Epinard Sureau Poireau Mouche Bonite Lapin Rat Cheval 68 72 19 66 15 17 61 12 9 69 44 46 50 42 45 48 51 23 40 21 39 47 20 16 2 43 22 18 6 Rat Lapin 1 1

UPGMA 2 2 Rat Lapin 1 Cheval 3 18 22 42 50 48 43 68 Cheval 23 51 45 18 22 42 50 48 43 68 Cheval 23 51 45 Bonite 46 44 69 Mouche 9 12 15 61 Poireau 17 66 Sureau 19 72 Epinard Ginkgo Tetrahymena L+R L+R 68,5 39,5 44,5 47,5 39,5 20,5 16,5 6 Lapin 68 40 45 48 21 17 Rat 69 39 44 47 20 16 2 Rat Lapin 1 Cheval 3

UPGMA 3 4,5 Rat Lapin 1 Cheval 2 3 Sureau Poireau Tetrahymena Ginkgo Epinard Sureau Poireau Mouche Bonite L+R+C 68 72 19 66 15 17 61 12 9 69 44 46 50 42 45 48 51 23 68,33 40,67 45,67 48,33 40,33 21 4,5 Rat Lapin 1 Cheval 2 3 Sureau Poireau

UPGMA 4 2,75 4,5 Sureau Poireau Epinard Rat Lapin 1 Cheval 2 3 7,25 Tetrahymena Ginkgo Epinard S+P Mouche Bonite L+R+C 68 72 19 15 14,5 69 44 46 50 42 45 48 51 23 68,33 40,67 45,67 44,33 21 17 2,75 4,5 Sureau Poireau Epinard Rat Lapin 1 Cheval 2 3 7,25

UPGMA 5 4,5 Sureau Poireau Epinard 2,75 7,25 0,915 Ginkgo Rat Lapin 1 Tetrahymena Ginkgo S+P+E Mouche Bonite L+R+C 68 69,33 16,33 69 44 46 42 45 47 23 68,33 40,67 44,78 21 17 4,5 Sureau Poireau Epinard 2,75 7,25 0,915 Ginkgo Rat Lapin 1 Cheval 2 3 8,165

UPGMA 6 Rat Lapin 1 Cheval 2 3 4,5 Sureau Poireau Epinard 2,75 7,25 Tetrahymena S+P+E+G Mouche Bonite L+R+C 69 45,5 68 46,5 42 68,33 43,75 21 17 Rat Lapin 1 Cheval 2 3 4,5 Sureau Poireau Epinard 2,75 7,25 Ginkgo 0,915 8,165 5,5 Bonite 8,5

UPGMA 7 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 4,5 Sureau Poireau Tetrahymena S+P+E+G Mouche R+L+C+B 69 61 45,5 68,5 44,43 21,5 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 4,5 Sureau Poireau Epinard 2,75 7,25 Ginkgo 0,915 8,165 2,25 Mouche 10,75

UPGMA 8 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75 11,57 Tetrahymena S+P+E+G R+L+C+B+M 69 67 44,64 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75 11,57 4,5 Sureau Poireau Epinard 2,75 7,25 Ginkgo 0,915 8,165 14,155

UPGMA 9 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75 14,155 Tetrahymena S+P+E+G+R+L+C+B+M 67,89 Rat Lapin 1 Cheval 2 3 Bonite 5,5 8,5 Mouche 2,25 10,75 14,155 11,57 12,02 Tetrahymena 4,5 Sureau Poireau Epinard 2,75 7,25 Ginkgo 0,915 8,165 33,94

Unweighted Pair-Group Method of Arithmetic average 8 3 9 C 4 B 7 5 A Matrice de distances Dbd = 3 On répartit cette distance également sur les 2 branches 1,5 B D

Neibor-joining (1) k i D représente une distance observée l y m l k x y D représente une distance observée B représente une distance estimée La longueur de l’arbre correspondant s’exprime : (1)

NJ (2) (2) et il y a n-2 distances de ce type donc (3) De la même manière pour les distances de j à tous les autres différents de i (4) soit pour toutes les distances entre les n-2 otus de l’étoile : (5)

NJ (3) (2) (3) (4) (5) (6)

NJ (4) (6) On tire de (6) (9) En substituant dans 1 les valeurs données par 2 et 7 (1)

NJ (5) D’après l’équation (5) (7) distances de l’OTU i à toutes les autres distances de l’OTU j à toutes les autres (8) Puis en utilisant la valeur de Byk exprimée dans 7 et en remplaçant ensuite Dkl par sa valeur donnée en 8

2 D ) 2 ( - N R Q = D + Neighbor-Joining (6) ij j i - i anc i ancêtre horloge Correction de l’horloge

Méthodes agglomératives UPGMA NJ Distances ultramétriques Vitesse constante sur toutes les branches Arbre raciné Distances métriques et additives Voir la formule Arbre non raciné

Arbres à 7 taxons obtenus avec NJ ou UPGMA Cyathea le Gnetum gne Metasequoi Magnolia s Encephalar Cedrus deo Ginkgo bil 1 26 NJ UPGMA Cyathea le Gnetum gne Magnolia s Metasequoi Cedrus deo Encephalar Ginkgo bil 1 5 2 4 13

Plantes terrestres Plantes terrestres Spermatophytes Chlorophycées Bryophytes Plantes terrestres Ptéridophytes Gymnospermes Dicotylédones 1 Spermatophytes Monocotylédones Dicotylédones 2 19/11/02 J2_2002_ DESS

FIN (distances)

Comparaison des deux méthodes de calcul d’arbre Méthodes de distance Méthodes de parcimonie *Calcul d’une distance globale   *Un seul arbre retourné par le programme *Pas de test de robustesse de l’arbre unique (excepté le bootstrap)  *Pas de retour aux caractères pour pouvoir les reconsidérer  *Rapide, même avec un grand nombre de taxa *Examen des caractères les uns après les autres *La méthode peut retourner plusieurs arbres également parcimonieux *Il y a un test de robustesse des noeuds (mesure de l’homoplasie dans l’arbre par le calcul du rapport de la longueur minimale de l’arbre à sa longueur réelle. *Retour aux caractères pour éventuellement réévaluer ceux qui donnent des aberrations *Vitesse moyenne. Sur de grosses machines on peut en plusieurs jours traiter des données jusqu'à 500 taxa