Stage au LIRMM (Montpellier) Sous la direction d’Olivier Gascuel et de Denis Bertrand juin/août 2004 Propriétés topologiques des arbres de duplication
Plan Le processus de duplication en tandem Sa modélisation : l’arbre de duplication, un arbre phylogénétique particulier Suppression d’une feuille dans un arbre de duplication Réarrangements topologiques dans un arbre de duplication Conclusion sur les résultats trouvés
La recombinaison inégale cytoplasme noyau chromatine condensée Avant la méiose : ADN du père ADN de la mère
La recombinaison inégale cytoplasme noyau Prophase I : chromosome venant du père chromosome venant de la mère
La recombinaison inégale cytoplasme noyau Prophase I : chromosome venant du père chromosome venant de la mère
La recombinaison inégale cytoplasme noyau Prophase I : chromosome venant du père chromosome venant de la mère
La recombinaison inégale cytoplasme noyau Prophase I : chromosome venant du père chromosome venant de la mère
La recombinaison inégale cytoplasme noyau Prophase I, recombinaison inégale : chromosome venant du père chromosome venant de la mère
L’histoire de duplication (duplication simple) …CATTGAGCTATGATTG …CATTGACCTATGATTC segment dupliqué en tandem...CATTGATTG …CATTGAGCTATGACCTATGATTC 12
L’histoire de duplication (duplication multiple)...CATTGAGTATGACCTATGATTC...CATTGAGCTATGACCTATTGATAC CATTGATTC...CATTGAGTATGACCTATGAGCTATGACCTATTGATAC 342 On a la séquence finale, on veut retrouver l’histoire des duplications.
Retrouver l’histoire de duplication On a la séquence finale, on veut retrouver l’histoire des duplications : CATTGAGTATGACCTATGAGCTATGACCTATTGATAC 1 1 : GAG TAT 2 : GACCTAT 3 : GAGCTAT 4 : GACCTATT 2a b 1’ 2’ 2341 a 2c 2- Aligner tous les motifs pour en réaliser un arbre phylogénétique afin d’en déduire un arbre de duplication qui modélise l’histoire de duplication. 1- Détecter les motifs répétés. alignement multiple de séquences construction de phylogénie déduction de l’arbre de duplication travail du biologiste
Qu’est-ce qu’un arbre phylogénétique ? c singehomme a abeillemouche b rat d L’abeille est génétiquement plus proche de la mouche que du singe. On peut les construire grâce à des algorithmes gloutons optimisant les paramètres suivants : - distance - maximum de vraisemblance - parcimonie (minimiser le nombre de transformations élémentaires) Il présente les relations de parenté entre être vivants.
Reconstruire un arbre phylogénétique (distance) On connaît la matrice des distances entre tout couple de feuille (f i,f j ). En partant d’un arbre en étoile, on regroupe progressivement en des consensus les feuilles les plus proches pour construire l’arbre. f1f1 f2f2 f3f3 f3f3 f5f5 f1f1 f2f2 f3f3 f5f5 f4f4 f 1,4 f1f1 f3f3 f2f2 f5f5 f4f4 f 1,3,4 L’arbre obtenu n’est pas enraciné
L’arbre phylogénétique obtenu peut être amélioré par des réarrangements locaux : - NNI (Nearest Neighbor Exchange, permettent d’explorer l’espace des phylogénies) Reconstruire un arbre phylogénétique NNI - SPR (Subtree Pruning and Regrafting) SPR Peut-on faire de même pour les arbres de duplication ?
Qu’est-ce qu’un arbre de duplication ? C’est un arbre phylogénétique dont les feuilles sont des gènes dupliqués en tandem. Les feuilles sont donc ordonnées. Tout arbre phylogénétique n’est donc pas un arbre de duplication. On peut les déduire d’alignements multiples grâce à des méthodes similaires à celles sur les phylogénies. On obtient des arbres de duplication enracinés ou non. Les arbres de duplication ne permettent pas de modéliser les délétions.
La recombinaison inégale : duplication simple segment dupliqué en tandem …CATTGAGCTATGATTG...CATTGACCTATGATTC segment dupliqué en tandem...CATTGATTG …CATTGAGCTATGACCTATGATTC 12 a 21 arbre de duplication enraciné (1-RDT)
La recombinaison inégale : duplication multiple...CATTGAGCTATGACCTATGATTC...CATTGAGCTATGACCTATGATAC CATTGATTC...CATTGAGCTATGACCTATGAGCTATGACCTATGATAC ’ 2’ 2341 a arbre de duplication enraciné (RDT) arbre de duplication non enraciné (DT)
c g b a d e T O=(1,2,3,4,5,6,7,8) Soit T, un arbre, et O un ordre sur ses feuilles. Définition d’un arbre de duplication (RDT) 12 g c d 58 e Si f 1 et f 2 sont deux feuilles de T, et n un nœud de T, alors (f 1,n,f 2 ) est une cerise de T. C(T) est l’ensemble des cerises de T. Si f 1 et f 2 sont adjacentes, on note f 1 f 2. événement de duplication simple événement de duplication multiple
Définition d’un arbre de duplication (RDT) (T’,O’) est un arbre de duplication enraciné (RDT) de racine si : - (T’,O’) contient uniquement ou - il existe dans C(T) une série de cerises (g i,u i,d i ), (g i+1,u i+1,d i+1 ),..., (g k,u k,d k ) avec k i et g i g i+1 ... g k d i d i+1 ... d k dans O, telle que (T',O') soit un arbre de duplication de racine , où T' est obtenu à partir de T en enlevant g i, g i+1,...,g k,d i,d i+1,...,d k, et O' est obtenu en remplaçant (g i, g i+1,..., g k,d i,d i+1,...,d k ) par (u i,u i+1,...,u k ) dans O. O’=(1,2,c,d,e) T’T’ g 12 c d e b a agglomération de (c,d,e)
1-RDT : On garde un arbre de duplication après suppression Suppression d’une feuille dans un 1-RDT h i j f c d e b a r i j f c d e b a r h j 12i f b a r h c d e 12ij91011 f b a r h c d e 1ij91011 b a r f 1 b a r cde a 1 r be r be suppression de la feuille 1 La feuille est dite supprimable.
1-RDT : On garde un arbre de duplication après suppression Suppression d’une feuille dans un 1-RDT r be b r cde c d e ij91011 b r f c d e 2ij91011 f b r h c d e j 2i f b r h i j f c d e b r h suppression de la feuille 1 r h i j f c d e b L’arbre obtenu est l’arbre de départ dans lequel on a supprimé la feuille 1 La feuille est dite supprimable.
Suppression d’une feuille f dans un RDT Cas 1 : f n'est pas issue de duplication multiple f est supprimable. suppression de f u c p p’ a u c a 6 cas se présentent : Cas 2 : f est feuille centrale issue de duplication multiple f est supprimable. suppression de f b p a u p’ a b u 45612
Suppression d’une feuille f dans un RDT Cas 3 : f est feuille interne issue de duplication multiple f n’est pas supprimable. suppression de f p b u p’ a b u a Cas 4 : f est une feuille extrême issue de duplication multiple, et u n'est pas adjacent possible d'une feuille extrême issue de cette duplication f n’est pas supprimable. suppression de f p u b p’ a u b a
Suppression d’une feuille f dans un RDT Cas 5 : f est une feuille extrême issue de duplication multiple, et u est adjacent possible d'une feuille extrême issue de cette duplication, et p est supprimable f est supprimable. suppression de f p b u p’ a b u a Cas 6 : f est une feuille extrême issue de duplication multiple, et u n'est pas adjacent possible d'une feuille extrême issue de cette duplication f n’est pas supprimable. suppression de f p d c p’ b 0 a d c b 0 a
,6 Suppression d’une feuille f d’un RDT Proportion d'arbres qui perdent le caractère de duplication, en fonction du nombre de feuilles , ou de la feuille supprimée nombre de feuilles pourcentage d’arbres qui perdent leur caractère de duplication ,6 feuille supprimée pourcentage d’arbres qui perdent leur caractère de duplication
Suppression d’une feuille f d’un RDT Proportion des feuilles dans chaque cas Cas 2 Cas 1 Cas 3 Cas 4 Cas 6 Cas feuilles 100 feuilles 100 feuilles 24 feuilles 18 feuilles 12 feuilles 10 feuilles 8 feuilles Le modèle est donc relativement robuste, avec 3/4 des arbres qui restent de duplication. On a besoin de vérifier les conditions de délétions sur le père pour seulement 8% des feuilles.
TiTi u i rsisi T’ k s i suppression de r en tant que feuille suppression du sous-arbre T’ s i agglomérations T u i r s i Soit (T,O), un arbre de duplication enraciné. Soit r, la racine du sous-arbre à supprimer dans cet arbre. L'arbre (T',O') résultant de la suppression du sous-arbre de racine r dans (T,O) est un arbre de duplication une des trois conditions de délétion est vérifiée. Suppression d’un sous-arbre dans un RDT
Les réarrangements topologiques SPR (Subtree Pruning and Regrafting) SPR(r,(x,y),(T,O)) Le SPR est valide si l’arbre résultant du SPR est un arbre de duplication. Les SPR valides permettent d’explorer l’espace des RDT. r x y y x r (T,O)(T,O)
Soit (T,O) un arbre de duplication. L'arbre d'agglomération minimale pour r et (T,O) est l'arbre obtenu après un minimum d'agglomérations dans lequel r est feuille. SPR sur un sous-arbre Soient r, x et y des sommets de T, et (T i,O i ), l'arbre d'agglomération minimale pour r et (T,O). SPR(r,(x,y),(T,O)) est valide si et seulement si SPR(r,(x,y),(T i,O i )) est valide. Il suffit de donc d’étudier les SPR sur les feuilles !
Une déception Un SPR peut être valide bien que la feuille concernée ne soit pas supprimable... f e c d a b SPR(2,(f,4),(T,O)) f e p d a b
Divers SPR SPR 1 T T’ SPR1 x f y x f y p T x fv y p’ T’ x fv y p’ p SPR1 T’’ x fv y p’ p SPR 2 SPR3 u 2 u n u 1 d1d1 d2d2 dndn g1g1 g2g2 f x y T u 2 u n u 1 d1d1 d2d2 dndn g1g1 g2g2 f p y x T’ SPR 3
Divers SPR SPR 4 g n a v y SPR4 u 2 u n x d2d2 dndn a f T T’ fv g n a v y u 2 u n p d2d2 dndn a f f v x SPR 5 a f g2g2 a v SPR5 u 2 u n u1 u1 d2d2 dndn g1g1 x y T T’ vf u 2 u n u1 u1 a v d2d2 dndn g1g1 g2g2 p y v a f f x
Bilan quantitatif sur les SPR Proportion des SPR dans chaque cas SPR 2 SPR 1 SPR 4 SPR 5 SPR valides non reconnus SPR 3 SPR non valides
Conclusion Les résultats sur les feuilles sont intéressants sur la proportion d’arbres corrects, mais doivent être complétés par des analyses biologiques d’arbres de duplication vérifiés, puisque les arbres de duplications observés contiennent moins de duplications multiples qu’en théorie. Les conditions de suppression des feuilles sont plus complexes qu’espérées, l’obligation de vérifier les conditions sur les ancêtres notamment. Les SPR identifiés ne couvrent pas une grande portion de l’espace des SPR, et sont trop compliqués pour être utiles.
Annexe : Montpellier Le Peyrou et le Château d’Eau
Annexe : Montpellier L’Arc de Triomphe à la sortie du Peyrou
Annexe : Montpellier Immeuble habité par Guyslain Naves dans sa jeunesse L’aqueduc
Annexe : Montpellier La Faculté de Médecine
Annexe : Montpellier La Préfecture, face à un magasin Gibert