La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004 répétitions et duplications intra-chromosomiques.

Présentations similaires


Présentation au sujet: "Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004 répétitions et duplications intra-chromosomiques."— Transcription de la présentation:

1 Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004 Alain.Viari@inrialpes.fr répétitions et duplications intra-chromosomiques

2 Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques

3 Introduction -> duplications à différents niveaux

4 niveaux de duplication dans les génomes (1) Xenopus laevis: 36 chr diploids Xenopus vestitus: 72 chr. tetraploids Xenopus ruwenzoriensis: 108 chr. hexaploids Ensemble du génome (polyploidie) Segments de génome II XIV IV XVI XII XIII XV X V VIII III 12 Mb 12 Mb 16 chromosomes 16 chromosomes 5 800 gènes. 5 800 gènes. Saccharomyces cerevisiae -> 50% du génome

5 niveaux de duplication dans les génomes (2) Satellites (mini, micro, alu) répétitions multicopies en tandem -au niveau des centromères -170 pb -> 7% du génome chez -> 7% du génome chez Cercopithecus aethiops Cercopithecus aethiops Transposons 2,4 Gb 10 paires de chr > 60% de transposons Zea Mays

6 niveaux de duplication dans les génomes (3) mais encore... 4,6 Mb 4,6 Mb 4 288 gènes 4 288 gènes Séquences répétées : Séquences répétées : - 22 IS - 7 rDNA, 5 Rhs, 314 REP, etc. - 1 345 gènes dupliqués. Escherichia coli

7 Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques

8 Repétitions dans les génomes nature de lobjet répété (structural, lexical) nature des copies (exact, approximatif) nombre de copies (r 2) aspect inattendu (taille minimale) aspect biologique (inter/intra espèce chromosome)

9 Nature de lobjet répété : répétitions structurales exemple 1 : tRNA pb recherche / inférence A T G C Structures secondaires dARN exemple 2 : triple hélices picture missing...

10 Répétitions lexicales : nombre de copies A = {A,C,G,T} répétitions lexicales nombre de copies (r = 2 ; r > 2) aspect statistique biais de comptage aspect algorithmique transitif / non transitif aspect biologique mécanismes 2 à 2 explosion suppression

11 Répétitions lexicales : nature de la copie répétition exacte ou approchée aspect algorithmique exact : suffix-trees/arrays, KMR, oracle des facteurs semi-approché : KMR approché : exact + heuristique (prog. dynamique) aspect statistique exact : Karlin et al. 85 (Markov 0) -> Lmin = F(r,fi) approché : ??

12 Répétitions lexicales : orientation de la copie répétition directe / « inverse » ATTTG GTTTA CAAAT TAAAG 5 3 5 3

13 Répétitions lexicales : aspect biologiques Inter-espèces transfert horizontal Intra-espèce Inter-chromosomique duplication géniques elts mobiles Intra-espèce Intra-chromosomique

14 Pourquoi chercher des répétitions ? Aspect entomologique Trace de lévolution outil pour lanalyse de la dynamique des génomes

15 Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques

16 Montage expérimental copy 1copy 2

17 Densité de répétitions Rocha et al. MBE 99

18 Distribution des répétitions

19 Distribution des répétitions chez B. subtilis ARNr operons prophages (SPb et PBSX) other : ARNsb closely spaced repeats distance entre occurences (Kb) # répétitions

20 Horizontal transfert in B. subtilis (hypothesis) Transfert horizontal chez B. subtilis (hypothèse)

21 Inserted Elements (IE) in B. subtilis 17 elements ; 5% of the total size of genome mean spacer size is 10.6 kb (10 kb expected) >50% of genes in spacers does not exhibit B. subtilis codon usage 2/3 of genes in spacers are UFO mostly represented identified functions are : - production of antibiotics - detoxification - restriction/modification and DNA reparation - motility and transport Transfert horizontal chez B. subtilis (hypothèse)

22 Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques

23 Mouvements et évolution des génomes. Mouvements et évolution des génomes. Observation directe impossible Observation directe impossible rechercher des traces de son activité (répétitions). rechercher des traces de son activité (répétitions). Répétitions = générateur dinstabilités chromosomiques (recombinaison). Répétitions = générateur dinstabilités chromosomiques (recombinaison). Répétitions = traces et moteur de la dynamique des génomes. Objectif Les répétitions comme outil détude de la dynamique des génomes

24 séquence unique répétition stricte duplication répétition récente mutations répétition ancienne mutations Un modèle (trop) simple

25 Montage expérimental (1) -> répétitions approchées sur lADN heuristique -1- Répétitions maximales exactes (r=2, LLmin)-> graines maximalité x a b b c y y y a b b c z... x a a a a y y y a a a a z... difficultés avec les régions de faible complexité

26 Montage expérimental (2) -2- Extension des graines-> graines Alignement local (prog. dyn) -3- Elimination des overlaps

27 dans les subtélomères basse complexité CACACACA Extension Détection L min = 15 - 17 bp Détection L min = 15 - 17 bp Filtre entropique & subtélomérique Filtre entropique & subtélomérique Filtre Répétitions particulières Filtre Répétitions particulières Ty, solos, ARNt, ARNr Longeur > 30 %Identité > 50% Longeur > 30 %Identité > 50% Montage expérimental (résumé)

28 Paramètres longueurspacer % identité note : spacer > 0

29 Saccharomyces cerevisiae Génome de la levure 275 340 Répétitions directes Répétitions inversées 2524 Génome aléatoire Résultats (1)

30 Les Close Direct Repeats (CDR) sont surreprésentés. réel aléatoire (x 10) spacer % total Répétitions inversées 1bp3bp100bp1kb10kb100kb3.2Mb spacer % total Répétitions directes 1bp3bp100bp1kb10kb100kb3.2Mb CDR 0% 10% 20% 30% 40%50% 0% 10% 20% 30% 40%50% Spacer : distributions

31 Les CDR présentent une corrélation négative avec le % identité Spacer : corrélation avec le %identité entre les copies = - 0.36 p << 10 -4 = - 0.36 p << 10 -4 Direct Inverted

32 Spacer : corrélation avec la longueur Inverted Direct = + 0.26 p ~ 3.10 -6 = + 0.26 p ~ 3.10 -6 Les CDR présentent une corrélation positive avec la taille

33 La recombinaison est négativement corrélée à la taille du spacer. Délétion ConversionDuplicationMutations CDR Autres répétititons Longueur Identité (%) Un modèle (moins) simple

34 Recombinaison ectopique quelconque Positivement corrélée à la longeur Positivement corrélée à la longeur Positivement corrélée à lidentité Positivement corrélée à lidentité Recombinaison intrachromosomique Négativement corrélée au spacer pour des CDR uniquement (Bactéries) Négativement corrélée au spacer pour des CDR uniquement (Bactéries) Données expérimentales (littérature) : recombinaison

35 % total % identité 556065707580859095 100 0% 5% 10% 15% 20% 25% 30% 35% 40% % total 556065707580859095 100 0% 5% 10% 15% 20% 25% 30% 35%40% Répétitions directes Répétitions inversées réel aléatoire %identité et longueur : distributions

36 CDRDélétion Duplication Conversion Mutations Pressions de sélection (fonction) CDS Conversion Mutations ? ? Réarrangement(s) chromosomique(s) Un modèle (un peu plus) complet tectonique des répétitions

37 Saccharomyces cerevisiae 16 chromosomes: 12.1 Mb (génome complet) Plasmodium falciparum 2 chromosomes: 2 Mb Arabidopsis thaliana 2 chromosomes: 37.2 Mb Caenorhabditis elegans 6 chromosomes: 95.2 Mb (génome complet) Drosophila melanogaster 6 bras chromosomiques : 114.4 Mb Homo sapiens 2 chromosomes: 67.3 Mb (Achaz et al., 2001) Extension à dautres eucaryotes

38 directes inversées S. cerevisiae 0 5 10 15 20 25 3035 0 10bp 100bp 1kb 10kb 100kb 1Mb A. thaliana 0 100 300 400 500 600 700 200 010bp 100bp 1kb 10kb 100kb 1Mb 10Mb P. falciparum 0 10 20 30 4050 0 10bp 100bp 1kb 10kb 100kb 1Mb C. elegans 0 200 400 600 800 1000 0 10bp 100bp 1kb 10kb 100kb 1Mb 10Mb H. sapiens 0 200 400 600 800 1000 0 10bp 100bp1kb 10kb 100kb 1Mb 10Mb 100Mb D. melanogaster 0 50 100 150 200 010bp 100bp 1kb 10kb 100kb 1Mb 10Mb Nombre Nombre Distribution du spacer

39 Spacer vs. Longueur Spacer vs. Identité CDR p p De(/Mb) N Espèces <10 -4 0.33<10 -4 -0.3015.51,042H. sapiens <10 -4 0.41<10 -4 -0.364.7546D. melanogaster <10 -4 0.24<10 -4 -0.3134.03,242C. elegans <10 -4 0.39<10 -4 -0.3523.9889A. thaliana >0.050.06>0.05-0.0849.8100P. falciparum <10 -4 0.45<10 -3 -0.325.060S. cerevisiae Corrélations du spacer

40 0 1 2 3 4 5 05101520 Répétitions directes (% du chromosome) Répétitions inversées (%du chromosome) S. cerevisiae A. thaliana C. elegans P. falciparum D. melanogaster H. sapiens Les répétitions directes sont (un peu) plus nombreuses que les inversées. Densité en bases D = b i L i 1/N

41 Les chromosomes de la même espèce présentent une De similaire -> propriété nucléaire globale ? 0 10 20 30 40 50 020406080100 Répétitions directes (/Mb) Répétitions inversées (/Mb) S. cerevisiae A. thaliana C. elegans P. falciparum D. melanogaster H. sapiens Densité en évènements D = e n/N

42 Conclusion eucaryotes idem procaryotes (50 génomes) les répétitions comme outil détude de la dynamique des génomesCDRDélétion Duplication Conversion Mutations Pressions de sélection (fonction) CDS Conversion Mutations ? ? Réarrangement(s) chromosomique(s)

43 Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques

44 Un problème algorithmique (classique) NA pb: trouver toutes les r-répétions (exactes) de la plus grande taille (* Karp-Miller-Rosenberg) Suffix-treeKMR(*)Oracle des facteurs (**) time space O(N)O(NlogN)O(N) 12N8N10N (** heuristique)

45 En pratique... pb pratique: trouver toutes les 2-répétions maximales de tailles Lmin 5% ? note: en utilisation pratique Lmin est tel que n 2 << N

46 Vers des très grandes séquences Principe de KMR R a relation déquivalence sur lensemble des indices ij aa i R j i R j et i+b R j+b ; a b 1 a+b Lemme aa ij aa aa b b Algo (raffinement de partition) P1 -> P2 -> P4 -> P8 -> P16.... 4N 8N time: O(NlogN) space: O(N) < 1N

47 Remerciements Guillaume ACHAZ Eric COISSAC Eduardo ROCHA Frédéric BOYER Pierre NETTER

48


Télécharger ppt "Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004 répétitions et duplications intra-chromosomiques."

Présentations similaires


Annonces Google