Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004 répétitions et duplications intra-chromosomiques
Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques
Introduction -> duplications à différents niveaux
niveaux de duplication dans les génomes (1) Xenopus laevis: 36 chr diploids Xenopus vestitus: 72 chr. tetraploids Xenopus ruwenzoriensis: 108 chr. hexaploids Ensemble du génome (polyploidie) Segments de génome II XIV IV XVI XII XIII XV X V VIII III 12 Mb 12 Mb 16 chromosomes 16 chromosomes gènes gènes. Saccharomyces cerevisiae -> 50% du génome
niveaux de duplication dans les génomes (2) Satellites (mini, micro, alu) répétitions multicopies en tandem -au niveau des centromères -170 pb -> 7% du génome chez -> 7% du génome chez Cercopithecus aethiops Cercopithecus aethiops Transposons 2,4 Gb 10 paires de chr > 60% de transposons Zea Mays
niveaux de duplication dans les génomes (3) mais encore... 4,6 Mb 4,6 Mb gènes gènes Séquences répétées : Séquences répétées : - 22 IS - 7 rDNA, 5 Rhs, 314 REP, etc gènes dupliqués. Escherichia coli
Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques
Repétitions dans les génomes nature de lobjet répété (structural, lexical) nature des copies (exact, approximatif) nombre de copies (r 2) aspect inattendu (taille minimale) aspect biologique (inter/intra espèce chromosome)
Nature de lobjet répété : répétitions structurales exemple 1 : tRNA pb recherche / inférence A T G C Structures secondaires dARN exemple 2 : triple hélices picture missing...
Répétitions lexicales : nombre de copies A = {A,C,G,T} répétitions lexicales nombre de copies (r = 2 ; r > 2) aspect statistique biais de comptage aspect algorithmique transitif / non transitif aspect biologique mécanismes 2 à 2 explosion suppression
Répétitions lexicales : nature de la copie répétition exacte ou approchée aspect algorithmique exact : suffix-trees/arrays, KMR, oracle des facteurs semi-approché : KMR approché : exact + heuristique (prog. dynamique) aspect statistique exact : Karlin et al. 85 (Markov 0) -> Lmin = F(r,fi) approché : ??
Répétitions lexicales : orientation de la copie répétition directe / « inverse » ATTTG GTTTA CAAAT TAAAG
Répétitions lexicales : aspect biologiques Inter-espèces transfert horizontal Intra-espèce Inter-chromosomique duplication géniques elts mobiles Intra-espèce Intra-chromosomique
Pourquoi chercher des répétitions ? Aspect entomologique Trace de lévolution outil pour lanalyse de la dynamique des génomes
Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques
Montage expérimental copy 1copy 2
Densité de répétitions Rocha et al. MBE 99
Distribution des répétitions
Distribution des répétitions chez B. subtilis ARNr operons prophages (SPb et PBSX) other : ARNsb closely spaced repeats distance entre occurences (Kb) # répétitions
Horizontal transfert in B. subtilis (hypothesis) Transfert horizontal chez B. subtilis (hypothèse)
Inserted Elements (IE) in B. subtilis 17 elements ; 5% of the total size of genome mean spacer size is 10.6 kb (10 kb expected) >50% of genes in spacers does not exhibit B. subtilis codon usage 2/3 of genes in spacers are UFO mostly represented identified functions are : - production of antibiotics - detoxification - restriction/modification and DNA reparation - motility and transport Transfert horizontal chez B. subtilis (hypothèse)
Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques
Mouvements et évolution des génomes. Mouvements et évolution des génomes. Observation directe impossible Observation directe impossible rechercher des traces de son activité (répétitions). rechercher des traces de son activité (répétitions). Répétitions = générateur dinstabilités chromosomiques (recombinaison). Répétitions = générateur dinstabilités chromosomiques (recombinaison). Répétitions = traces et moteur de la dynamique des génomes. Objectif Les répétitions comme outil détude de la dynamique des génomes
séquence unique répétition stricte duplication répétition récente mutations répétition ancienne mutations Un modèle (trop) simple
Montage expérimental (1) -> répétitions approchées sur lADN heuristique -1- Répétitions maximales exactes (r=2, LLmin)-> graines maximalité x a b b c y y y a b b c z... x a a a a y y y a a a a z... difficultés avec les régions de faible complexité
Montage expérimental (2) -2- Extension des graines-> graines Alignement local (prog. dyn) -3- Elimination des overlaps
dans les subtélomères basse complexité CACACACA Extension Détection L min = bp Détection L min = bp Filtre entropique & subtélomérique Filtre entropique & subtélomérique Filtre Répétitions particulières Filtre Répétitions particulières Ty, solos, ARNt, ARNr Longeur > 30 %Identité > 50% Longeur > 30 %Identité > 50% Montage expérimental (résumé)
Paramètres longueurspacer % identité note : spacer > 0
Saccharomyces cerevisiae Génome de la levure Répétitions directes Répétitions inversées 2524 Génome aléatoire Résultats (1)
Les Close Direct Repeats (CDR) sont surreprésentés. réel aléatoire (x 10) spacer % total Répétitions inversées 1bp3bp100bp1kb10kb100kb3.2Mb spacer % total Répétitions directes 1bp3bp100bp1kb10kb100kb3.2Mb CDR 0% 10% 20% 30% 40%50% 0% 10% 20% 30% 40%50% Spacer : distributions
Les CDR présentent une corrélation négative avec le % identité Spacer : corrélation avec le %identité entre les copies = p << = p << Direct Inverted
Spacer : corrélation avec la longueur Inverted Direct = p ~ = p ~ Les CDR présentent une corrélation positive avec la taille
La recombinaison est négativement corrélée à la taille du spacer. Délétion ConversionDuplicationMutations CDR Autres répétititons Longueur Identité (%) Un modèle (moins) simple
Recombinaison ectopique quelconque Positivement corrélée à la longeur Positivement corrélée à la longeur Positivement corrélée à lidentité Positivement corrélée à lidentité Recombinaison intrachromosomique Négativement corrélée au spacer pour des CDR uniquement (Bactéries) Négativement corrélée au spacer pour des CDR uniquement (Bactéries) Données expérimentales (littérature) : recombinaison
% total % identité % 5% 10% 15% 20% 25% 30% 35% 40% % total % 5% 10% 15% 20% 25% 30% 35%40% Répétitions directes Répétitions inversées réel aléatoire %identité et longueur : distributions
CDRDélétion Duplication Conversion Mutations Pressions de sélection (fonction) CDS Conversion Mutations ? ? Réarrangement(s) chromosomique(s) Un modèle (un peu plus) complet tectonique des répétitions
Saccharomyces cerevisiae 16 chromosomes: 12.1 Mb (génome complet) Plasmodium falciparum 2 chromosomes: 2 Mb Arabidopsis thaliana 2 chromosomes: 37.2 Mb Caenorhabditis elegans 6 chromosomes: 95.2 Mb (génome complet) Drosophila melanogaster 6 bras chromosomiques : Mb Homo sapiens 2 chromosomes: 67.3 Mb (Achaz et al., 2001) Extension à dautres eucaryotes
directes inversées S. cerevisiae bp 100bp 1kb 10kb 100kb 1Mb A. thaliana bp 100bp 1kb 10kb 100kb 1Mb 10Mb P. falciparum bp 100bp 1kb 10kb 100kb 1Mb C. elegans bp 100bp 1kb 10kb 100kb 1Mb 10Mb H. sapiens bp 100bp1kb 10kb 100kb 1Mb 10Mb 100Mb D. melanogaster bp 100bp 1kb 10kb 100kb 1Mb 10Mb Nombre Nombre Distribution du spacer
Spacer vs. Longueur Spacer vs. Identité CDR p p De(/Mb) N Espèces < < ,042H. sapiens < < D. melanogaster < < ,242C. elegans < < A. thaliana > > P. falciparum < < S. cerevisiae Corrélations du spacer
Répétitions directes (% du chromosome) Répétitions inversées (%du chromosome) S. cerevisiae A. thaliana C. elegans P. falciparum D. melanogaster H. sapiens Les répétitions directes sont (un peu) plus nombreuses que les inversées. Densité en bases D = b i L i 1/N
Les chromosomes de la même espèce présentent une De similaire -> propriété nucléaire globale ? Répétitions directes (/Mb) Répétitions inversées (/Mb) S. cerevisiae A. thaliana C. elegans P. falciparum D. melanogaster H. sapiens Densité en évènements D = e n/N
Conclusion eucaryotes idem procaryotes (50 génomes) les répétitions comme outil détude de la dynamique des génomesCDRDélétion Duplication Conversion Mutations Pressions de sélection (fonction) CDS Conversion Mutations ? ? Réarrangement(s) chromosomique(s)
Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques
Un problème algorithmique (classique) NA pb: trouver toutes les r-répétions (exactes) de la plus grande taille (* Karp-Miller-Rosenberg) Suffix-treeKMR(*)Oracle des facteurs (**) time space O(N)O(NlogN)O(N) 12N8N10N (** heuristique)
En pratique... pb pratique: trouver toutes les 2-répétions maximales de tailles Lmin 5% ? note: en utilisation pratique Lmin est tel que n 2 << N
Vers des très grandes séquences Principe de KMR R a relation déquivalence sur lensemble des indices ij aa i R j i R j et i+b R j+b ; a b 1 a+b Lemme aa ij aa aa b b Algo (raffinement de partition) P1 -> P2 -> P4 -> P8 -> P N 8N time: O(NlogN) space: O(N) < 1N
Remerciements Guillaume ACHAZ Eric COISSAC Eduardo ROCHA Frédéric BOYER Pierre NETTER