Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004 répétitions et duplications intra-chromosomiques.

Slides:



Advertisements
Présentations similaires
L'hybridation fluorescente (FISH)
Advertisements

Journées AReNA, Strasbourg,18-20 Avril 2005 Problèmes liés à lidentification de gènes bactériens exprimant des ARN non traduits en protéines UPRES JE 2311,
Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Mardi 12 décembre h30 (50 min) La phylogénie, ses concepts et ses applications à la génomiqueLa phylogénie, ses concepts et ses applications à la.
Approches comportementales et électroencéphalographiques
Etude de la mobilité des éléments intégratifs conjugatifs (ICE) intégrés dans un gène codant un ARNt Lysine chez Streptococcus agalactiae Présenté par.
Innovations génétiques
Evolution de la quantité d’ADN et des chromosomes…
PLAN I. Support et organisation de l'IG
Colloque Traitement et Analyse de séquences : compte-rendu
Identités remarquables : introduction Les 3 identités remarquables
TECHNIQUES D’ANTENNES POUR LES TELECOMMUNICATIONS
Le remplacement moléculaire
Laurent Labarre AGC - UMR Génoscope
Les enzymes : outils de biologie moléculaire Enzymes de restriction: endonucléases Kinases: ajoutent un phosphate (P*) Phosphatases: retirent un phosphate.
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
ADN.
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
Etienne Bertaud du Chazaud
Bioinformatique =?? génomique protéomique
Licence professionnelle de Génomique
Application des algorithmes génétiques
Projet Génome Humain (HGP)
La Régulation génétique chez les Procaryotes
YASS : Recherche de similarités dans les séquences d'ADN
Cartographie et Localisation par vision monoculaire
ARN késako ? Julie BERNAUERAdrien GUILHOT-GAUDEFFROY Yann PONTYMireille REGNIER EQUIPE PROJET AMIB Inria Saclay 28 Septembre 2012.
La division cellulaire
La coévolution Définition
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Champs de Markov cachés pour la classification de gènes..
Responsables P. Maury & R. Babilé
Génétique-Biostatistique1 Estimation de la réponse corrélée des caractères de croissance lors de sélection des lapins sur la taille de la portée.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Recombination and the Nature of Bacterial Speciation
1 Du pixel à lobjet : méthodes stochastiques X. Descombes Projet Ariana Orféo, 14 juin 2005.
Modeles non-lineaires
La méthodologie expérimentale Fondements et bases d’application
Génération d’un segment de droite
Jean-François LOUF, Geoffroy Guéna & Yöel FORTERRE* Eric Badel**
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
Annotation de génomes complets
Réseaux géniques et métaboliques : vers des modèles intégrés Réunion du groupe de travail « Analyse dynamique de réseaux de régulation biologiques » Grenoble,
Recherche heuristique dans les bases de données L’algorithme BLAST
Segmentation (1ère partie)
"POLYMORPHISME" Plusieurs Formes
Distribution géographique d’un réseau de relations interpersonnelles. Pauline Dedeurwaerder Promoteur : V. Blondel MAP22.
1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )
High genomic deleterious mutation rates in hominids Eyre-Walker & P. D. Keightley Letters to Nature, Jan. 99.
Introduction Matériels et méthodes Résultats
Introduction à la Pathologie Moléculaire du Gène
Familles de gènes Nadia El-Mabrouk.
Réunion MODULOME 28/05/2008 Christine ROUSSEAU L'analyse des CRISPR et des gènes associés comme répétitions locales et voisine MODULOME.
Les subtélomères des chromosomes des hémiascomycètes Nantes, octobre 2006 Cécile Fairhead Génétique Moléculaire des Levures Institut Pasteur, Paris.
Réunion MODULOME 28/05/2008 Christine ROUSSEAU Inventaire des miHsmar1 dans le génome Humain MODULOME.
STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004.
Gène Séquence d'acides nucléïques contenant une information codée pour la production régulée d'un ARN (transcription), ce dernier pouvant être traduit.
Réunion MODULOME 15/10/2007 Christine ROUSSEAU Recherche des CRISPRs : Résultats MODULOME.
OBJECTIFS FouDanGA : Fouille de données pour l’annotation de génomes d’actinomycètes CONTEXTE Mise en œuvre de méthodes.
La génétique et la biométrie
Recherche heuristique dans les bases de données L’algorithme BLAST
Cartographie génomes entiers
TP 5 Les mécanismes de l’évolution des populations.
III. Les anomalies de la méiose
LES POLYMORPHISMES DU GENOME
ETUDE DE LA TRANSGRESSION Transgressive segregation, adaptation and speciation (Rieseberg et al., 1999) The genetic architecture necessary for transgressive.
Innovations génétiques: Implication de la duplication de gènes.
Définition de la transpotion La transposition correspond au déplacement aléatoire, sur le chromosome, de fragments d’ADN nommés éléments génétique mobile.
Transcription de la présentation:

Séminaire Bioinfo-Ouest / Symbiose - 29 avril 2004 répétitions et duplications intra-chromosomiques

Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques

Introduction -> duplications à différents niveaux

niveaux de duplication dans les génomes (1) Xenopus laevis: 36 chr diploids Xenopus vestitus: 72 chr. tetraploids Xenopus ruwenzoriensis: 108 chr. hexaploids Ensemble du génome (polyploidie) Segments de génome II XIV IV XVI XII XIII XV X V VIII III 12 Mb 12 Mb 16 chromosomes 16 chromosomes gènes gènes. Saccharomyces cerevisiae -> 50% du génome

niveaux de duplication dans les génomes (2) Satellites (mini, micro, alu) répétitions multicopies en tandem -au niveau des centromères -170 pb -> 7% du génome chez -> 7% du génome chez Cercopithecus aethiops Cercopithecus aethiops Transposons 2,4 Gb 10 paires de chr > 60% de transposons Zea Mays

niveaux de duplication dans les génomes (3) mais encore... 4,6 Mb 4,6 Mb gènes gènes Séquences répétées : Séquences répétées : - 22 IS - 7 rDNA, 5 Rhs, 314 REP, etc gènes dupliqués. Escherichia coli

Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques

Repétitions dans les génomes nature de lobjet répété (structural, lexical) nature des copies (exact, approximatif) nombre de copies (r 2) aspect inattendu (taille minimale) aspect biologique (inter/intra espèce chromosome)

Nature de lobjet répété : répétitions structurales exemple 1 : tRNA pb recherche / inférence A T G C Structures secondaires dARN exemple 2 : triple hélices picture missing...

Répétitions lexicales : nombre de copies A = {A,C,G,T} répétitions lexicales nombre de copies (r = 2 ; r > 2) aspect statistique biais de comptage aspect algorithmique transitif / non transitif aspect biologique mécanismes 2 à 2 explosion suppression

Répétitions lexicales : nature de la copie répétition exacte ou approchée aspect algorithmique exact : suffix-trees/arrays, KMR, oracle des facteurs semi-approché : KMR approché : exact + heuristique (prog. dynamique) aspect statistique exact : Karlin et al. 85 (Markov 0) -> Lmin = F(r,fi) approché : ??

Répétitions lexicales : orientation de la copie répétition directe / « inverse » ATTTG GTTTA CAAAT TAAAG

Répétitions lexicales : aspect biologiques Inter-espèces transfert horizontal Intra-espèce Inter-chromosomique duplication géniques elts mobiles Intra-espèce Intra-chromosomique

Pourquoi chercher des répétitions ? Aspect entomologique Trace de lévolution outil pour lanalyse de la dynamique des génomes

Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques

Montage expérimental copy 1copy 2

Densité de répétitions Rocha et al. MBE 99

Distribution des répétitions

Distribution des répétitions chez B. subtilis ARNr operons prophages (SPb et PBSX) other : ARNsb closely spaced repeats distance entre occurences (Kb) # répétitions

Horizontal transfert in B. subtilis (hypothesis) Transfert horizontal chez B. subtilis (hypothèse)

Inserted Elements (IE) in B. subtilis 17 elements ; 5% of the total size of genome mean spacer size is 10.6 kb (10 kb expected) >50% of genes in spacers does not exhibit B. subtilis codon usage 2/3 of genes in spacers are UFO mostly represented identified functions are : - production of antibiotics - detoxification - restriction/modification and DNA reparation - motility and transport Transfert horizontal chez B. subtilis (hypothèse)

Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques

Mouvements et évolution des génomes. Mouvements et évolution des génomes. Observation directe impossible Observation directe impossible rechercher des traces de son activité (répétitions). rechercher des traces de son activité (répétitions). Répétitions = générateur dinstabilités chromosomiques (recombinaison). Répétitions = générateur dinstabilités chromosomiques (recombinaison). Répétitions = traces et moteur de la dynamique des génomes. Objectif Les répétitions comme outil détude de la dynamique des génomes

séquence unique répétition stricte duplication répétition récente mutations répétition ancienne mutations Un modèle (trop) simple

Montage expérimental (1) -> répétitions approchées sur lADN heuristique -1- Répétitions maximales exactes (r=2, LLmin)-> graines maximalité x a b b c y y y a b b c z... x a a a a y y y a a a a z... difficultés avec les régions de faible complexité

Montage expérimental (2) -2- Extension des graines-> graines Alignement local (prog. dyn) -3- Elimination des overlaps

dans les subtélomères basse complexité CACACACA Extension Détection L min = bp Détection L min = bp Filtre entropique & subtélomérique Filtre entropique & subtélomérique Filtre Répétitions particulières Filtre Répétitions particulières Ty, solos, ARNt, ARNr Longeur > 30 %Identité > 50% Longeur > 30 %Identité > 50% Montage expérimental (résumé)

Paramètres longueurspacer % identité note : spacer > 0

Saccharomyces cerevisiae Génome de la levure Répétitions directes Répétitions inversées 2524 Génome aléatoire Résultats (1)

Les Close Direct Repeats (CDR) sont surreprésentés. réel aléatoire (x 10) spacer % total Répétitions inversées 1bp3bp100bp1kb10kb100kb3.2Mb spacer % total Répétitions directes 1bp3bp100bp1kb10kb100kb3.2Mb CDR 0% 10% 20% 30% 40%50% 0% 10% 20% 30% 40%50% Spacer : distributions

Les CDR présentent une corrélation négative avec le % identité Spacer : corrélation avec le %identité entre les copies = p << = p << Direct Inverted

Spacer : corrélation avec la longueur Inverted Direct = p ~ = p ~ Les CDR présentent une corrélation positive avec la taille

La recombinaison est négativement corrélée à la taille du spacer. Délétion ConversionDuplicationMutations CDR Autres répétititons Longueur Identité (%) Un modèle (moins) simple

Recombinaison ectopique quelconque Positivement corrélée à la longeur Positivement corrélée à la longeur Positivement corrélée à lidentité Positivement corrélée à lidentité Recombinaison intrachromosomique Négativement corrélée au spacer pour des CDR uniquement (Bactéries) Négativement corrélée au spacer pour des CDR uniquement (Bactéries) Données expérimentales (littérature) : recombinaison

% total % identité % 5% 10% 15% 20% 25% 30% 35% 40% % total % 5% 10% 15% 20% 25% 30% 35%40% Répétitions directes Répétitions inversées réel aléatoire %identité et longueur : distributions

CDRDélétion Duplication Conversion Mutations Pressions de sélection (fonction) CDS Conversion Mutations ? ? Réarrangement(s) chromosomique(s) Un modèle (un peu plus) complet tectonique des répétitions

Saccharomyces cerevisiae 16 chromosomes: 12.1 Mb (génome complet) Plasmodium falciparum 2 chromosomes: 2 Mb Arabidopsis thaliana 2 chromosomes: 37.2 Mb Caenorhabditis elegans 6 chromosomes: 95.2 Mb (génome complet) Drosophila melanogaster 6 bras chromosomiques : Mb Homo sapiens 2 chromosomes: 67.3 Mb (Achaz et al., 2001) Extension à dautres eucaryotes

directes inversées S. cerevisiae bp 100bp 1kb 10kb 100kb 1Mb A. thaliana bp 100bp 1kb 10kb 100kb 1Mb 10Mb P. falciparum bp 100bp 1kb 10kb 100kb 1Mb C. elegans bp 100bp 1kb 10kb 100kb 1Mb 10Mb H. sapiens bp 100bp1kb 10kb 100kb 1Mb 10Mb 100Mb D. melanogaster bp 100bp 1kb 10kb 100kb 1Mb 10Mb Nombre Nombre Distribution du spacer

Spacer vs. Longueur Spacer vs. Identité CDR p p De(/Mb) N Espèces < < ,042H. sapiens < < D. melanogaster < < ,242C. elegans < < A. thaliana > > P. falciparum < < S. cerevisiae Corrélations du spacer

Répétitions directes (% du chromosome) Répétitions inversées (%du chromosome) S. cerevisiae A. thaliana C. elegans P. falciparum D. melanogaster H. sapiens Les répétitions directes sont (un peu) plus nombreuses que les inversées. Densité en bases D = b i L i 1/N

Les chromosomes de la même espèce présentent une De similaire -> propriété nucléaire globale ? Répétitions directes (/Mb) Répétitions inversées (/Mb) S. cerevisiae A. thaliana C. elegans P. falciparum D. melanogaster H. sapiens Densité en évènements D = e n/N

Conclusion eucaryotes idem procaryotes (50 génomes) les répétitions comme outil détude de la dynamique des génomesCDRDélétion Duplication Conversion Mutations Pressions de sélection (fonction) CDS Conversion Mutations ? ? Réarrangement(s) chromosomique(s)

Plan -1- Introduction -2- Définitions -3 - Expérience 1 : répétitions chez B. subtilis -4 - Expérience 2 : Levure et extensions -5- Aspects algorithmiques

Un problème algorithmique (classique) NA pb: trouver toutes les r-répétions (exactes) de la plus grande taille (* Karp-Miller-Rosenberg) Suffix-treeKMR(*)Oracle des facteurs (**) time space O(N)O(NlogN)O(N) 12N8N10N (** heuristique)

En pratique... pb pratique: trouver toutes les 2-répétions maximales de tailles Lmin 5% ? note: en utilisation pratique Lmin est tel que n 2 << N

Vers des très grandes séquences Principe de KMR R a relation déquivalence sur lensemble des indices ij aa i R j i R j et i+b R j+b ; a b 1 a+b Lemme aa ij aa aa b b Algo (raffinement de partition) P1 -> P2 -> P4 -> P8 -> P N 8N time: O(NlogN) space: O(N) < 1N

Remerciements Guillaume ACHAZ Eric COISSAC Eduardo ROCHA Frédéric BOYER Pierre NETTER