La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires Etat de lart, évaluation des outils existants Maximilian Haeusser.

Présentations similaires


Présentation au sujet: "Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires Etat de lart, évaluation des outils existants Maximilian Haeusser."— Transcription de la présentation:

1 Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires Etat de lart, évaluation des outils existants Maximilian Haeusser Groupe Symbiose IRISA Rennes Oct 2003

2 Plan La situation biologique Principales approches en Bioinfo Découverte des motifs Enumération Gibbs Sampler Réduire le bruit La Pratique: Evaluation des outils Extraction des séquences Comparaison Découverte Conclusion

3 La situation biologique "The difference between man and monkey is gene regulation." (Leroy Hood, 2001)

4 Les facteurs de transcriptions (FT) sattachent à leurs fragments de lADN

5 Les FT forment des modules La distance et lordre peuvent etre important Il y a des FT, qui ne peuvent pas se lier seul. Il leur faut un autre FT. des FT qui empêchent dautres FT à se lier Des modules de plusieurs FT qui sont empechés par dautres modules de se lier Toute une logique permettant de ninitier la transcription que sous certaines conditions Les sites ont une structure spécifique Tutorial Regulatory Sequences, T. Werner, ISMB 2000

6 Les modules sont nombreux Une impression du nombre et de la structure des motifs pour quelques gènes de la drosophilie

7 Le cas de bactéries est plus facile Les bactériens nont quune cellule, donc, moins de conditions pour la régulation Elles ont moins de place sur le génome pour les éléments régulateurs, il est donc plus facile de trouver les sites Ils nont pas dintrons Presque tous les logiciels pour trouver les sites de liaison sappliquent quaux bactéries

8 Dautres circonstances sur la transcription Chromatine, la flexibilité, méthylation, etc. S/MARs, LCRs, etc… => Etre présent ne veut pas dire quon trouve vraiment un effet Felsenfeld et al, Nature 421, (23 January 2003);

9 Pas dexpériences haut-débit In vitro: Essais gel shift / ADNase / ChiP Longue a mettre au point In vivo: Mutations systématiques Beaucoup plus longue, difficile pour les mammifères Donc: Trop de boulot, puisquil y a des milliers des FTs

10 Réduire le nombre des mutations nécessaires: Il y a des gènes qui ont des sites de liaison en commun On cherche les fragments que plusieurs genes ont en commun Comment trouver des tels gènes? Expression (Mme Lagarrigue) Réseau génétique (Mme Theret) fonction ou tissu identiques (GO)

11 « The twilight zone of pattern discovery » (Pevzner2002) Lévolution change lADN: Des mutations qui empêchent le FT de se fixer a lADN ne sont pas viables Des mutations qui font le motif trop semblable aux dautres motifs ne sont pas viables Des mutations qui préservent juste la capacité dattirer le FT et sont assez uniques dans le génome restent Les motifs sont bien cachés mais ils devraient rester trouvables

12 Principales approches pour la découverte de motifs Petite etude bibliographique

13 Découverte des motifs Plutôt informatique: Enumerisation Arbre des suffix Plutôt statistiques: Gibbs Sampler Expectation maximization Dictionary based

14 Enumerisation -approche naïve- Le modèle du motif est une chaîne de lettres. On fait une liste de toutes les combinaisons des letters ATCG dun certain longueur On compte combien de fois ces fragments apparaissent dans les séquences On compte aussi les fragments qui sont similaire (p.ex. « ACCCT » est presque « ACTCT », comme ça, on augmente les compteurs des deux fragments) Les meilleurs fragments sont retournés Petite amélioration: Au lieu de 1., on prend juste tous les fragments quon trouve dans les séquences

15 Arbre des suffixes Un peu la même chose que lenumérisation mais plus rapide et il prend moins de mémoire

16 Dire que la boite TATA a un consensus de TATAAT donne une mauvaise impression de la réalité Seulement 14 de 291 sites correspondent à ce modèle Et si on compte les positions où il y a des desappariements, on ne sait pas où ils se trouvent Les motifs consensus sont à eviter TATAAT ?

17 Matrice pondérée Chaque position donne pour chaque acide nucléide une probabilité En plus, linformation content mesure la répartition des probabilités: Plus une base est bruitée, plus il est bas => Le logo ameliore la recherche des motifs connus Le modèle du motif est une liste des probabilités

18 Gibbs Sampler Piqué de: Denis Thiery, ESIL Marseille

19 Réduire le bruit Des bases conservées: Les motifs sont mieux conservés que le reste de la région non codante (pression sélective) Un motif qui est mieux conservé quun autre est plutôt un vrai motifs => Moins quun motif est bruité, plus son score est haut Des données dexpression Idée: Forte expression Forte probabilité quun FT se lie a ce fragment motif bien conserve ou plusieurs motifs dans la seq (Et le contraire: Faible expression motif dégénéré) => Des motifs qui correspondent a ce modèle ont un haut score

20 Un essai concret Les genes LXR, SREBF1, ABCA1 et FASN qui ont tous au moins le motif LXRE en commun -> Est-ce quon va le trouver?

21 Les problèmes 1.Extraction en masse des régions promotrices dun génome 2.(Trouver des régions conservées) 3.Trouver des motifs communs 4. Trouver les combinaisons communes

22 1 - Extraction de la region promotrices La région en amont de la région codante nest pas, pour les eucaryotes, la région promotrices. Lexon 1 est souvent pas codant. Il y a de longues introns (quelques milliers des bases) Debut de translation Initiation de transcription Source: Genomatix Tutorial

23 Extraction des régions en amont dun gène Problème: Pas de TSS annoté + séquences RefSeq pas assez longues => Sites dinitiation souvent incorrects (DBTSS: 30%) => la recherche pour la région en amont dun gène prend beaucoup de temps et est diffcile à trouver sans expériences pour quelques gènes

24 Outils dextraction des « promoteurs » On aligne quelques séquences ARNm sur le génome et prend la région devant. Le nombre des séquences varie selon loutil RSA-Tools 1999, PEG 2001, FIE 2002, Upstreamer 2002, Ensmart 2002, Promoser 2003 On essaie de trouver la région promotrices en exploitant sa composition PromoterInspector 2001, McPromoter 2001, Dragon Promoter Finger 2002, PromH 2003… (autour de 70% de sensitivité?)

25 LAlignment des EST UCSC Browser BLAT result view, prediction TSS de Promoser contre FIE, humain, gène SREBF1 TSS?

26 Différence: ~1200 bp (Toucan utilise lannotation dEnsembl, ou lxre est donc introuvable) Exemple: Le vrai TSS pour LXR NR1H3 humain Vu par DBTSS

27 Problème: On trouve trop de sites Même si on connaît le motif, on trouve trop dinstances: ~1300 …et si on filtre et prend seulement des motifs qui apparaissent dans toutes les quatre séquences: ~370 FASN, ABCA1, CYP7A1, SREBF1 de la souris en Genomatix Matinspector

28 Avec un modèle Markov (Toucan) Le modèle Markov est un modèle de bruit Tous les Gibbs Sampler actuels lont A quel prix? Klaus May: Exercice statistique sans valeur, on perd aussi les vrais, faibles motifs (en général?), qui se fixent en modules Gert Thijs et al: Très utile, on trouve mieux les motifs déjà décrits (exemple: Les procaryotes) => Les motifs déjà décrits, sont-ils aussi les motifs les mieux conservés? MotifScanner avec «epd mouse 3rdorder» et Transfac public vertebrate

29 Quelques Algos pour la découverte des motifs MEME1994 MACAW1994 CoResearch1996 RMES1997 AlignACE1998 Yebis1998 CONSENSUS1999 Et les resultats furent autour de 1998*… * Motifs: Spellman et al 1998, Mol Biol Cell 9, , Réseaux: Tavazoie et al. 1999, Nat Genetics, 22:

30 48 Algos pour la découverte des motifs

31 48 49 Algos pour la découverte des motifs

32 Comment choisir? Comparaisons nécessaires Pas dexemple commun Pas dexemple reconnu (comme lEPD pour la prédiction des promoteurs) On choisit un exemple qui donne le meilleure résultat pour larticle Un bon résultat dans larticle nen dit pas beaucoup Compétition de M. Tompa Données artificielles Pas encore prêtes

33 MotifSampler Motifsampler: Gibbs Sampler avec modèle Markov Repeatmasker Une belle interface Sans exemple négatif: 15 fragments, dont 3 corrects, 1 non trouvé Le reste? 12 ? Décrit? Nouveau?

34 MotifSampler sans Repeatmasker En bleu, rempli = les motifs trouvé par MotifSampler En noir = les vrais motifs LXRE En jaune et bleu = les régions répétées MotifSampler devient plutôt un détecteur des répétitions: Parameters MotifSampler-: 50 runs, 2 executions, filtrer les sites communs Repeatmasker: rodent, sensitive - LXRE dapres la litterature

35 La structure 3D de lADN nest pas négligeable Srebf1 from NCBI, viewed in Cn3D, ACC mmid:7919 SREBF1c-Motif from Genomatix Matrix Database, ACC V$SREBP.03V$SREBP.03 Information Content

36 Idée, daprès Moses et al: On peut distinguer les vrais motifs des artéfacts des algorithmes: On compare les changements des fragments de ce motifs quon observe dans les mêmes régions des plusieurs espèces assez proches avec les changements des fragments de ce motif dans les séquences analysées Sils sont corrélés, il sagit plutôt dun vrai motif Cela nécessite quelques séquences dautres espèces « proches » =>Début de la sequenciation des « chimpanzees » en janvier 03, premières contigs pour les macaques déjà sur NCBI

37 Penser en modules A TF binding site becomes only biologically relevant in its context (Klaus May, Genomatix) Trouver un site de liaison ne dit rien, ce sont les autres sites qui rendent le motif fonctionnel Les combinaisons des motifs peuvent être plus faibles, car ils ont plus de points de contact Les motifs plus faibles sont plus importants Il va falloir se concentrer sur la composition des modules, à la manière des protéines Classification & Clustering pour élucider les combinaisons des sites de liaisons Arbre de décision? (déjà fait, pas dimplementation) Réseau de bayes? Chaval? (à faire) Classification avec linférence grammaticale? (à faire)

38 Il faut dabord des données propres Sont ils vraiement corregulés directement? Comment trouver un exemple dentrainement A-t-on la vraie région 5 ???? Exist-il une séquence assez proche? Quel algo pour les alignements? Quest ce que une bonne base de motifs… … et un bon algo pour la découverte? A la fin: Pas trop derreurs accumulés?

39 Résume: La découverte de motifs nécessite une gamme dautres outils en bioinformatique Il parait improbable que les motifs dans les eucaryotes soient assez bien conservés quon puisse utiliser la découverte de motifs seul pour les élucider Mais au moyen terme la comparaison entre espèces va aider beaucoup et il va indiquer les vrais motifs Pour trouver les modules, on pourrait déjà essayer dappliquer la classification, si on avait des bons exemples (ou quelquun qui faisait toutes ces expériences…)

40

41 Annexe: le chemin long dun FT

42 On peut les grouper selon leur structure Helix-turn-HelixHomeobox Alberts et al, Molecular Biology of the Cell, 3 rd Ed., Chapitre 9 Zinc Finger

43 Gibbs sampler On prend un fragment dun longeur w par hasard. On le prend comme matrice. On la compare avec tous les fragments du longeur w dans nos séquences Sil y en a un qui lui ressemble assez, on le prend comme fragment de ce motif et on met a jour la matrice avec lui Amélioration contesté: Pour avoir une idee de « se ressembler » on prend une chaine Markov pour le bruit background.

44 Pas toujours, mais il réduit le nombre des possibilités UCSC Browser, souris, gène Abca1, BLAT des deux meilleurs prédictions de Promoser

45 Celui qui cherche va trouver Séquences tout a fait random Mais: MotifSampler trouve plein de motifs… Avec un score plus bas que pour les vrais séquences Mais seulement pour les quatre meilleurs motifs!

46 La structure 3D, II Moses et al., BMC evol Biol 3:19, 28/08/2003 IC in bits Rate of evolution

47 Outils de comparaison ClustalW AVID Dalign Dynalign Idées? Pattern Explorer!


Télécharger ppt "Découverte des sites de liaison dans des séquences ADN des eucaryotes pluricellulaires Etat de lart, évaluation des outils existants Maximilian Haeusser."

Présentations similaires


Annonces Google