La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression.

Présentations similaires


Présentation au sujet: "Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression."— Transcription de la présentation:

1 Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression Blanchette & al, 2006

2 Rappel sur la transcription et la traduction d’un gène

3 Régulation de l’expression des gènes Croissance cellulaire Différentiation Division Adaptation à l’environnement

4 Expression des gènes  Régulée au niveau de la TRANSCRIPTION  Outils : Site de liaison des Facteurs de transcription (TFBS)  Acteurs : Facteurs de transcription (TF) Facteurs de transcription Activateurs Facteurs de transcription Répresseurs TRANSCRIPTION + -

5 Structure d’un gène

6 Structure d’un gène (suite) PROMOTEUR

7 Structure d’un gène (suite) 1kb en amont du début de site de la transcription

8 Facteurs de transcription

9 Les Facteurs de Transcription (suite) Lient :  Des séquences dégénérées d’ ADN (5–15 pb)  Des motifs consensus

10 Position-weighted matrices (PWM) PWM Sites de liaison de facteurs de transcription (TFBS) Régions de régulation + Motifs courts dégénérés - Taille du génome - ACGT ACGA ATGC Probabilité de retrouver une base à une position TF 1

11 Méthodes de prédictions existantes

12 Sensibilité à la DNAse I

13 Algorithmes basés sur les séquences  Identification de motifs surreprésentés dans la séquence du promoteur  Nécessitant l’entrée de données : PWM de facteurs de transcription d’intérêts  Genome wide et de novo : prédit des région ayant un potentiel régulatoire

14 Modules cis-régulateur (CRM) CRM TF PROMOTEUR

15 CRM ADN TFBS TF 1 TF 2 TF 4 TF 3 TF 5 (1à 5 TF) Modules cis-régulateur (CRM) …suite

16 Reconnaître de nouveaux modules Utilisation de caractéristiques de CRM connus : 1. Plusieurs sites de liaison pour peu de TF ≠ 2. Sites de liaisons plus conservés que les régions intergéniques 3. Les gènes régulés par un lot de TF commun a tendance à être co-exprimés

17 17 Fonction de l’algorithme  Identifier les régions importantes de régulation d’expression de gènes  Prédire quel facteur de transcription se lie à quelle région

18 18 Données  Données provenant de Transfac 481 PWM (Position Weight Matrices) 229 familles TF (Transcription Factor)  Données provenant de Alignement Multiz Alignement Humain – Souris – Rat 34 % du génome humain

19 19 Prédiction TFBS pour chaque espèce  Trouver le hitScore pour chaque espèce  Fenêtre de 100, 200, 500, 1000, 2000 bp  Calcul: Pour chacun des 481 PWM (m) Pour chaque colonne (p) de la séquence Calcul hitScore Hum (m, p) Calcul hitScore Souris (m, p) Calcul hitScore Rat (m, p)

20 20 Prédiction TFBS conservée  Trouver le hitScore d’alignement conservée  Calcul: hitScore aln (m, p) = hitScore Hum (m, p) + ½ max (0, hitScore Souris (m, p) + hitScore Rat (m, p))

21 21 Sélection tags plus significatifs • Seul les hitScore aln (m, p) > 10 sont retenu pour construire les modules.

22 22 Total tags score  TotalScore(m, p1…p2) = max { H ⊆ Hm tel que H (Hit) non chevauché } ∑ h € H hitScore(m, p)

23 23 P-Value  P-Value est assigné au TotalScore  P-Value dépend :  longueur de la région  contenu en GC de la région  fréquence et distribution en hitScore prédit pour cette matrice dans le génome

24 24 Module score  Choisir 1 à 5 TF (PWM) non chevauché donc le P-Value est le plus élevé  Calcul: moduleScore(p1…p2) = max{ k = 1…5 } – log (pValueMaxUnif(k, 481, Π i = 1…k pValue(totalScore(tag k, p1…p2))))

25 25 Résultats  Modules  Couvrant 2.88% du génome humain  58 % des modules sont moins que 500 bp  Longueur moyenne de 635 bp par module  Moyen de 3.1 tags par Module

26 26 Résultats (suite)  Tag le plus sélectionné : E2F (5401 fois sur les modules)  2 sets de tags les plus sélectionnés  Facteur de transcription associé au promoteur (E2F, ZF5, TBP)  Facteur de transcription homeobox (famille NKX, famille POU, etc)

27 27 Comparaison

28 28 Comparaison « Regulatory potential » Kolbe et al and King et al. (2005)  Prédiction de CRM  Applique au génome de l’humain ainsi que le blé  Permet identifier les séquences et les conservations entre espèces  Permet distinguer les ensembles de régions de régulation connu et régions non fonctionnel  Résultat :  Plus de 25 % des bases de pCRM est dans King et al.  9 fois plus que prédiction aléatoire

29 Validation expérimentale des prédictions de novo  Permet de définir la spécificité du prédicteur  Spécificité= Performance Définition: Efficacité à prédire une interaction réelle entre un TF et un pCRM, non recensé dans la littérature

30 ChIP on Chip

31 Spécificité de novo du prédicteur  3% de validation des pCRM pour le TF ER  17% de validation des pCRM pour le TF E2F4  Sous-estimation de la spécificité

32 Facteurs contribuant à la faible spécificité du prédicteur  1 seule lignée cellulaire/TF  Lignée cellulaire cancéreuse

33 Facteurs contribuant à la faible spécificité du prédicteur 1 seule condition d’induction de la transcription

34 Facteurs contribuant à la faible spécificité du prédicteur

35 Autre méthode d’évaluation de la spécifité  ER lie 55 modules  E2F4 lie 433 modules  Étude par un autre groupe: 57 modules lient ER et 14 avaient été prédit par Blanchette et al. 24 des 55 avaient été sélectionnés pour lier ER Donc 44% de spécificité 236 des 433 avaient été sélectionnés pour lier E2F4 Donc 54% de spécificité

36 Amélioration Possible  Cellules, Tissus, Conditions physiologiques  HAIRE

37 Distribution des pCRM sur le génome  Informations sur nouveaux gènes  Enhancers  Transcrits non-codants  TSS alternatifs  Définition du rôle de gènes peu caractériser

38 Mathieu Blanchette et al. Genome Res. 2006; 16: Figure 3. Distribution of pCRMs along a region of chromosome 11

39

40 Mathieu Blanchette et al. Genome Res. 2006; 16: Figure 4. Distribution of pCRMs relative to specific regions of genes Région promotrice Promoteur ou mode activation alternatif Enhancer ou transcrit antisense

41 DNA-Looping [Adaptée de Freeman, Biological Sciences 2002]

42 Régulation par Transcrit antisense ARN codant ARN antisense Inhibition post-transcriptionnelle

43 Distribution des pCRMs pour un TF individuel

44 Figure 5. Many TFs preferentially bind to specific regions relative to the TSS of their target genes

45 Autres observations  2 modules rapproché : ↑ probabilité de contenir les TFBS pour les mêmes TF  La plupart des TF de longue portée présente une corrélation situés >10kb en amont des TSS  pCRM voisins contenant des TFBS pour des TF similaires sont situés dans des régions intergéniques ou introniques proches de gènes codant pour des TF

46 pCRMs tissus spécifique  1 Famille TF gènes potentiellement régulé (1 pCRM 10kb en amont du TSS)  Corrélation (paire wise Pearson) entre les niveaux d’expression de ces gènes dans 79tissus humains  27 familles présente une corrélation d’expression tissulaire

47 pCRM tissus spécifiques  paire TF = famille génes potentiellement régulés  Corrélation entre l’expression tissulaire et la co-liaison de la paire de TF  595 paires de TF présentent une corrélation d’expression tissulaire.  EX: OCT1 caractérisé et exprimé dans le cerveau BACH1 est associé à OCT1, mais non caractérisé

48 Conclusion  Prédiction avec spécificité acceptable entre 24 et 54%  Sensibilité des prédictions de 34% (TransFac)  Grand potentiel de développement des connaissances sur la régulation génique  Découverte de nouveaux gènes codant et de fonctions biologiques  Élucidation du rôle de TF: expression tissulaire

49 Questions La base de données des pCRM est disponible sur le site genomequebec.mcgill.ca/PReMod


Télécharger ppt "Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression."

Présentations similaires


Annonces Google