Élodie Boulier Nhu Ha Vo Sharon Harel

Slides:

Advertisements

Présentations similaires

Advertisements

Chap. 4 Recherche en Table

Licence pro MPCQ : Cours

Distance inter-locuteur

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.

Test statistique : principe

Est Ouest Sud 11 1 Nord 1 RondeNE SO

Sud Ouest Est Nord Individuel 36 joueurs

ACTIVITES Le calcul littéral (3).

Prospection par ondes de surface

1. Les caractéristiques de dispersion. 11. Utilité.

OBJECTIFS FouDanGA : Fouille de données pour lannotation de génomes dactinomycètes CONTEXTE Laccumulation des séquences.

Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.

Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.

SYMETRIE CENTRALE OU SYMETRIE PAR RAPPORT A UN POINT.

Control of Hoxd Genes’ Collinearity during Early Limb Development

Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand

Ordonnancement des mouvements de deux robots

Comment évaluer le rendement des actifs peu liquides Patrick Artus Florent Pochon Jérôme Teiletche Colloque AFIC 5 avril 2005.

1 7 Langues niveaux débutant à avancé. 2 Allemand.

Améliorer les performances du chiffrage à flot SYND

Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.

Le noyau Pages 22 /

Application des algorithmes génétiques

La Régulation génétique chez les Procaryotes

Classification Multi Source En Intégrant La Texture

ARN késako ? Julie BERNAUERAdrien GUILHOT-GAUDEFFROY Yann PONTYMireille REGNIER EQUIPE PROJET AMIB Inria Saclay 28 Septembre 2012.

1. L’ADN et l’information génétique

1 11 avril 2005 Toulouse Franck MERCIER Ouan-Zan ZANIFE Franck FERREIRA CLS, Direction Océanographie Spatiale Contribution de lAltimétrie Spatiale à lHydrologie.

Cours Corporate finance Eléments de théorie du portefeuille Le Medaf

Titre : Implémentation des éléments finis sous Matlab

L’expression génétique

UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles

Matthieu Foll 28 aout 2008 Journées MAS

Journées de Rencontre Jeune Chercheurs

Expression du Génome Le transcriptome.

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.

Les modèles linéaires (Generalized Linear Models, GLM)

Corrélation Principe fondamental d’une analyse de corrélation

Notre calendrier français MARS 2014

Annexe 1 VISITE SUR

Titre : Implémentation des éléments finis en Matlab

3ème partie: les filtres

Ordonnancement de tâches

Atelier de formation : MAT optimisation II (les graphes).

Demande stochastique stationnaire

Recherche heuristique dans les bases de données L’algorithme BLAST

Découverte de correspondances entre ontologies distribuées

ASI 3 Méthodes numériques pour l’ingénieur

1 GPA435 Systèmes d’exploitation et programmation de système Copyright, 2000 © Tony Wong, Ph.D. Chapitre 8 Filtres UNIX.

Elaboré par M. NUTH Sothan 1. 2 Soit x, y et z des coordonnées cartésiennes à 3 dimension. G un ensemble de points dans le plan (u, v). Déf. : On appelle.

Création et présentation d’un tableau avec Word 2007

Mécanisme d’expression des gènes de globines

10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.

CALENDRIER-PLAYBOY 2020.

1. Présentation générale du système

9 paires séries de 3 étuis ( n° 1 à 27 )

Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.

1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )

Rappels de statistiques descriptives

Co-expression = fonction (Eisen et al., PNAS 1998)

Etude des performances cinématiques de la plateforme 6 axes

Introduction à la Pathologie Moléculaire du Gène

OBJECTIFS FouDanGA : Fouille de données pour l’annotation de génomes d’actinomycètes CONTEXTE Mise en œuvre de méthodes.

Recherche heuristique dans les bases de données L’algorithme BLAST

REGULATION DE L’EXPRESSION DES GENES

CHMI 4206 Bioinformatique appliquée

Transcription de la présentation:

Élodie Boulier Nhu Ha Vo Sharon Harel Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression Blanchette & al, 2006 Elodie : L’article que nous allons vous présenter ici présente un prédicateur de modules de régulation de la transcription de gènes sur le génome entier de l’humain. Élodie Boulier Nhu Ha Vo Sharon Harel

Rappel sur la transcription et la traduction d’un gène Je vais tout d’abord faire un bref rappel sur la transcription et la traduction d’un gène. La transcription d’un gène est la copie du gène (sous forme d’ADN : en vert) en ARN messager (en orange). Cet ARN va ensuite sortir du noyau pour y être traduit en protéine par le Ribosome (en rose). La protéine va rentrer dans un des nombreux processus biologiques de la cellule (quelques exemples dans la diapo suivante).

Régulation de l’expression Croissance cellulaire Régulation de l’expression des gènes Division Différentiation La régulation de l’expression des gènes (transcription et traduction) est au cœur de beaucoup de processus biologiques importants de la cellule tels que la croissance cellulaire, la division, la différenciation, l’adaptation à l’environnement extracellulaire. Ces processus sont cruciaux lors du développement embryonnaire. Adaptation à l’environnement

Expression des gènes Régulée au niveau de la TRANSCRIPTION Outils : Site de liaison des Facteurs de transcription (TFBS) Acteurs : Facteurs de transcription (TF) Facteurs de transcription Activateurs Facteurs de transcription Répresseurs L’expression des gènes est régulée principalement au niveau de la transcription avec des protéines appelées facteurs de transcription (TF) qui lient une séquence spécifique de régulation sur l’ADN. Il existe deux sorte de facteurs de transcription : des activateurs et des répresseurs. + - TRANSCRIPTION

Structure d’un gène Voyons d’abord la structure d’un gène. Un gène est constitué d’ADN qui est fait à partir de 4 lettres chimiques : A, C, T, G.

Structure d’un gène (suite) PROMOTEUR En amont du gène il existe une région qu’on appelle promoteur. Le gène contient des introns (en bleu) et des exons (en jaune). Le gène sera entièrement transcrit en ARN messager. Mais seuls les exons sont des parties codantes du gène, donc le transcrit va être épissé, c’est-à-dire débarrassé de ses introns. Ce transcrit mature sortira du noyau et ira se faire traduire par les ribosomes en protéines.

Structure d’un gène (suite) Nous allons maintenant nous intéresser plus particulièrement à la région promoteur en amont du gène. Cette région est définie comme la région d’1 kb en amont du début du site de la transcription (ceci pour l'ensemble des gènes connus). 1kb en amont du début de site de la transcription

Facteurs de transcription La régulation de l’expression des gènes chez les eucaryotes se fait grâce aux facteurs de transcription (TF). Ces facteurs (protéines) se lient sur leur séquence spécifique en amont du promoteur et vont aider ou empêcher la transcription du gène. En rouge vous avez les Facteurs de transcription activateurs et en bleu foncé vous avez un Facteurs de transcription répresseur. Des co-activateurs en bleu clair répondent aux signaux des TF activateurs et répresseur et font le relais du résultat aux facteurs basaux (B, F, E et H). Ces facteurs basaux facilitent à l’ARN polymérase de se lier sur le promoteur pour transcrire le gène. Comme vous voyez il y a plusieurs sites de liaison pour les T, c’est sur cela que le groupe de Blanchette vont se baser pour leur prédicteur. http://www.wellesley.edu/Chemistry/chem227/nucleicfunction/transcription/lac%20operon/06eukaryotes.jpg

Les Facteurs de Transcription (suite) Lient : Des séquences dégénérées d’ ADN (5–15 pb) Des motifs consensus Lire diapo

Position-weighted matrices (PWM) ACGT ACGA ATGC TF1 Probabilité de retrouver une base à une position PWM + Taille du génome - Motifs courts dégénérés - Les motifs consensus sont représentés par des matrices mathématiques (PWM) où des séquences connues de TFBS ont été alignée pour différentes familles de TF. La probabilité de trouver chacune des bases à chacune des positions est calculé à partir de l'alignement. C’est ce qu’on appelle la PWM. L’examination du génome humain entier avec ces PWM devrait permettre l’identification de TFBSs, et donc les régions de régulation; mais la taille du génome, combinée avec le fait que les motifs de liaison des TF sont courts et dégénérés, complique la tâche. Sites de liaison de facteurs de transcription (TFBS) Régions de régulation

Méthodes de prédictions existantes Plusieurs méthodes de prédiction existent déjà, mais sont basé sur l’intégration d’un seul type de données soit : simplement par intégration des données sur les séquences des TFBS, et quelques tentative on été faites avec l’intégration supplémentaire des données d’expression génique et aussi de sensibilité à la DNAse1. 11

Sensibilité à la DNAse I La DNAse 1 est une endonucléase, capable de cliver l’ADN. La région de liaison d’un facteur de transcription est particulièrement sensible à la DNAse I, puisque cette région de la chromatine où le gène à transcrire se trouve, se déroulera, s’exposant du même coup à un clivage par la DNAse I. Cette caractéristique peut-être exploitée pour profiler les régions possibles de liaison de facteurs de transcription. 12

Algorithmes basés sur les séquences Identification de motifs surreprésentés dans la séquence du promoteur Nécessitant l’entrée de données : PWM de facteurs de transcription d’intérêts Genome wide et de novo : prédit des région ayant un potentiel régulatoire La majorité des algorithmes développés qui se basent sur ces données permettent en fait l’analyse des séquences de promoteurs de gènes supposément co-régulés. Les algorithmes recherchent en fait des motifs surreprésenté qui pourrait être responsable de la co-régulation des gènes. D’autres approches nécessite aussi une connaissance préalable des facteurs de transcriptions d’intérêts et nécessite l’entrée de données : les PWM des TF d’intérêts. Mais ces algorithmes ne peuvent pas s’appliquer sur le génome entier. Une seule méthode a été développé pour générer un prédicteur de novo et sur le génome entier, cette méthode exploite l’alignement de séquence conservées entre l’homme, le rat et la souris et prédit le potentiel régulateur d’une région de l’ADN. L’algorithme de prédiction développé ici, se base aussi sur l’alignement de séquence conservé entre le rat la souris et l’homme, mais il intègre différents type de données différemment. Nhu Ha vous présentera cet algorithme qui sera comparé a celui de Hardison. 13

Modules cis-régulateur (CRM) TF A cause de la difficulté d’adapter les PWM au génome entier et à cause des motifs dégénérées il faut utiliser une autre approche qui est les CRM. Un Module Cis-Régulateur (CRM) est l’emprunte d’ADN d’un lot de facteurs de transcription. Cette emprunte est en fait un lot de TFBSs localisés dans une région d’ ADN au dessus de quelques centaines de bases localisées aux environs d’un gène étant régulé (peut être n’importe où sur l’ADN). PROMOTEUR

Modules cis-régulateur (CRM) …suite TF1 TF2 TF4 TF3 TF5 (1à 5 TF) ADN TFBS Plusieurs TF peuvent se lier aux TFBS situés dans un CRM. Dans l’article ils en considère de 1 à 5 par module. CRM

Reconnaître de nouveaux modules Utilisation de caractéristiques de CRM connus : Plusieurs sites de liaison pour peu de TF ≠ Sites de liaisons plus conservés que les régions intergéniques Les gènes régulés par un lot de TF commun a tendance à être co-exprimés Différentes combinaisons de ces caractéristiques ont été utilisées, souvent en conjonction avec l’information des PWM pour prédire des éléments de régulation spécifiques pour des TFs. Mais peu de ces méthodes existantes sont appliquées sur le génome entier sans connaissance préalables à propos des ensembles de TFs interagissant ou des ensembles de gènes co-régulés (sauf Kolbe et al. [2004] and King et al. [2005]). À date, les propriétés générales de régions de régulation non promoteur d’humain restent inexplorées. C’est pour toutes ces raisons que les CRM ont été utilisés pour faire le prédicteur dans cet article. Et maintenant, Nhu Ha va vous expliquer l’algorithme.

Fonction de l’algorithme Identifier les régions importantes de régulation d’expression de gènes Prédire quel facteur de transcription se lie à quelle région Nhu Ha : L’algorithme permet donc de voir une carte globale des éléments de régulation du génome humaine. 17

Données Données provenant de Transfac 481 PWM (Position Weight Matrices) 229 familles TF (Transcription Factor) Données provenant de Alignement Multiz Alignement Humain – Souris – Rat 34 % du génome humain La méthode consiste à prendre 481 PWM donc 229 familles de facteurs de transcription provenant de Transfac. Le génome de l’humain, la souris et le rat sont alignés ensemble par Multiz. Les régions d’alignements produisent par Multiz servent de prédiction des modules. Cette région couvre 34 % du génome humain. C’est quoi un PWM: représente les sites de liaison pour un facteur de transcription Les données sont alignés entre humain-souris-rat car il recherche seulement les sites de liaison donc les facteurs de transcription sont conservés à travers les espèces. 18

Prédiction TFBS pour chaque espèce Trouver le hitScore pour chaque espèce Fenêtre de 100, 200, 500, 1000, 2000 bp Calcul: Pour chacun des 481 PWM (m) Pour chaque colonne (p) de la séquence Calcul hitScoreHum (m, p) Calcul hitScoreSouris (m, p) Calcul hitScoreRat (m, p) 19

Prédiction TFBS conservée Trouver le hitScore d’alignement conservée Calcul: hitScorealn (m, p) = hitScoreHum (m, p) + ½ max (0, hitScoreSouris (m, p) + hitScoreRat (m, p)) Ceci permet de réduire les faux positif. 20

Sélection tags plus significatifs Seul les hitScorealn (m, p) > 10 sont retenu pour construire les modules.

Total tags score TotalScore(m, p1…p2) = max {H ⊆ Hm tel que H (Hit) non chevauché } ∑ h € H hitScore(m, p)

P-Value P-Value est assigné au TotalScore P-Value dépend : longueur de la région contenu en GC de la région fréquence et distribution en hitScore prédit pour cette matrice dans le génome 23

Module score Choisir 1 à 5 TF (PWM) non chevauché donc le P-Value est le plus élevé Calcul: moduleScore(p1…p2) = max{k = 1…5} – log (pValueMaxUnif(k, 481, Πi = 1…k pValue(totalScore(tagk, p1…p2)))) 24

Résultats 118 402 Modules Couvrant 2.88% du génome humain 58 % des modules sont moins que 500 bp Longueur moyenne de 635 bp par module Moyen de 3.1 tags par Module Même si il on considéré un module de longueur 2000 bp 58 % des modules sont moins que 500 bp 25

Résultats (suite) Tag le plus sélectionné : E2F (5401 fois sur les 118 402 modules) 2 sets de tags les plus sélectionnés Facteur de transcription associé au promoteur (E2F, ZF5, TBP) Facteur de transcription homeobox (famille NKX, famille POU, etc)

Comparaison Selon les résultats obtenu, ils ont fait la comparaison avec les autres bases de données comme TRRD, Transfac et GALA. Il compare la régulation avec la région du promoteur, CpG, et les sites hypersensibles à la Dnase I. Le graphique A montre que parmi les 120 000 modules trouvés: 20 % des bases des modules se retrouvent dans TRRD 40 % des bases des modules se retrouvent dans GALA, 34 % se trouvent dans transfac, Même si les PWM proviennent de Transfac ils en ont trouvés que 34 % bases de modules car ils ont fait une ségrégation des données disponible dans les matrice de transfac en sélectionnant les TFBS conservé et les tag les plus significatifs. Si leur logique était fausse ils auraient eu une sensibilité de 100%, et donc même si la sensibilité est seulement de 34%, c'est rassurant sur la logique qu'ils ont mis en place. On remarque que ca augmente avec le nombre de modules et que la croissance est plus rapide dans les 20 000 premiers modules. La figure C est la même chose que la figure A, seul différent c’est que la région est plus loin du promoteur (> 1kb). La figure C montre qu’il y a moins de module dans la région éloigné du promoteur. La figure B montre que pour les 120 000 modules obtenu les résultats sont a peu près 9 fois plus que si ces résultats ont été prédit aléatoirement par un programme Qui s’appelle PhastCons. 27

Comparaison « Regulatory potential » Kolbe et al. 2004 and King et al Prédiction de CRM Applique au génome de l’humain ainsi que le blé Permet identifier les séquences et les conservations entre espèces Permet distinguer les ensembles de régions de régulation connu et régions non fonctionnel Résultat : Plus de 25 % des bases de pCRM est dans King et al. 9 fois plus que prédiction aléatoire

Validation expérimentale des prédictions de novo Permet de définir la spécificité du prédicteur Spécificité= Performance Définition: Efficacité à prédire une interaction réelle entre un TF et un pCRM, non recensé dans la littérature Bon maintenant on a vu que le prédicteur a une bonne sensibilité, mais on veut aussi connaitre sa spécificité Pour valider les prédictions de novo, 2 facteurs de transcriptions ont été sélectionnés et analysé par la méthodes de chip chip pour vérifié la spécificité du prédicteur. La spécificité du prédicteur correspond en quelques sorte à sa performance. Sa spécificité est en fait son efficacité à prédire une interaction réelle entre un TF et un CRM non recensé dans la littérature.

ChIP on Chip MCF-7 ou T98G lignée cellulaire cancéreuse, Sonication Immunoprécipitation de TF ER et E2F4 lié à l’ADN Isoler l’ADN enrichie et non enrichie Brièvement voici ce en quoi consiste une experience chip chip: On stimule des cellules, on les fixe avec du formaldéhyde ce qui permet la liaison des protéines sur l’adn en temps réel. Ensuite les cellules sont sonique ce qui détruit la membrane cellulaire et les compartiment interne. De plus l’étape de sonication permet de cisailler l’adn. Les fragments lié à la protéine d’intéret sont précipité par liaison avec un anticorps spécifique dans ce cas ci un anticorps contre ER ou E2F4. On purifie ensuite l’ADN et on fait une amplification et un marquage avec un fluorochrome par PCR médié par la ligation, un autre échantillon mais non enrichie par IP est aussi amplifié et marquer par un second fluorophore et les deux type d’adn sont hybridé sur une matrice qui ici contenait en fait les séquences d’ADN prédites pour interagir avec les facteurs de transcripton sélectionné. C’est séquence prédite on été localisé sur le génome et amplifié à partir d’amorce spécifique. Pour obtenir les résultats, un ratio de la fluorescnce de la fraction enrichie/non enrichie Amplification et marquage de l’ADN Hybridation matrice comportant ADN des pCRM

Spécificité de novo du prédicteur 3% de validation des pCRM pour le TF ER 17% de validation des pCRM pour le TF E2F4 Sous-estimation de la spécificité Ils ont montré seulement 3% de spécificité pour le TFER et 17% pour le TF e2f4 Il s’agit clairement d’une sous estimation de la spécificité du prédicteur et ce peut être du a plusieurs facteurs

Facteurs contribuant à la faible spécificité du prédicteur 1 seule lignée cellulaire/TF Lignée cellulaire cancéreuse Par exemples, ils ont testé 1 seule type de cellules par TF. Alors qu’on sait très bien qu’un FT régule la transcription de différentes gènes dans différente contexte tissulaires ou cellulaire. De plus les Deux lignée cellulaire utililisé sont cancéreuses, dont une qui a plusieurs chromosomes en plus d’une copie, certain jusqu’a 6copies et des régions dupliqué aussi. Il est connu que les cellulest cancereuse ont une régulation génique différente d’une cellule en santé et parfois même complètement à l’opposée d’une cellule saine et encore une fois pour cette raison des interactions peuvent nous échapper.

Facteurs contribuant à la faible spécificité du prédicteur 1 seule condition d’induction de la transcription Les conditions physiologiques permettant l’induction de la transcription d’un gene sont vaste et par conséquent, n’ayant testé qu’une seule condition, il est normal de ne pas avoir d,interaction dans les régions prédites si ces dernieres n’ont pas été transcrite. Comme vous pouvez voir ici, il s’agit quand même d’une signalisation assez simple, mais elle nécessite au moins l’activation de 2 récepteurs et l’intégration de multiple cascade pour permettre l’activation des TF nécessiare à la transcription .

Facteurs contribuant à la faible spécificité du prédicteur Expérience effectuée pour un seul stage de développment: Adulte Certaines des prédictions sont peut spécifique à un stade de développement particulier, car encore une fois les facteurs de transcriptions sont mua bles dans le temps et non seulement des les lieux! Puisque la régulation génique est très présente lors du développpement, il est clair ici, qu’en ayant travailler que sur des cellules adultes, une multitudes d,interactions leurs échappents

Autre méthode d’évaluation de la spécifité ER lie 55 modules E2F4 lie 433 modules Étude par un autre groupe: 57 modules lient ER et 14 avaient été prédit par Blanchette et al. 24 des 55 avaient été sélectionnés pour lier ER Donc 44% de spécificité 236 des 433 avaient été sélectionnés pour lier E2F4 Donc 54% de spécificité Afin de mieux évaluer la spécificité réelle du prédicteur et afin de négliger ces nombreux facteurs, le groupe a fait l’analyse en ChiP chip en incluant les pCRM pour 2 autres facteurs de transcription, qui ne devrait pas lier ni ER ni E2f4. Ils ont ainsi obtenu de meilleurs rendement. Donc Le TF ER avait générer 55 résultats positifs. Parmi ces 55, 24 avait enfait été sélectionné pour lier ER et 433 positif on été révélé pour E2F4, parmi lesquels 236 avait été sélectionné pour le lier, ce qui a valu des spécificité respective de 44 et 54% De plus un second laboratoire a fait une analyse chip chip du chromosome 21 et 22. Ils ont identifié 57 modules et 14 était prédit par l’algorithme.

Amélioration Possible Cellules, Tissus, Conditions physiologiques HAIRE En fait la spécificité de se prédicteur ne peut qu’être améliorée: en fait plus d’expérience, c’est a dire de conditions physiologique et de type cellulaire seront utilisé, plus la spécificité devrait être améliorée. De plus d’autre méthode pourraient etre utilisé, comme une nouvelle méthode :HAIRE, très semblable au chip chip, mais qui fait le cross-link de module de régulation, et le cross link plus efficace evite la perte de l’interaction dans les méthodes préparatoire ce qui diminue du coup le taux de faux négatifs. Par contre, cette spécificité est tout de même suffisante pour nous donner un nouvel apercu sur l’aménagement de la régulation génique

Distribution des pCRM sur le génome Informations sur nouveaux gènes Enhancers Transcrits non-codants TSS alternatifs Définition du rôle de gènes peu caractériser Par contre, cette spécificité permet d’avoir confiance au prédicteur et est tout de même suffisante pour nous donner un nouvel apercu sur l’aménagement de la régulation génique et en observant simplement la distribution des pcrm on peut obtenir de l’information sur de potentiel gene codant, sur les enhancers, les transcrits non codants et les tss alternatif

Figure 3. Distribution of pCRMs along a region of chromosome 11 Par exemple en observant la distribuon des pCRM sur une région chromosomique 11. Il a été observé ici que la présence de pCRM corrèle avec la présence d’un site de début de transcription., pas une tres grande surprise, car c’est la région ou on retrouve le site promoteur Une observation intéressante est que certaines régions sont denses en pCRM, et pauvres en gènes. Malgré une probabilité de faux positifs, ceci pourrait s’explique par la présence de séquence condante inconnu jusqu’ici, ou tes sites de début de transcription alternatif, ou encore, il pourrait s’agir de transcrit non condants Il pourrait tout autant s’agir de enhancer, ces régions très éloignée des tss qui servent à augmenter la transcription Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668

Ensuite ils ont relevé les régions les plus denses en pCRM Ensuite ils ont relevé les régions les plus denses en pCRM. Les régions les plus denses, sont aussi des régions très conservé , jusque dans la perche (zebra fish) et au poisson porc-épic. Cette conservation souligne l’importance de ces gènes et de leur régulation surtout qu’ils sont pour la majorité impliqué dans le développement et l’organogénèse. Ainsi cette densité de pCRM pourrait suggérer le rôle et ou l’importance d’un gène et d’une régulation serrés de sont expression pour des groupe de gene peu connu, peu caractériser et dont le rôle n’est pas encore élucider

Figure 4. Distribution of pCRMs relative to specific regions of genes Région promotrice Promoteur ou mode activation alternatif Enhancer ou transcrit antisense Maintenant, si on regarde dans une fenetre plus petie que celle du cromosome et on regarde de plus près la localistion des pCRM relativement à la position du gène qu’il régule. On voit d’abord, un enrichissement très important dans la région du TSS, ce n’est pas surprenant, car c’est ici qu’on retrouve les promoteurs Par contre ce qui est suprenant,c’est la présence significative de pCRM dans la région 5’UTR et le premier intron en aval du TSS. IL pourrait s’agir d’une indication de la présence de promoteur alternatif, ou encore d’un mode d’activation, peu connu ou desTF se lie au début de l’intron et de la région 5utr Finalement on note aussi un enrichissement en 3’. Ceci peut être du à divers processus de régulation génique Par exemple il peut s’agir d’un enhancer qui régule la transtription du gène en amont, par un mécanisme de DNA looping Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668

DNA-Looping [Adaptée de Freeman, Biological Sciences 2002] Donc le enhancer pourrait induire la transcription d’un gène par repliement de l’ADN. Vous avez ici un shcéma qui vous montre le mécanisme de looping pour un enhancer en amont du gène, mais le processus est le même pour un enhancer en aval du gène [Adaptée de Freeman, Biological Sciences 2002]

Régulation par Transcrit antisense ARN codant ARN antisense L’enrichissement en 3’ pourrait aussi représenté des élément de régulation permettant la transcription d’ARN antisense. Ce qui peut réguler l’expression génique par un mécanisme post-transcirptionel Inhibition post-transcriptionnelle

Distribution des pCRMs pour un TF individuel Enrichissement ER à 10kb et plus Enrichissement E2F4 à l’intérieur de 1kb Malgré un fort enrichissement dans la région 5’ et 3’ sur les prédictions totales, il a été observé que la distribution des facteurs de transcriptions varient lorsqu’ils sont traité de facon individuelles. Par exemples pour le TF ER, il a été observé qu’il est enrichie dans des régions localisé à plus de 10kb en amont des gènes qu’il régulerait ‘Alors que E2F4 est plutôt enrichie dans les régions proximal de L’extrémité 5” des génes qu’il régule Ils ont donc décidé de faire un clustering pour déterminer les régions enrichies en pCRM pour les TF des 229familles

Figure 5. Many TFs preferentially bind to specific regions relative to the TSS of their target genes C’est ainsi qu’ils ont réussi à démontrer que les facteurs de transcriptions d’une même famille ont une forte tendance à avoir le même profil de localisation relativement aux gènes qu’il régule. Ainsi, on pourrait même espérer attribuer à une famille en particulier un TF, comportant le même profil, mais don’t la fonction est encore mal connu Ici j’ai mis en évidence le profil d’une famille de facteur de transcription impliqué dans le développement on voit que TF de famille inconnu, semble aussi avoir le même profil.

Autres observations 2 modules rapproché : ↑ probabilité de contenir les TFBS pour les mêmes TF La plupart des TF de longue portée présente une corrélation situés >10kb en amont des TSS pCRM voisins contenant des TFBS pour des TF similaires sont situés dans des régions intergéniques ou introniques proches de gènes codant pour des TF

pCRMs tissus spécifique 1 Famille TF gènes potentiellement régulé (1 pCRM 10kb en amont du TSS) Corrélation (paire wise Pearson) entre les niveaux d’expression de ces gènes dans 79tissus humains 27 familles présente une corrélation d’expression tissulaire Ayant à portée de main des données fiable genome wide de TFBS, ils ont décidé de confirmer que chez les mammifères, que si un gène lie un set communs de TD, ces derniers sont corégulé. Ils un déterminé pour 1 famille de TF, les gènes potentiellement régulé, il ont ensuite fait une corrélation entre les niveux d’expression de ces gènes dans 79 types de tissus humain et 27 familles de TF présentait une corrélation d’expression tissulaire.

pCRM tissus spécifiques paire TF = famille génes potentiellement régulés Corrélation entre l’expression tissulaire et la co-liaison de la paire de TF 595 paires de TF présentent une corrélation d’expression tissulaire. EX: OCT1 caractérisé et exprimé dans le cerveau BACH1 est associé à OCT1, mais non caractérisé Ensuite, ils ont répétés l’analyse, mais pour des paires de TF, tous les pairages ont été considérés, et l’analyse de corrélation d’expression a révélé que 595 paire était exprimé dans les meme tissus. Un exemple intéressant, qui montre ici le pouvoir d’élucidation du role de TF peu caractérisé: Oct1 est un Tf exprimé au cerveau et il est bien caractérisé, ici on montre qu’il est associé à bach 1 Encore une fois indice sur les fontions. On voit qu’il est exprimé dans les memes tisus au memes moment

Conclusion Prédiction avec spécificité acceptable entre 24 et 54% Sensibilité des prédictions de 34% (TransFac) Grand potentiel de développement des connaissances sur la régulation génique Découverte de nouveaux gènes codant et de fonctions biologiques Élucidation du rôle de TF: expression tissulaire Donc même si au départ ce prédicteur se voulait simplement un outil pour l’identification deTFBS, il s’est révélé être un puissant outils permettant une meilleure compréhension des processus de régulation.

Questions La base de données des pCRM est disponible sur le site genomequebec.mcgill.ca/PReMod