La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée.

Présentations similaires


Présentation au sujet: "INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée."— Transcription de la présentation:

1 INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

2 INSERM TAGC Annotation des génomes Humain/souris 2005: 22000 gènes annotés Est-on proche de la fin? Si peu de différence avec la mouche (15000 gènes) ou C. elegans (18000) ? Annotation Ensembl

3 INSERM TAGC Les EST (expressed sequence tags): loutil No 1 pour lannotation des génomes

4 INSERM TAGC Hier: clustering dESTs pour reconstruire les transcrits Transcrit reconstruit Cluster dESTs (avant 2001: génomes vertébrés non disponibles)

5 INSERM TAGC Aujourdhui: Alignements EST/génome exonsintrons

6 INSERM TAGC Skipped exon Alignement EST/génome

7 INSERM TAGC Epissage alternatif 3 gènes de détermination du sexe chez la drosophile, épissés différemment selon le sexe de l'individu:

8 INSERM TAGC Epissage alternatif via EST Nombreux travaux réalisés Sociétés créées exclusivement sur le thème (par ex. Compugen http://www.cgen.com/) Ex: Modrek B, Resch A, Grasso C, Lee C. Genome-wide detection of alternative splicing in expressed sequences of human genes. Nucleic Acids Res 2001 Jul 1;29(13):2850-9 :

9 INSERM TAGC ASAP, AltExtron, ASD, SpliceNest… ASAP interface (Lee et al. 2003)

10 INSERM TAGC Travaux récents sur la diversité du transcriptome – Tiling array – Full-length cDNA

11 INSERM TAGC Rosetta: technologie de spottage doligonuléotides par jet dencre (inkjet) Le Tiling Array

12 INSERM TAGC

13 Gène bien caractérisé: confirmation des exons « refseq » et apparition de nouvelles régions transcrites (ici correspondant à un cDNA déjà observé)

14 INSERM TAGC Apparition de nouveaux gènes dans régions intergéniques sans EST ni prédiction bioinformatique.

15 INSERM TAGC Que trouve-t-on? – Nouveaux gènes codants >2000 transcrits avec ORF non existant dans Ensembl – Nouveaux gènes non-codants >10000 transcrits – Transcrits antisens >5000 gènes ont transcription antisens – Isoformes de gènes connus Au moins 40% à 60% des gènes selon auteurs Comprend également extensions (parfaois très longues) en 3 – Artefacts biologiques: « bruit » transcriptionnel expérimentaux: hybridation non-spécifique, contamination génomique…

16 INSERM TAGC Science, 2005 – Technologie: Affymetrix – 25-mères espacés de 5bp – polyA+ et polyA- – Noyau et cytoplasme – 8 lignées cellulaires différentes Tiling 2

17 INSERM TAGC Etat de polyadenylation – Parmi tous les transcrits observés: 19% polyA+ 44% polyA- 37% polyA+ et polyA- Donc la moitié du transcriptome humain est polyA- Important, car les transcrits quon regardait jusquà présent nétaient que les polyA+!

18 INSERM TAGC Position des transcrits – 60% des loci exprimés présentent des évidences de transcription sur 2 brins – Beaucoup de transcription dans lintergénique: 50% des polyA- cytoplasmiques et 25% des polyA- nucléaires sont intergéniques 41% des polyA+ nucléaires sont intergéniques

19 INSERM TAGC Full length cDNAs – 100,000 Full length cDNAs – + 1M « CAGE » (sortes de SAGE en 5) Science, 2005

20 INSERM TAGC Utilité des full-lengths – Etude des promoteurs (impossible avec les EST) – TSS alternatifs, exons 5 alternatifs

21 INSERM TAGC Transcrits et Unités de Transcription – TU: Transcription Unit. mRNAs sharing at least 1 nt and with same location and orientation

22 INSERM TAGC Conclusion projet « FANTOM3 » – 32000 transcrits non-codants – 16000 nouveaux transcripts codants – 5000 nouvelles protéines – La majorité du génome est transcrit sur les deux brins – La grande diversité des transcrits dans chaque TU soulève le problème de la précision des puces ADN conventionnelles, dans lesquelles chaque sonde hybride différents transcrits

23 INSERM TAGC Les besoins actuels – Intégration initiation+épissage+transcription – Caractérisation des nouveaux transcrits Etude fonctionnelle (domaines, etc.) Conservation Validation expérimentale Tissu-spécificité The Alternative Transcript Diversity Project (ATD), 6e PCRD

24 INSERM TAGC

25 La polyadénylation alternative Coding sequence To 5' end AUUAAA AAAAAAAAA... AAUAAA CA GUUGU Cleavage + polyA-addition site Pre-mRNA mRNA alternative transcripts 3' UTR PolyAdenylation Signal CA GUUGU AAAAAAAAA...

26 INSERM TAGC PAS Discovery through EST/mRNA Alignment mRNA or EST-contig ESTs 5ESTs 3ESTs Gautheret et al. (1998) Genome Res. 8, 524 First observation in 1998: 189 cases of alternative polyadenylation 2000: 1000 cases Beaudoing et al. (2000) Genome Res. 10, 1001

27 INSERM TAGC EST-based PAS Map 2005 -> 54% human, 32% mouse (accept multiple sites for 1 signal, but refseq UTR only) humanmousechicken Tot PAS66,60052,3003,500 PAS <3K from ENSEMBL Gene 31,00027,9002,900 PAS >10K from ENSEMBL Gene 29,00019,400300 Genes with no PAS 30%36%80% Genes with 2 or more PAS* 50%43%7% *relative to all genes with 1+ PAS

28 INSERM TAGC Intergenic PAS? « Intergenic » PAS are made of – False positives – Long range PAS – PAS from novel genes stop

29 INSERM TAGC What is the actual reach of 3UTRs? Textbook « Human Molecular Genetics 2 » (1999): – 3 UTR Average of about 0.6 kb (see Zhang, 1998) but this is likely to be an underestimate because of underreporting of genes with long 3 UTRs Untranslated Regions of mRNA (Mignone et al. 2003) :

30 INSERM TAGC Several recent papers mentioning distal PAS – All rely on EST sampling, but: Require alignment on refseq gene/fl cdDNA or overlapping ESTs Cannot assess all long range PAS

31 INSERM TAGC Site distribution Distance from STOP # sites in 500nt window Ratio 5 supported -5 support is significant up to 9kb past Stop codon -May be limited by cloning capacity (few inserts larger than 6kb) 9kb ?

32 INSERM TAGC Distance of 3 EST from STOP Relative position of 5 EST (% of transcript) Position of 5 EST in transcript -As distance from Stop increases, 5 EST are located closer to 3 end -After >6kb, most 5 EST are « out of gene » stop cDNA 5EST 3EST start

33 INSERM TAGC Classification Trees for PAS prediction 8 Variables: canonical/non canonical signal Erpin score for downstream region #supporting ESTs PolyA/T in ESTs ESTs overlap previous site Full-length cDNA Single/multiple EST libraries 5EST from same clone mapping within gene stop5kb10kb15kb20kb Class 1Class 2

34 INSERM TAGC Classification tree + Voting Procedure -> class 1 / class 2

35 INSERM TAGC Importance of variables Canonical/non canonical Erpin score #supporting ESTs polyA/T in ESTs Overlap with previous site Full-length cDNA Single/multiple EST libraries 5EST from same clone All variables No 5 EST

36 INSERM TAGC Average P-value vs Distance Distance from STOP Relative position of 5 EST (% of transcript) @20k: ave P-value=0.21 20% have P-value >0.5 -20% of long distance sites correspond to bona fide PAS 13kb

37 INSERM TAGC Conclusions P-values for polyA sites 6000 Novel polyA+ genes in intergenic Average 3 UTR longer than measured based on 5 EST mapping: around 2kb mean. – Consequence for ncRNA search in UTRs

38 INSERM TAGC Equipe polyA group @TAGC – Matthieu Legendre – William Ritchie – Takeshi Ara – Fabrice Lopez Arbres de classification: – Badih Ghattas, Département de Mathématiques, Aix- Marseille II


Télécharger ppt "INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée."

Présentations similaires


Annonces Google