INSERM TAGC Diversité des transcrits: Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée
INSERM TAGC Annotation des génomes Humain/souris 2005: gènes annotés Est-on proche de la fin? Si peu de différence avec la mouche (15000 gènes) ou C. elegans (18000) ? Annotation Ensembl
INSERM TAGC Les EST (expressed sequence tags): loutil No 1 pour lannotation des génomes
INSERM TAGC Hier: clustering dESTs pour reconstruire les transcrits Transcrit reconstruit Cluster dESTs (avant 2001: génomes vertébrés non disponibles)
INSERM TAGC Aujourdhui: Alignements EST/génome exonsintrons
INSERM TAGC Skipped exon Alignement EST/génome
INSERM TAGC Epissage alternatif 3 gènes de détermination du sexe chez la drosophile, épissés différemment selon le sexe de l'individu:
INSERM TAGC Epissage alternatif via EST Nombreux travaux réalisés Sociétés créées exclusivement sur le thème (par ex. Compugen Ex: Modrek B, Resch A, Grasso C, Lee C. Genome-wide detection of alternative splicing in expressed sequences of human genes. Nucleic Acids Res 2001 Jul 1;29(13): :
INSERM TAGC ASAP, AltExtron, ASD, SpliceNest… ASAP interface (Lee et al. 2003)
INSERM TAGC Travaux récents sur la diversité du transcriptome – Tiling array – Full-length cDNA
INSERM TAGC Rosetta: technologie de spottage doligonuléotides par jet dencre (inkjet) Le Tiling Array
INSERM TAGC
Gène bien caractérisé: confirmation des exons « refseq » et apparition de nouvelles régions transcrites (ici correspondant à un cDNA déjà observé)
INSERM TAGC Apparition de nouveaux gènes dans régions intergéniques sans EST ni prédiction bioinformatique.
INSERM TAGC Que trouve-t-on? – Nouveaux gènes codants >2000 transcrits avec ORF non existant dans Ensembl – Nouveaux gènes non-codants >10000 transcrits – Transcrits antisens >5000 gènes ont transcription antisens – Isoformes de gènes connus Au moins 40% à 60% des gènes selon auteurs Comprend également extensions (parfaois très longues) en 3 – Artefacts biologiques: « bruit » transcriptionnel expérimentaux: hybridation non-spécifique, contamination génomique…
INSERM TAGC Science, 2005 – Technologie: Affymetrix – 25-mères espacés de 5bp – polyA+ et polyA- – Noyau et cytoplasme – 8 lignées cellulaires différentes Tiling 2
INSERM TAGC Etat de polyadenylation – Parmi tous les transcrits observés: 19% polyA+ 44% polyA- 37% polyA+ et polyA- Donc la moitié du transcriptome humain est polyA- Important, car les transcrits quon regardait jusquà présent nétaient que les polyA+!
INSERM TAGC Position des transcrits – 60% des loci exprimés présentent des évidences de transcription sur 2 brins – Beaucoup de transcription dans lintergénique: 50% des polyA- cytoplasmiques et 25% des polyA- nucléaires sont intergéniques 41% des polyA+ nucléaires sont intergéniques
INSERM TAGC Full length cDNAs – 100,000 Full length cDNAs – + 1M « CAGE » (sortes de SAGE en 5) Science, 2005
INSERM TAGC Utilité des full-lengths – Etude des promoteurs (impossible avec les EST) – TSS alternatifs, exons 5 alternatifs
INSERM TAGC Transcrits et Unités de Transcription – TU: Transcription Unit. mRNAs sharing at least 1 nt and with same location and orientation
INSERM TAGC Conclusion projet « FANTOM3 » – transcrits non-codants – nouveaux transcripts codants – 5000 nouvelles protéines – La majorité du génome est transcrit sur les deux brins – La grande diversité des transcrits dans chaque TU soulève le problème de la précision des puces ADN conventionnelles, dans lesquelles chaque sonde hybride différents transcrits
INSERM TAGC Les besoins actuels – Intégration initiation+épissage+transcription – Caractérisation des nouveaux transcrits Etude fonctionnelle (domaines, etc.) Conservation Validation expérimentale Tissu-spécificité The Alternative Transcript Diversity Project (ATD), 6e PCRD
INSERM TAGC
La polyadénylation alternative Coding sequence To 5' end AUUAAA AAAAAAAAA... AAUAAA CA GUUGU Cleavage + polyA-addition site Pre-mRNA mRNA alternative transcripts 3' UTR PolyAdenylation Signal CA GUUGU AAAAAAAAA...
INSERM TAGC PAS Discovery through EST/mRNA Alignment mRNA or EST-contig ESTs 5ESTs 3ESTs Gautheret et al. (1998) Genome Res. 8, 524 First observation in 1998: 189 cases of alternative polyadenylation 2000: 1000 cases Beaudoing et al. (2000) Genome Res. 10, 1001
INSERM TAGC EST-based PAS Map > 54% human, 32% mouse (accept multiple sites for 1 signal, but refseq UTR only) humanmousechicken Tot PAS66,60052,3003,500 PAS <3K from ENSEMBL Gene 31,00027,9002,900 PAS >10K from ENSEMBL Gene 29,00019, Genes with no PAS 30%36%80% Genes with 2 or more PAS* 50%43%7% *relative to all genes with 1+ PAS
INSERM TAGC Intergenic PAS? « Intergenic » PAS are made of – False positives – Long range PAS – PAS from novel genes stop
INSERM TAGC What is the actual reach of 3UTRs? Textbook « Human Molecular Genetics 2 » (1999): – 3 UTR Average of about 0.6 kb (see Zhang, 1998) but this is likely to be an underestimate because of underreporting of genes with long 3 UTRs Untranslated Regions of mRNA (Mignone et al. 2003) :
INSERM TAGC Several recent papers mentioning distal PAS – All rely on EST sampling, but: Require alignment on refseq gene/fl cdDNA or overlapping ESTs Cannot assess all long range PAS
INSERM TAGC Site distribution Distance from STOP # sites in 500nt window Ratio 5 supported -5 support is significant up to 9kb past Stop codon -May be limited by cloning capacity (few inserts larger than 6kb) 9kb ?
INSERM TAGC Distance of 3 EST from STOP Relative position of 5 EST (% of transcript) Position of 5 EST in transcript -As distance from Stop increases, 5 EST are located closer to 3 end -After >6kb, most 5 EST are « out of gene » stop cDNA 5EST 3EST start
INSERM TAGC Classification Trees for PAS prediction 8 Variables: canonical/non canonical signal Erpin score for downstream region #supporting ESTs PolyA/T in ESTs ESTs overlap previous site Full-length cDNA Single/multiple EST libraries 5EST from same clone mapping within gene stop5kb10kb15kb20kb Class 1Class 2
INSERM TAGC Classification tree + Voting Procedure -> class 1 / class 2
INSERM TAGC Importance of variables Canonical/non canonical Erpin score #supporting ESTs polyA/T in ESTs Overlap with previous site Full-length cDNA Single/multiple EST libraries 5EST from same clone All variables No 5 EST
INSERM TAGC Average P-value vs Distance Distance from STOP Relative position of 5 EST (% of ave P-value= % have P-value > % of long distance sites correspond to bona fide PAS 13kb
INSERM TAGC Conclusions P-values for polyA sites 6000 Novel polyA+ genes in intergenic Average 3 UTR longer than measured based on 5 EST mapping: around 2kb mean. – Consequence for ncRNA search in UTRs
INSERM TAGC Equipe polyA – Matthieu Legendre – William Ritchie – Takeshi Ara – Fabrice Lopez Arbres de classification: – Badih Ghattas, Département de Mathématiques, Aix- Marseille II