1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret : C. Toffano-Nioche :

1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret : daniel.gautheret@u-psud.fr C. Toffano-Nioche : claire.toffano-nioche@u-psud.fr

Plan de lUE Partie 1: annotation des gènes –Annotation structurale (analyse séq ADN) –Annotation fonctionnelle (analyse séq Protéique) Partie 2: génomique comparative –Initiation à Linux/Blast sous Linux –Extraction de gènes de génomes bactériens –Outils de comparaison de génomes –Comparaison de génomes / gènes communs

Annotation « structurale » : identifier les gènes et leurs éléments (features ») CDS, ARN, … Repeats Signaux de régulation Annotation « fonctionnelle » : attribution de fonctions Produits de gènes Motifs structuraux,... E.Talla, http://biologie.univ-mrs.fr/upload/p211/CM_Master_AnnotGenomes_2007.pdf Niveaux d'annotation d'un génome Détection par contenu Généralement par similarité Objets individuels BD Annotation « relationnelle » : relation entre entités Au sein d'un génome : - Voies métaboliques - Réseaux d'interactions géniques - Familles de paralogues Plusieurs génomes, génomique comparative : - Groupes de synténie (ordre des gènes) - Groupes d'orthologues,... Objets relationnels

En pratique, le plus souvent, positionner les gènes et leurs produits : transcrits, protéines.. mais aussi – quelquefois – dautres objects, comme les éléments transposables, les motifs de régulation, les domaines protéiques, etc… En général, implicitement, les gènes codants pour les protéines mais aussi – souvent - les gènes codant pour les ARNt, les ARNr, et - quelquefois - dautres ARNs (snRNAs, snoRNAs, miRNAs,...) Annotation Structurale Positionner les éléments génétiques sur la séquence génomique … de manière précise, complète et exhaustive P.Rouzé, Carry Le Rouet, 2006

Rappel: caractéristiques des génomes eucaryotes Dans le noyau Taille 10Mb à > 10Gb Plusieurs chromosomes (homme 23, cheval 32, levure 16, drosophile 4…) Plusieurs origines de réplication par chromosome Gènes « disloqués » (exons, introns) Grandes régions intergéniques 5

Rappel: le gène eucaryote 6 transcription maturation traduction coiffe ARNm mature Pré ARNm Protéine AAAAAAAAAAAAAAAAAAAA

7 Densité des gènes eucaryotes Densité moyenne: –S. Cerevisiae: 1 gène/2kb. –Drosophile: 1gène/10kb –Maïs: 1 gène tous les 70kb –Humain: 1 gène tous les 100kb From « Genomes 2 », T.A. Brown

8 Annotation... agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac acaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggt aacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcggg ctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggt acatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgcc aggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtg gcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaa cgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcg caattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcatt agtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaa atgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatc gatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgct gagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggca ggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccgac tactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggac gttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcg atgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgc accattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcct caagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggc atttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatg gtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctg attacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtg cgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggag ccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcacc ttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtc gccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcg accactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtg tttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaa agctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggct ctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagcc aaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaac ccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctg cgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattac taccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaac gttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaa ttgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagac gaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccg gacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgt gaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctgcccgcagag tttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctc tttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaat attgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctg ttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctg ccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgct gatctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgcccc ggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacctgt tgatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaa caacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttatca gtgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctgga aaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcgct gatggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgat gggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgttt agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac acaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggt aacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcggg ctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggt acatcagtggcaaatgcagaacgttttctgcgtgttgctaatattctggaaagcaatgcc aggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtg gcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaa cgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcg caattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcatt agtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaa atgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatc gatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgct gagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggca ggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccgac tactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggac gttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcg atgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgc accattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcct caagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggc atttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatg gtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctg attacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtg cgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggag ccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcacc ttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtc gccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcg accactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtg tttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaa agctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggct ctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagcc aaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaac ccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctg cgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattac taccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaac gttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaa ttgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagac gaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccg gacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgt gaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctatgcgcagag tttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctc tttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaat attgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctg ttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctg ccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgct gatctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgcccc ggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacctgt tgatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaa caacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttatca gtgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctgga aaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcgct gatggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgat gggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgttt tctcggtggtatgcagttgatgatcgaagaaaacgacatcatcagccagcaagtgccagg gtttgatgagtggctgtgggtgctggcgtatccggggattaaagtctcgacggcagaagc cagggctattttaccggcgcagtatcgccgccaggattgcattgcgcacgggcgacatct ggcaggcttcattcacgcctgctattcccgtcagcctgagcttgccgcgaagctgatgaa agatgttatcgctgaaccctaccgtgaacggttactgccaggcttccggcaggcgcggca ggcggtcgcggaaatcggcgcggtagcgagcggtatctccggctccggcccgaccttgtt cgctctgtgtgacaagccggaaaccgcccagcgcgttgccgactggttgggtaagaacta cctgcaaaatcaggaaggttttgttcatatttgccggctggatacggcgggcgcacgagt actggaaaactaaatgaaactctacaatctgaaagatcacaacgagcaggtcagctttgc gcaagccgtaacccaggggttgggcaaaaatcaggggctgttttttccgcacgacctgcc ggaattcagcctgactgaaattgatgagatgctgaagctggattttgtcacccgcagtgc gaagatcctctcggcgtttattggtgatgaaatcccacaggaaatcctggaagagcgcgt gcgcgcggcgtttgccttcccggctccggtcgccaatgttgaaagcgatgtcggttgtct ggaattgttccacgggccaacgctggcatttaaagatttcggcggtcgctttatggcaca aatgctgacccatattgcgggtgataagccagtgaccattctgaccgcgacctccggtga taccggagcggcagtggctcatgctttctacggtttaccgaatgtgaaagtggttatcct ctatccacgaggcaaaatcagtccactgcaagaaaaactgttctgtacattgggcggcaa tatcgaaactgttgccatcgacggcgatttcgatgcctgtcaggcgctggtgaagcaggc gtttgatgatgaagaactgaaagtggcgctagggttaaactcggctaactcgattaacat cagccgtttgctggcgcagatttgctactactttgaagctgttgcgcagctgccgcagga gacgcgcaaccagctggttgtctcggtgccaagcggaaacttcggcgatttgacggcggg tctgctggcgaagtcactcggtctgccggtgaaacgttttattgctgcgaccaacgtgaa cgataccgtgccacgtttcctgcacgacggtcagtggtcacccaaagcgactcaggcgac gttatccaacgcgatggacgtgagtcagccgaacaactggccgcgtgtggaagagttgtt ccgccgcaaaatctggcaactgaaagagctgggttattaagccgtggatgatgaaaccac gcaacagacaatgcgtgagttaaaagaactgggctacacttcggagccgcacgctgccgt agcttatcgtgcgctgcgtgatcagttgaatccaggcgaatatggcttgttcctcggcac cgcgcatccggcgaaatttaaagagagcgtggaagcgattctcggtgaaacgttggatct gccaaaagagctggcagaacgtgctgatttacccttgctttcacataatctgcccgccga ttttgctgcgttgcgtaaattgatgatgaatcatcagtaaaatctattcattatctcaat caggccgggtttgcttttatgcagcccggcttttttatgaagaaattatggagaaaaatg acagggaaaaaggagaaattctcaataaatgcggtaacttagagattaggattgcggaga ataacaaccgccgttctcatcgagtaatctccggatatcgacccataacgggcaatgata aaaggagtaacctgtgaaaaagatgcaatctatcgtactcgcactttccctggttctggt cgctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagat aggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggctg gtggaaacaacattatgaatggcgaggcaatcgctggcacctacacggaccgccgccacc gccgcgccaccataagaaagctcctcatgatcatcacggcggtcatggtccaggcaaaca tcaccgctaaatgacaaatgccgggtaacaatccggcattcagcgcctgatgcgacgctg gcgcgtcttatcaggcctacgttaattctgcaatatattgaatctgcatgcttttgtagg caggataaggcgttcacgccgcatccggcattgactgcaaacttaacgctgctcgtagcg tttaaacaccagttcgccattgctggaggaatcttcatcaaagaagtaaccttcgctatt aaaaccagtcagttgctctggtttggtcagccgattttcaataatgaaacgactcatcag accgcgtgctttcttagcgtagaagctgatgatcttaaatttgccgttcttctcatcgag gaacaccggcttgataatctcggcattcaatttcttcggcttcaccgatttaaaatactc atctgacgccagattaatcaccacattatcgccttgtgctgcgagcgcctcgttcagctt gttggtgatgatatctccccagaattgatacagatctttccctcgggcattctcaagacg gatccccatttccagacgataaggctgcattaaatcgagcgggcggagtacgccatacaa gccggaaagcattcgcaaatgctgttgggcaaaatcgaaatcgtcttcgctgaaggtttc ggcctgcaagccggtgtagacatcacctttaaacgccagaatcgcctggcgggcattcgc cggcgtgaaatctggctgccagtcatgaaagcgagcggcgttgatacccgccagtttgtc gctgatgcgcatcagcgtgctaatctgcggaggcgtcagtttccgcgcctcatggatcaa ctgctgggaattgtctaacagctccggcagcgtatagcgcgtggtggtcaacgggctttg gtaatcaagcgttttcgcaggtgaaataagaatcagcatatccagtccttgcaggaaatt tatgccgactttagcaaaaaatgagaatgagttgatcgatagttgtgattactcctgcga aacatcatcccacgcgtccggagaaagctggcgaccgatatccggataacgcaatggatc aaacaccgggcgcacgccgagtttacgctggcgtagataatcactggcaatggtatgaac cacaggcgagagcagtaaaatggcggtcaaattggtaatagccatgcaggccattatgat atctgccagttgccacatcagcggaaggcttagcaaggtgccgccgatgaccgttgcgaa ggtgcagatccgcaaacaccagatcgctttagggttgttcaggcgtaaaaagaagagatt gttttcggcataaatgtagttggcaacgatggagctgaaggcaaacagaataaccacaag ggtaacaaactcagcaccccaggaacccattagcacccgcatcgccttctggataagctg aataccttccagcggcatgtaggttgtgccgttacccgccagtaatatcagcatggcgct tgccgtacagatgaccagggtgtcgataaaaatgccaatcatctggacaatcccttgcgc tgccggatgcggaggccaggacgccgctgccgctgccgcgtttggcgtcgaacccattcc cgcctcattggaaaacatactgcgctgaaaaccgttagtaatcgcctggcttaaggtata tcccgccgcgccgcctgccgcttcctgccagccaaaagcactctcaaaaatagaccaaat gacgtggggaagttgcccgatattcattacgcaaattaccaggctggtcagtacccagat tatcgccatcaacgggacaaagccctgcatgagccgggcgacgccatgaagaccgcgagt gattgccagcagagtaaagacagcgagaataatgcctgtcaccagcgggggaaaatcaaa agaaaaactcagggcgcgggcaacggcgttcgcttgaactccgctgaaaattatgccata ggcgatgagcaaaaagacggcgaacagaacgcccatccagcgcatccccagcccgcgcgc catataccatgccggtccgccacgaaactgcccattgacgtcacgttctttataaagttg tgccagagaacattcggcaaacgaggtcgccatgccgataaacgcggcaacccacatcca Exon 1 Exon 2 Exon 3 Exon 4 Start Stop polyA TF binding site TATA Box

Expérimentales on aligne la séquence génomique et la séquence du transcrit associé (ADNc), complet, isolé sur le même organisme (méthode la + sûre mais la + longue) Comparatives (extrinsèques) on compare la séquence génomique aux séquences des ESTs dont on dispose on compare la séquence génomique à la séquence génomique dautres espèces on traduit la séquence génomique en protéine sur ses 6 phases que l'on compare aux séquences des protéines contenues dans les banques de données Ab initio (intrinsèques) on apprend à reconnaître les particularités communes à plusieurs gènes connus du génome, puis on recherche ces particularités sur la séquence génomique Intégratives combinaison de ces méthodes (ex. Eugène) Méthodes P.Rouzé, Carry Le Rouet, 2006 ADNgénomique transcription épissage traduction ARNpré-messager ARNmessager protéine Lac Z Amp R Ori Banque de vecteurs Alignement = positionnement EST 5' En rouge : séquences accessibles dans les bases de données de séquences Insert cDNA EST 3'

Méthodes comparatives : Alignements de séquences

très semblable à l'approche expérimentale, les ESTs étant des fragments dADNc isolés à partir de cellules de lorganisme étudié. moins biaisée, puisque les ESTs sont séquencés de manière systématique : les transcrits alternatifs seront séquencés … sils sont exprimés. Les problèmes de lemploi dESTs : qualité médiocre et peuvent contenir des erreurs de séquence contaminés par des copies dADN génomique ne recouvrent quune partie du transcrit, normalement lextrémité à partir de laquelle le séquençage a été amorcé (souvent 3) reflètent lexpression du génome : les gènes non (peu) exprimés dans les conditions où les transcrits ont été isolés ny figurent pas peuvent être attribuées à des paralogues du gène Les avantages (sous-estimés) : les paires dESTs 5-3, la directionalité.. Méthodes comparatives : ESTs P.Rouzé, Carry Le Rouet, 2006

12 Blast génome contre dbEST Dans l'exemple ci-contre, on a réalisé un Blastn d'un contig de 5 kb contenant un gène unique contre la banque dbEST. Le premier hit est clairement un artefact (séquences répétées).

At5g11170 EST AGI BAC Eugene Un cas trompeur : quand l'EST commence dans l'intron

Comparaison ADN génomique - ADN génomique Méthode basée sur lévolution des génomes : les séquences codantes sont les régions les plus conservées entre génomes apparentés La comparaison de deux, ou mieux plusieurs génomes apparentés entre eux conduit à trouver les régions conservées quon attribue aux exons codants. Avantages : ne dépend ni de lannotation préalable des génomes (les gènes absents des bases de données peuvent donc être trouvés) ni de lexpressivité des gènes. Inconvénients : davantage un prédicteur dexons quun prédicteur de gènes, ne fonctionne que dans une « fenêtre » évolutive assez étroite (le signal disparaît entre génomes trop distants et est très brouillé dans les génomes trop proches) Méthodes comparatives : ADN génomique P.Rouzé, Carry Le Rouet, 2006

Recherche dans les bases de données protéiques : principe La logique de cette approche est basée sur lexistence de bases de données et sur lévolution : si un gène G X a été décrit dans lespèce X, on le retrouvera dans lespèce Y apparentée … et la séquence du produit de ce gène, G Y (sur lequel agit la sélection) sera similaire à la séquence de la protéine codée par G X Si les espèces X et Y sont vraiment très proches, la seule connaissance de la séquence protéique dun gène G X de lespèce X peut permettre la modélisation de son orthologue G Y (et dans une moindre mesure de ses paralogues) sur le génome de Y Si X et Y sont plus distants, ou si le gène G évolue rapidement, alors on aura la trace que ce gène existe chez Y, mais on ne pourra pas bâtir de manière sûre un modèle (complet) du gène G Y sur la séquence génomique Et si G Y est un gène orphelin, on ne verra même pas quil existe par ce moyen… Méthodes comparatives : protéines P.Rouzé, Carry Le Rouet, 2006

Recherche dans les bases de données protéiques : problèmes Les bases de données de séquences protéiques : traduction automatique de séquences nucléiques annotées (en majorité) Si les séquences des BD sont incomplètes, ou ont été mal annotées alors les séquences protéiques déduites seront partielles ou erronées. Types derreurs : modestes : absence ou mauvaise frontière dexon, sérieuses : frameshifts, fusion ou rupture de gènes, graves : gène inexistant. => intérêt de BD de protéines validées par des experts (ex: SwissProt) Si les programmes dannotation utilisent ces bases de données (ex: TrEMBL) les erreurs sont récursives et on finit par bâtir des familles entières de gènes imaginaires … Méthodes comparatives : protéines P.Rouzé, Carry Le Rouet, 2006

Toute séquence dADN nest pas celle dun gène. Les séquences codantes pour des gènes ont une particularité forte : codons. La probabilité de voisinage de deux codons nest pas non plus le fait du hasard. Chaque (groupe de) génome(s) a un style qui lui est propre : usage du code, typologie des motifs, fréquence, taille et contenu des introns, nature et taille des régions non-traduites et des régions intergéniques … Reconnaître lusage du code génétique propre à chaque organisme permet de lutiliser en retour pour trouver quel segment dADN a tendance à suivre cet usage particulier. La prédiction du « potentiel codant » se fait par la recherche de distribution des hexanucléotides, ou par des méthodes danalyse markovienne. En pratique, on utilise des chaînes de Markov phasées dordre 4, 5 ou 6 (GeneMark) ou « interpolées » dordre 1 & 2 & 3.. (Glimmer). Autres méthodes : FFT, codant/intergénique : corrélations à petites/grandes échelles Z-curve : représentation 3D de 3 caratéristiques des nucléotides Lannotation structurale des génomes bactériens (pas ou peu dintrons) fonctionne très bien avec ces méthodes Méthodes ab initio P.Rouzé, Carry Le Rouet, 2006

exon intron exon 97.5% 2.5% Site accepteurSite donneur P.Rouzé, Carry Le Rouet, 2006 Exemple issus du génome de Laccaria bicolor (champignon basidiomycète) Motifs des sites d'épissage

Processus en deux phases : Apprentissage : rassembler des gènes bien documentés, en extraire les données informatives et entraîner les algorithmes à les reconnaître individuellement Prédiction : chaque algorithme élémentaire reconnaît une caractéristique, et la combinaison des éléments prédits conduit à la prédiction globale des gènes Limite de lusage du code : il nest pas uniforme. Certains gènes (souvent les plus exprimés) ont un biais de codon très fort, et dautres beaucoup plus faible, voire neutre Composition particulière (ex. GC% élevé) ou origine phylogénétique distincte (Transfert horizontal) Certains gènes ont un biais de composition en acides aminés (par exemple les protéines membranaires intrinsèques) A lintérieur même des gènes : aller en se dégradant de lATG initiateur au Stop. séquences dadressage N-terminales P.Rouzé, Carry Le Rouet, 2006 Méthodes ab initio

At3g01540 EST AGI BAC Eugene Limites des méthodes - ATG initiateur toujours virtuel, - cDNAs « pleine longueur » souvent incomplets, - extrémités 3 et 5 rarement bien positionnées, - il peut même manquer des exons, - transcrits alternatifs sont (souvent) ignorés, - la modélisation automatique des gènes par positionnement des transcrits nest pas sûre à 100% : cas des petits exons ou des petits introns oubliés

Maintenant que tout est répertorié dans les bases de données, est-il utile d'apprendre à réaliser les annotations ? Estimation : si 1 % de la diversité connue (~100 000 espèces nommées) alors <<< 0,1% est séquencé ! Reste donc beaucoup à faire … Comment l'annotation se fait-elle ? Beaucoup avec aide automatique mais toujours intervention des biologistes Sujet de cette première partie : annotation d'une famille de gènes chez la plante Arabidopsis thaliana Utilité de l'annotation ?

Espèce eucaryote Arabidopsis thaliana Annotation d'une famille de gènes la famille des gènes Wox Cible fonctionnelle rôles dans les méristèmes Cas d'étude

Objectif 1 : annotation structurale des gènes Wox 1.1 Annotation du gène Wuschel 1.2 Annotaion des membres de la famille WOX Identification des membres de la famille Extraction des séquences génomiques Annotation structurale Objectif 2 : annotation fonctionnelle et évolution 2.1 Evolution des gènes WOX Arbre phylogénique 2.2 Etude de l'homéodomaine Plan

Introns : annotation structurale avant annotation fonctionnelle Les gènes dune même famille partagent souvent leur structure intron-exon ? Arabidopsis thaliana http://mips.gsf.de/proj/thal/ens/index.html AK118405 AJ270310 AJ270309 AJ270308 AJ270307 AJ270306 AJ270305 AJ270304 AJ270302 AJ270301 AJ270300 AJ270299 AJ270297 AJ270298 ex. gènes de la famille des β -galactosidase

Cellules peu différenciées des plantes : multiplication continue (cf. cellules souches), genèse des tissus et organes. Plusieurs chez Arabidopsis thaliana : –Méristème apical (tige, feuille) –Méristème floral (transition florale) –Méristème racinaire http://mips.gsf.de/proj/thal/ens/index.html Les Méristèmes

chez A.thaliana Bowman and Eshed, 2000 L1 : épiderme L2 : tissus fondamentaux L3 : tissus vasculaires CZ : zone centrale cellules souches PZ : zone périphérique initiation des organes latéraux (feuilles, pièces florales, bourgeons axillaires) RZ : zone de nervure différenciation des cellules de la tige en croissance WUS : wuschel STM : shootmeristemless CUC2 : cupshapedcotyledons ANT : aintagumenta CLV1 : clavata 1 Génèse du méristème apical

Maintenance du méristème apical Bowman and Eshed, 2000 acide WUS boxLELXL N C 1 292 Motifs de la protéine AtWUS : Homéodomaine WUSCHEL : gène très étudié rôle dans le méristème des angiospermes (plantes à fleurs) impliqué dans le développement de la fleur : régulateur de lauto-maintien du méristème boucle de régulation CLAVATA3 – WUSCHEL : la signalisation CLV3 régule négativement la taille de la population de cellules souches en réprimant WUSCHEL

WUSCHEL : rôle dans linitiation et l'auto-maintien du méristème, développement de l'ovule WOX1 : initiation de la vascularisation du primordium WOX2 : développement zygote, spécification de la cellule apicale WOX3 : développement des primordia latéraux WOX4 : développement du procambium WOX5 : maintien du méristème racinaire, prévient la différenciation WOX6 : ovule patterning et différenciation WOX8 : régulation de la croissance embryonnaire précoce WOX9 : contrôle du cycle cellulaire, maintien de cellule en division ou prévention de différenciation prémature les gènes WOX joueraient un rôle dans la régulation de la division et dans la prévention de la différenciation WOX : Wuschel related homeobOX

Annotation structurale Objectif : - Annoter la structure du gène présent sur la région chromosomique proposée : Exons – Introns – UTRs - Produit Moyens : - Identifier les ESTs associés à la région : fouille dans les DB - Aligner les ESTs sur la séquence génomique => l'alignement indique les positions (UTRs, exons) - Traduction pour obtenir la séquence protéique

Recherche des ESTs : Blastn au NCBI dédié à Arabidopsis thaliana BD ESTs, query génomique wuschel, Donnée : génomique wushel 1.1 Annotation structurale du gène wuschel Sélection des ESTs pertinents Reconstruction manuelle de la structure du gène : EMBOSS, sixpack, génomique wuschel Résultat : séquence protéique au format Fasta 8 ESTs dont 3 à rejetter (83%id) Aide pour identifier le CDS : Blastx au NCBI, BD nr, query génomique wuschel

NCBI (National Center for Biotechnology Information) : http://www.ncbi.nlm.nih.gov/ EMBOSS (European Molecular Biology Open Software Suite) : http://bips.u-strasbg.fr/EMBOSS/ WebLogo (generation of sequence logos) : http://weblogo.berkeley.edu/logo.cgi Prosite (Database of protein domains, families and functional sites) : http://www.expasy.ch/prosite/ Phylogeny « one click mode » (robust phylogenetic analysis for the non-specialist) : http://phylogeny.lirmm.fr/phylo_cgi/simple_phylogeny.cgi URL des sites référencés

1.2 Annotation structurale des membres de la famille Wox Objectifs Identifier et annoter tous les membres dune famille dans un génome Moyens - Recherche des paralogues par similarité avec WUS - Identification et alignement des ESTs - Annotation structurale des gènes 33

Donnée : protéine wuschel (cf.1) Identification des gènes de la famille Wox Répartir les gènes entre les étudiants Recherche des gènes de la famille : tblastn au NCBI, BD NCBI Genomes (Chromosomes), Query protéine Wuschel, Filtre organisme Arabidopsis thaliana Chr2 : - 7809601 : WUS - 12262130 : 1 - 225751 : 2 - 14343350 : 3 Chr5 : - 23934597 : 4 - 1334571 : 5 - 18649409 : 6 - 5882545 : 7 Chr3 : - 6162864 : 8 - 3527675 : 9 - 892069 : 10 Chr1 : - 17237470 : 11 - 7183426 : 12 - 7184831 : 13 Chr4 : - 16876464 : 14 Filtre des hits selon le domaine protéique conservé dans la famille

Récupérer coordonnées +/- 2000 bp pour inclure protéine complète + UTR + n° chr Attention au sens du gène NCBI : « Popular Ressources », « Genome » (à gauche) « Browse by organism groups » « Eukaryota » (au centre) Chercher « Arabidopsis thaliana », cliquer sur « M » Choisir le chromosome « Download/ViewSequence/Evidence » (à droite) remlpir le formulaire (coordordonnées : « from » « to »), « Save to Disk » Résultat : fichier du génomique en Fasta Vérifier que c'est la bonne région (blastx) Récupération des séquences génomiques des paralogues

Recherche ESTs : Blastn au NCBI, dédié à Arabidopsis thaliana BD ESTs, query génomique Alignement ESTs / génomique : EMBOSS, est2genome, ESTs + génomique Donnée : génomique du gène d'intérêt Annotation structurale des gènes Wox Sélection des ESTs pertinents (si pas d'EST, prendre le gène suivant) Reconstruction manuelle de la structure du gène Vérification avec : EMBOSS, sixpack Résultat : séquence protéique au format fasta (à envoyer par mail à claire.toffano-nioche@u-psud.fr) Attention : la ligne de commentaire fasta est transformée en plusieurs lignes lors d'un copier coller manuel

Note Best alignment is between forward est and forward genome, but splice sites imply REVERSED GENE Exon 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 -Intron -20 0.0 1524 1614 NC_003071_7807871-7811795 Exon 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 -Intron -20 0.0 1704 2305 NC_003071_7807871-7811795 Exon 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378 Span 714 99.7 1230 2680 NC_003071_7807871-7811795 100 857 DR750378 Segment 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 Segment 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 Segment 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378 Type de fragment e-value pos. début-fin séq.génomique Score d'alignement pos. début-fin seq.EST Commentaire orientation des séquences 4 types de fragments : 1- chaque Exon 2- chaque Intron : un ? Indique qu'il ne commence ni par un GT ni se termine par un AG, un + sens direct, sites d'épissage GT/AG, un – pour le sens reverse, sites d'épissage CT/AC 3- l'alignement complet (Span) dont le score inclus le coût des introns 4- chaque segments individuel, sans gap. Les coordonnées de la séquence génomique se réfèrent toujours au brin + mais sont inversées si l'EST s'aligne dans l'autre sens Sortie de « est2genome » Ath Chr2, de 7807871 à 7811795 et EST DR750378

Interprétation de la sortie est2genome Reconstruction manuelle du modèle de gène (1) : CTAC 1230 1523 1524 1614 1615 CT AC 1703 17042305 23062680 89 bp294 bp375 bp91 bp 602 bp Note Best alignment is between forward est and forward genome, but splice sites imply REVERSED GENE Exon 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 -Intron -20 0.0 1524 1614 NC_003071_7807871-7811795 Exon 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 -Intron -20 0.0 1704 2305 NC_003071_7807871-7811795 Exon 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378 Span 714 99.7 1230 2680 NC_003071_7807871-7811795 100 857 DR750378 Segment 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 Segment 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 Segment 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378 DR750378

Exon 281 100.0 2666 2946 NC_003071_7807871-7811795 1 281 DR349756 2946 2666 281 bp DR349756 DR750378 + DR349756 CTAC 1230 1523 1524 1614 1615 CT AC 1703 17042305 23062680 89 bp294 bp375 bp91 bp 602 bp DR750378 CTAC 1230 1523 1524 1614 1615 CTAC 1703 17042305 2306 89 bp294 bp641 bp91 bp 602 bp 2946 Note Best alignment is between forward est and forward genome, but splice sites imply REVERSED GENE Exon 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 -Intron -20 0.0 1524 1614 NC_003071_7807871-7811795 Exon 89 100.0... DR750378 + DR349756 + DR381589... Reconstruction manuelle du modèle de gène (2) :

Régulation tissus-spécifique : Évolution séquences régulatrices ? Structuration : Nouvelles fonctions Polyploïdie ? Spéciation ? Acquisition identité méristématique ? La lignée verte Bryophytes Ptéridophytes Gymnospermes Angiospermes Prasinophytes Evolution du méristème

41 O.tauri P.patens A.thaliana, O.sativa S.smollendorfii Evolution des gènes WOX : Choix des espèces modèles

Utiliser les données de l'annotation Evolution du méristème par le biais de l'étude de l'évolution des gènes Wox ? identifier les gènes Wox dans d'autres espèces

2.1 – Evolution des gènes WOX Objectif Etudier lévolution de la famille en utilisant dautres espèces Retracer les origines des gènes WOX Moyen réaliser un arbre phylogénétique observer les événements de duplication ayant donné naissance aux différents gènes WOX Choix des espèces : algue + mousse + riz – possèdent un génome annoté – sont réparties dans l'arbre des espèces 44

Phylogénie : phylogeny.fr « one click mode » Alignement muscle + phyML Evolution de la famille des gènes WOX chez les plantes Donnée : Fichier fasta protéine WOX (cf. 2) Résultat : discuter l'arbre obtenu Blastp, NCBI, DB : Non-redondant protein sequences (nr) Pour 3 organismes : Oryza sativa Indica (riz) Physcomitrella patens (mousse) Ostreococccus tauri (algue) Sélection des séquences protéiques conservées (E<10-4) (renommer les séquences pour la clarté de l'arbre)

Interprétation de larbre Quels sont les plus anciens Wox? Quelles sont les duplications récentes? Scénario dapparition des gènes Wox chez les plantes? 46

2.2 – Etude de l'homéodomaine 47 Objectif Identifier le(s) domaine(s) protéique(s) conservé(s) dans la famille WOX Mo yen Rechercher la séquence consensus de l'homéodomaine dans l'alignement multiple

Séquence Consensus Donnée : alignement obtenu avec phylogeny.fr Résultat : représentation en séquence logo du domaine Extraction de la séquence consensus (conservé dans toutes les séquences) 48 Attention : l'étape « 4- curation » (cured alignement in FASTA format) ne conserve pas l'alignement Visualisation avec WebLogo

49 Deveaux et al, 2008 Motif homéodomaine des WOX Motif homéodomaine dans Prosite Comparaison des homéodomaines Discuter les différences avec l'homéodomaine « générique » Motif Prosite : PS50071

Données : Gènes / protéines dans différentes espèces (5 espèces, 35 gènes sélectionnés) recherche dans les BD de séquences, parfois contigage+annotation ou ré-annotation Analyses : 1- Conservation de la structure intron-exon des gènes ? annotation structurale 2- Conservation de domaines protéiques ? études des séquences protéiques 3- Evolution de la famille de gènes ? Alignement multiple sur l'homéodomaine Intégration visuelle des résultats : 1- Introns : « phase » 0, 1 ou 2 + conservation des aa au « point d'insertion » 2- Visualisation des domaines sur les séquences protéiques (à l'échelle) 3- Arbre phylogénétique sur l'homéodomaine Cet ensemble d'analyses conforte l'abre obtenu Evolution des gènes Wox : synthèse

51 Deveaux et al, 2008 homéodomaine wox1 wus LELxL wox8 LQxG wox8 VFIN wox13 MTeeQ intron phase 0 phase 1 phase 2 aa conservés O.tauri P.patens S.smollendorfii O.sativa A.thaliana

1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret : C. Toffano-Nioche :

Présentations similaires

Présentation au sujet: "1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret : C. Toffano-Nioche :"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret : C. Toffano-Nioche :

Présentations similaires

Présentation au sujet: "1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret : C. Toffano-Nioche :"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back