La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Du génome aux protéomes « in silico » Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004.

Présentations similaires


Présentation au sujet: "Du génome aux protéomes « in silico » Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004."— Transcription de la présentation:

1 du génome aux protéomes « in silico » Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004

2 La bioinformatique, cest quoi ? Lutilisation de linformatique pour lanalyse de lADN et des protéines de tous les êtres vivants.

3 Acquérir puis stocker les informations biologiques sous la forme dencyclopédies appelées bases de données; Visualiser: développer des programmes pour visualiser la structure en trois dimensions des protéines et de lADN, pour shématiser des voies métaboliques ou des arbres phylogénétiques. Développer des programmes de prédiction et danalyse en utilisant les informations contenues dans les bases de données; Analyser/Interpréter/Prédire: utiliser ces programmes pour analyser de nouvelles données biologiques et prédire in silico par exemple la fonction potentielle dune protéine;

4 Bioinformatique - application 1: acquisition de données Exemples: lecture dimages de gels 2D, spectrométrie de masse (MS), séquençage ADN... Détection de signaux ou dimages Absence de contexte biologique.

5 Séquençage dADN Informatique instrumentale Programme pour analyser les données dun séquenceur ADN Exemple: pregap4 de Rodger Staden https://sourceforge.net/projects/staden.

6 Bioinformatique - application 2: Assemblage des séquences dADN Les méthodes actuelles de séquençage ne permettent pas dobtenir des séquences fiables de plus de 1000 bp ! Nature 409, (2001)

7 Bioinformatique - application 2: Assemblage des séquences dADN -> Reconstruire la séquence complète dun génome ou dun morceau de chromosome (« contig ») à partir de séquences de 1000 bp; Pas du tout trivial parce que: (a) il y a des erreurs de séquence; (b) il y a des régions répétitives. Celera-generated shotgun data set consisted of 27 million sequencing reads … Whole-genome shotgun assembly and comparison of human genome assemblies. PNAS 101(7): (2004)

8 CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGG GGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTG ACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATG AAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGC GCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACG CCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACG TGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCG ACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACG TGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGC TGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAG GCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTC AGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGA GAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGG AGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACAC TCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCC TATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGA GGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGA CACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTG TGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCA CCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGT GGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCT TCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGC CCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGT TAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTAT CGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTC TGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGC GTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCT CTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCT AGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTT GGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGC AGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAG GAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGC CGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGC CTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACC TCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTG GCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGC GCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTT GAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGC GGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGA GGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGG CAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCA GGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCAT GATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAG GGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCG GAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGC TGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTT GAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGT GGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTA GGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGA CGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAG ATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAG CCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGT CTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACC GTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGAC TCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAG GACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAG ATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCC Génome humain 3.2 milliards de pb 2.7 milliards de $ (coût en 2000) 100 $ (coût en 2008 ?)

9 Le génome humain (3ème version) contient actuellement encore 341 « trous » (essentiellement vers les centromères/télomères, régions répétitives) Nature (oct 2004), 431, 931

10 Contenu des banques de données de séquences en acides nucléiques EMBL/GenBank/DDBJ Octobre 2004 Craig Venter Ex: mer des Sargasses 1 milliard pb/semaine

11 Tous ces sites sont constamment remis à jour !

12 Bioinformatique - application 3: Analyse de séquence ADN Détection des régions codantes; Recherche de similarité (BLAST) Analyse des sites de restriction (enzymes); Traduction ADN en protéine; Détection de régions de basse complexité; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; Détection de séquences de tARN et autres types de ARN (exemples: rARN, uARN, tmARN).

13 Détection des régions codantes (gènes) Problème assez facile chez les bactéries; très difficile chez les eucaryotes supérieurs (homme, drosophile, etc.); Chez lhomme: moins de 5 % du gènome est « codant » (transcrit en mARN). Techniques diverses: recherche de signaux, approches statistiques (biais des codons); similarité avec des séquences connues….

14 Premiers exons TATA box GC et CAT box Région régulatrices Recherche de « signaux » dans une petite partie du promoteur dune protéine (apo AII)

15

16 Une séquence ADN de C.elegans) (~25000 bp) …

17 Approche 1: Genebuilder

18 Schéma récapitulatif 3 5 Genebuilder prédiction EST => cDNA ADN génomique exons14 Splicing / Epissage « in silico » mARN mature

19 Bioinformatique - application 3: Analyse de séquence ADN Détection des régions codantes; Recherche de similarité (BLAST) Analyse des sites de restriction (enzymes); Traduction ADN en protéine; Détection de régions de basse complexité; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; Détection de séquences de tARN et autres types de ARN (exemples: rARN, uARN, tmARN).

20 Quest-ce quun BLAST ? Outil informatique très efficace, permettant de faire des recherche de similarité à partir d'une séquence (protéine ou nucléique) sur les séquences existantes (banques de données) Quest-ce que les ESTs ? Expressed sequence tags : cDNAs (mARNs) qui ont été rapidement séquencés, souvent incomplets. -> Très utiles pour connaître les régions génomiques actives (transcrites) et la structure des gènes. (~24 mo de séquences publiques; 6 mo (homme)) Approche 2: Aligner la séquence génomique avec des mARNs (BLAST contre ESTs)

21 /

22 Approche 2: Aligner la séquence génomique avec des mARNs (BLAST contre ESTs) Intron ?

23 EST => cDNA gDNA exons1234 Splicing Mature mARN (-> EST) 1234

24 Séquence codante de notre « gène » (sans les introns = correspondant au mARN)

25 Bioinformatique - application 3: Analyse de séquence ADN Détection des régions codantes; Recherche de similarité (BLASTN) Analyse des sites de restriction (enzymes); Traduction ADN en protéine; Détection de régions de basse complexité; Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.; Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.; Détection de séquences de tARN et autres types de ARN (exemples: rARN, uARN, tmARN).

26 Les 3 phases de lecture…

27 Traduction avec « traduction multiple » Met Stop

28 Recherche de similarité (contre les séquences de protéines déjà connues: BLAST)

29 Conclusion de lanalyse La séquence de la protéine est MKVETCVYSGYKIHPGHGKRLVRTDGKVQIFLSGKALKGAKLRRNPRDIR WTVLHRIKNKKGTHGQEQVTRKKTKKSVQVVNRAVAGLSLDAILAKRNQT EDFRRQQREQAAKIAKDANKAVRAAKAAANKEKKASQPKTQQKTAKNVKT AAPRVGGKR Bonne prédiction par tous les logiciels, bons ESTs Notre gène inconnu est en fait déjà connu: il code pour une protéine ribosomale de type L24.

30 Des cas moins idéaux… Ex: Chromosome 21

31 Combien de protéines humaines ? Banques de données de séquences de protéines: (Swiss-Prot + TrEMBL = UniProt) Estimation du nombre de gènes humains: MS proteomics has verified more than 10% of human genes products, but has not identified significant numbers of unpredicted proteins (Southan C, Proteomics, 2004) En cours: « peptide mapping » du génome, R. Aebersold, 21 % protéines humaines « vérifiées »….

32 -> ~ protéines (estimation)

33 Cest pas fini…

34 Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (signal séquences, transit peptides); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post- traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (low complexity sequences);

35

36 Séquence dune protéine « inconnue » de C.elegans >seq4 MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC QIVKQFTFSSGLQRQSVIVTEEDSMKAYCKGSPEMIMSLCRPETVPENFH DIVEEYSQHGYRLIAVAEKELVVGSEVQKTPRQSIECDLTLIGLVALENR LKPVTTEVIQKLNEANIRSVMVTGDNLLTALSVARECGIIVPNKSAYLIE HENGVVDRRGRTVLTIREKEDHHTERQPKIVDLTKMTNKDCQFAISGSTF SVVTHEYPDLLDQLVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGA NDCAALKAAHAGISLSEAEASIAAPFTSKVADIRCVITLISEGRAALVTS YSAFLCMAGYSLTQFISILLLYWIATSYSQMQFLFIDIAIVTNLAFLSSK TRAHKELASTPPPTSILSTASMVSLFGQLAIGGMAQVAVFCLITMQSWFI PFMPTHHDNDEDRKSLQGTAIFYVSLFHYIVLYFVFAAGPPYRASIASNK AFLISMIGVTVTCIAIVVFYVTPIQYFLGCLQMPQEFRFIILAVATVTAV ISIIYDRCVDWISERLREKIRQRRKGA

37 Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (signal séquences, transit peptides); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post- traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (low complexity sequences);

38 Déterminer les caractéristiques physico-chimiques

39 Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (signal séquences, transit peptides); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post- traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (low complexity sequences);

40 Localisation subcellulaire ? PSORT II

41 Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (signal séquences, transit peptides); Recherche de régions transmembranaires (TM); Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post- traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (low complexity sequences);

42 Résumé des différents résultats obtenus par différents programmes de prédiction de TM HMMTOP PSORT II TMpred TMHMM in out grande boucle

43 Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (signal séquences, transit peptides); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post- traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (low complexity sequences);

44

45 Recherche des régions fonctionnelles Il sagit probablement dune ATPase

46 Bioinformatique- application 4: analyse de la séquence primaire des protéines Caractérisation physicochimique Prédiction de la localisation subcellulaire (signal séquences, transit peptides); Recherche de régions transmembranaires; Recherche des régions fonctionnelles (domaines conservés) Recherche de sites de modifications post- traductionelles (PTM). Recherche de régions antigéniques; Recherche de régions dont la composition est biaisée (low complexity sequences);

47 Sequence 484 ISPTTINTC Sequence 487 TTINTCGAI Sequence 499 CFDKTGTLT Sequence 501 DKTGTLTED *T* Sequence 503 TGTLTEDGL *T* Prédiction des sites de phosphorylation (Importance des données expérimentales !)

48 Sulfinator Sulfatation Glycosylation

49 Conclucion de lanalyse in silico de notre protéine inconnue Poids moléculaire: 126 kD; Fonction: ATPase potentielle; Localisation subcellulaire: Membrane plasmique. Transmembranaire (~10 hélices); N terminal: intracellulaire; C terminal: intracellulaire) PTM: Phosphorylée Ça me semble bio logique …mais reste à le prouver !

50 Mettre en relation 2 séquences en comparant les acides aminés à chaque position et en tenant compte de leur probabilité de mutation au cours de lévolution; Bioinformatique - application 5: alignement de 2 séquences MY-TAIL--ORIS-RICH- #x #### x#x# #### MONTAILLEURESTRICHE (algorithme pour comparer des chants doiseaux)

51 BLAST

52 « la pierre angulaire de la bioinformatique »

53 Bioinformatique - application 6: Alignement multiple Exemples: Clustal W, T-coffee tr|Q9N323 LVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGANDCAALKAAHAGISLSEAEASIA sp|Q21286|YBF7_CAEEL ITAMCDVYARMAPDQKAQLIGALQEIGAKVSMCGDGANDCAALKAAHAGISLSQAEASIA sp|Q9H7F0|ATY3_HUMAN LMLHGTVFARMAPDQKTQLIEALQNVDYFVGMCGDGANDCGALKRAHGGISLSELEASVA sp|Q9NQ11|ATY1_HUMAN VLVQGTVFARMAPEQKTELVCELQKLQYCVGMCGDGANDCGALKAADVGISLSQAEASVV sp|O74431|ATC9_SCHPO ILLKAQIFARMSPSEKNELVSCFQNLNYCVGFCGDGANDCGALKAADVGISLSEAEASVA sp|Q12697|ATC9_YEAST ILLNSSIYARMSPDEKHELMIQLQKLDYTVGFCGDGANDCGALKAADVGISLSEAEASVA : ::***:*.:* *: :*.: *.:********.*** *. *****: ***:.

54 Exemple dun dendrogramme obtenu à partir dun résultat de CLUSTALW à laide du programme « phylodendron » Alignement multiple et dendogramme

55 Bioinformatique - application 7: phylogénétique Reconstruction de lévolution moléculaire des familles de protéines; Reconstruction de lévolution des espèces; création darbres taxonomique; Reconstruction de lévolution des chemins métaboliques.

56 Computational Challenges from the Tree of Life The biology community has embarked on an enormously ambitious project, the assembly of the Tree of Life -- the phylogeny of all organisms on this planet. This project presents a true computational grand challenge: - current phylogenetic methods can barely handle a few hundred organisms. - yet the Tree of Life has an estimated million organisms. November 8, 17:15, EPFL INM 202 Bernard Moret University of New Mexico Albuquerque, USA

57 Bioinformatique - application 8 analyse de la structure secondaire & modélisation des protéines Séquence dune protéine Structure dune protéine ? MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC

58 Bioinformatique - application 8 analyse de la structure secondaire & tertiaire des protéines Détermination de la structure tertiaire à partir de la séquence (ab-initio); problème non-résolu ! Prédiction de la structure secondaire (hélices…) Modélisation par homologie: prédire la structure dune nouvelle protéine ressemblant à une dont la structure est déjà connue; en plein développement… Programme de visualisation pour la structure 3D Prédiction de docking entre protéines ou entre une protéine et une petite molécule (« drug design »)

59 Exemple de données de cristallographie aux rayons X Coordonnées atomiques - données expérimentales CRYST P CA 82 ORIGX CA 83 ORIGX CA 84 ORIGX CA 85 SCALE CA 86 SCALE CA 87 SCALE CA 88 ATOM 1 N TRP CA 89 ATOM 2 CA TRP CA 90 ATOM 3 C TRP CA 91 ATOM 4 O TRP CA 92 ATOM 5 CB TRP CA 93 ATOM 6 CG TRP CA 94 ATOM 7 CD1 TRP CA 95 ATOM 8 CD2 TRP CA 96 ATOM 9 NE1 TRP CA 97 ATOM 10 CE2 TRP CA 98 ATOM 11 CE3 TRP CA 99 ATOM 12 CZ2 TRP CA 100 ATOM 13 CZ3 TRP CA 101 ATOM 14 CH2 TRP CA 102 …….

60 Programme de visualisation de la structure tridimentionnelle (Chime, Rasmol, PDB viewer…) Interaction entre un facteur de transcription (dimère) et lADN

61 Cest beau…mais y a du boulot !

62 HIV: exemple dapplication de la bioinformatique 1984: identification du virus; 1985: séquençage du génome de HIV-1 ; (4 laboratoires dont Montagnier/France et Gallo (USA) (??)) : caractérisation des protéines; 1989: structure X-ray de la protéase; 1990: premiers inhibiteurs modélisés à partir de la structure 3D de la protéase Novembre 1995: premier médicament (Invirase) approuvé par la FDA (trithérapie).

63 Structure 3D de la protease de HIV

64 Structure 3D de la protease de HIV + inhibiteur

65 Conclusions Extraordinaire potentiel de la bioinformatique… mais ne elle ne remplace(ra) pas les expériences «wet lab» génomiques, protéomiques et autres, ni lesprit critique humain (contexte biologique) ! La bioinfo fournit des outils performants aux chercheurs… Les données expérimentales des chercheurs permettent daméliorer les programmes bioinformatiques (prédiction)…

66 Avant … Après …

67 Si vous êtes intéressés: CPTIC 288 Explorer les génomes en classe 26 novembre Acquérir une vue d'ensemble des potentiels éducatifs des bases de données (issues du séquençage du génome humain notamment)

68 Viroide 300 Petit phage (virus infectant une bactérie) 2,000 Virus du SIDA 10,000 Virus de lherpès150,000 Mycoplasma genitalium (bactérie parasite)600,000 Bactérie 1 à 13 millions Levuredu boulanger 13 millions Drosophile (mouche) 180 millions Poisson fugu 360 millions Homme 3.2 milliards Pin 68 milliards Salamandre 81 milliards Amibe 670 milliards La taille des génomes (en nombre de bases)


Télécharger ppt "Du génome aux protéomes « in silico » Institut Suisse de Bioinformatique Groupe Swiss-Prot novembre 2004."

Présentations similaires


Annonces Google