La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Génomique comparative Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard.

Présentations similaires


Présentation au sujet: "Génomique comparative Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard."— Transcription de la présentation:

1 Génomique comparative Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard – Lyon 1

2 Plan du cours Projets génomes Utilisation et définitions Recherche des homologues Exemples dapplications Comparaison de génomes

3 Génomes séquencés Bactéries : 24 génomes complets publics. Archées : Six génomes complets publics. Eucaryotes : Saccharomyces cerevisiae. Caenorhabditis elegans (90 %). Drosophila melanogaster (75 %).

4 Phylogénie des espèces Eucaryotes Archées Bactéries Caenorhabditis Saccharomyces Drosophila Archeoglobus Methanobacterium Methanococcus Pyrococcus Aquifex Thermotoga Synechocystis Bacillus Mycobacterium Mycoplasma Chlamydia Rickettsia Haemophilus Escherichia Borrelia Treponema Helicobacter

5 Projets publics en cours Saccharomyces pombe Leishmania major Trypanosoma brucei Plasmodium falciparum Arabidopsis thaliana Mus musculus Homo sapiens 14 Mb (87 %) 34 Mb (15 %) 53 Mb (33 %) 60 Mb (25 %) 100 Mb (95 %) Mb (13 %) Mb (90 %) + 28 autres eucaryotes procarotes

6 Cas du génome humain Un nombre important de séquences ne sont disponibles que sous la forme de drafts. La séquence propre ne sera pas disponible avant Lannotation complète prendra encore plus de temps… Fragments non ordonnés Gaps de longueur inconnue

7 Taille des banques EMBL GenBank NBRF/PIR SWISS-PROT 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 log(Taille) 1/10/82 1/08/831/06/841/04/851/02/861/12/861/10/871/08/881/06/891/04/90 1/02/91 1/12/911/10/921/08/931/06/941/04/951/02/961/12/961/10/971/08/98 EST

8 Analyses in silico Lannotation de toutes ces séquences est une tâche colossale : Il est impossible de réaliser des expérimenta- tions biologiques sur toutes ces séquences. Lutilisation de méthodes danalyses in silico est maintenant prépondérante. Du fait même de la quantité de données dispo- nibles, la génomique comparative constitue une approche incontournable.

9 Plan du cours Projets génomes Utilisation et définitions Recherche des homologues Exemples dapplications Comparaison de génomes

10 Prédiction de gènes Utilisation de méthodes intrinsèques : Glimmer, GeneMark (procaryotes). GRAIL, GenScan (vertébrés). Confirmation par la recherche dhomolo- gues (BLASTP). Recherche par traduction dans les six phases possibles (BLASTX).

11 Analyse fonctionnelle Assignation de la fonction dune protéine par homologie. Détection des différentes régions fonction- nelles (protéines modulaires). Étude des contraintes structurales : Amélioration de la prédiction de structures secondaires (threading). Présence de mutations compensatoires.

12 Évolution moléculaire Estimation du contenu du génome ancestral. Recherche de transferts horizontaux entre certaines espèces bactériennes. Détermination de voies métaboliques com- munes ou spécifiques à certains taxons. Étude de la contribution des duplications géniques à lévolution des génomes.

13 Similarité ou homologie ? Deux séquences sont dites homologues si elles ont un ancêtre commun. Lexistence dun ancêtre commun est infé- rée à partir de la similarité. Seuil pour les protéines : 30 % didentité sur une longueur de 100 AA homologie entre les séquences.

14 Similarité sans homologie La similarité nest pas toujours due à de lhomologie : Convergence ou simple hasard pour de courtes séquences (quelques résidus). Existence de régions de faible complexité (e.g., cas de la fibroïne [GSGAGA] n ) : –Présentes dans 40 % des protéines. –Peuvent représenter jusquà 15 % du total des résidus (Ala, Gly, Pro, Ser, Glu et Gln).

15 Homologie sans similarité Deux séquences peuvent être homologues sans que leur similarité soit forte : ACP_KLEAE ---MEMKIDALAGTLESSDVMVRIGPAAQPGIQLEIDSIVKQEFGAAIQQVVRETLAQLG ACP_ECOLI STIEERVKKIIGEQLGVKQEEVTDN--ASFVEDLGADSLDTVELVMALEEEFDTEIPDEE * : : * : * * :* **: * *::: : ::: ACP_KLEAE VKECDNVQLARVQAAALRWQQ ACP_ECOLI AEKITTVQAAIDYINGHQA-- :: ** * : : La similarité entre ces protéines est faible mais les données fonctionnelles et biochimiques montrent quelles sont homologues.

16 Orthologues et paralogues PrimatesRongeurs Gène ancestral INS Homme INS1 Rat INS1 Souris INS1INS2 Rat INS2 Souris Spéciation Duplication Orthologie Paralogie

17 a1b1c1a2b2c2 Duplication Spéciation Paralogues et phylogénies Phylogénie déduite ABCCBA Phylogénie vraie

18 Les paralogues sont fréquents Saccharomyces Mycobacterium Escherichia Haemophilus Bacillus Methanococcus Streptomyces Pyrococcus GABT_MYCTU O86823 GOAG_ECOLI GABT_ECOLI GABT_BACSU ARGD_METJA ARGD_ECOLI ARGD_BACSU O59401 OAT_BACSU Y949_HAEIN O69975 OAT_ECOLI O58478 O59170 O57878 O50131 O86744 O53379 YHXA_BACSU YODT_BACSU BIOA_METJA BIOA_BACSU BIOA_HAEIN BIOA_ECOLI BIOA_MYCTU BIOA_YEAST Aminotransférases pyridoxal- phosphate dépendantes (III)

19 Plan du cours Projets génomes Utilisation et définitions Recherche des homologues Exemples dapplications Comparaison de génomes

20 Banques généralistes Faiblesse des annotations : Définitions rares ou erronées. Informations limitées au fait quun gène est similaire à un autre ou à une famille : /note="similar to tremblnew|U52681|MT52681_5" /note="similar to YJF5_YEAST hypothetical 26.9 kd protein in nup82-pep8 intergenic" /note="similar to bacterial sugar permeases; member of the sodium:galactoside symporter family"

21 Le système ENTREZ Introduit la notion de voisins entre séquen- ces, structures et références. Les voisinages entre séquences sont établis sur des critères de similarité. Pas daccès aux ali- gnements multiples. Phylogénie (Taxman) Structures (MMDB) Réfs. (PubMed) Génomes Complets Séq. Nucl. (GenBank) Séq. Prot. (GenPept)

22 Recherche manuelle La recherche des homologues et linterpré- tation des homologies requièrent : De déterminer des similarités. De calculer des alignements multiples. De construire des arbres phylogénétiques. De disposer de données taxonomiques. De pouvoir accéder aux annotations des banques.

23 Banques de familles de gènes Construites par automatisation de la procé- dure décrite précédemment : Recherche de similarité entre toutes les proté- ines (BLASTP, FASTP, Smith-Waterman). Regroupement en familles homologues sur des critères de similarité : –En simple lien, si {A, B} et {B, C} passent les critères, alors {A, B, C} sont classées ensemble. –En lien complet, toutes les paires doivent passer les critères.

24 ProtFam Développée par le MIPS (Martinsried Insti- tute for Protein Sequence). Construite à partir des séquences de PIR. Intègre quatre niveaux de classification : Superfamilles de PIR (fonction et similarité). Familles (50 % de similarité). Sous-familles (80 %). Entrées (95 %).

25 Caractéristiques de ProtFAm Permet de visualiser les alignements et les dendrogrammes construits avec les familles. Intègre les données en domaines de Pfam. Permet à lutilisateur de soumettre ses propres séquences. Serveur Web :

26 ProtoMap Développée au Department of Biological Chemistry de The Hebrew University of Jerusalem. Construite à partir des séquences de SWISS- PROT. Utilise trois mesures pour déterminer la similarité entre les séquences (BLASTP, FASTP et Smith-Waterman).

27 Caractéristiques de ProtoMap Alignements et arbres visualisés au moyen dapplets Java. Possibilité de soumettre ses propres séquen- ces pour les classer dans une famille. Pas de données sur les domaines mais visu- alisation dhomologies extra-famille. Serveur Web :

28 Banques dédiées HOVERGEN (Homologous Vertebrate Genes Database) pour les vertébrés : Basée sur GenBank. HOBACGEN (Homologous Bacterial Genes Database) pour les procaryotes et la levure : Basée sur SWISS-PROT / TrEMBL. COG (Clusters of Orthologous Genes) pour les génomes complets.

29 HOBACGEN Intègre séquences protéiques et nucléiques ainsi que des alignements et des arbres. Possède une structure de type client-serveur. Distribution du logiciel client mais aussi du serveur complet. Serveur Web :

30 Architecture client-serveur Service Web + Programme C (Unix) Requêtes HTTP T-RRDLNHS TVRRDFQYI TVRRDIRKL TIRRDL-KL TIRRDI--L TIRRDLIN- Alignements Arbres SWISS- PROT EMBL ACNUC Client Java (Unix, Mac, Windows)

31 Structure en domaines 6PG1_YEAST 6PGD_CANAL 6PGD_SOYBN 6PG2_BACSU O32911_MYCLR P95165_MYCTU 6PGD_CERCA Q40311_MEDSA Y770_MYCTU Y229_SYNY3 Découpage en domaines de la famille 6PGD

32 Banques disponibles Banques de domaines (Blocks, Domo, Pfam, ProDom, SBASE). Banques de motifs ou des profils caractéris- tiques de certaines familles (PRINTS, PRO- SITE). La banque InterPro regroupe les données des différentes banques sur les domaines et les motifs expertisés.

33 Plan du cours Projets génomes Utilisation et définitions Recherche des homologues Exemples dapplications Comparaison de génomes

34 Assignation de fonction Famille des carboxylases et formyltransférases accC : gène de la biotine carboxylase ACCC_ANASP Q54755 Q55160 ACCC_PSEAE ACCC_BACSU ACCC_METJA ACCC_ECOLI ACCC_HAEIN

35 Confirmation par lalignement ACCC_ANASP MKFDKILIANRGEIALRILRACEEMGIATIAVHSTVDRNALHVQLADEAVCIGEPASAKS Q54755 MRFNKILIANRGEIALRILRTCEELGIGTIAVHSTVDRNALHVQLADEAVCIGEAASSKS Q55160 MQFAKILIANRGEIALRIIHSCEELGIPTVAVHSTIDRHALHVQLANESVCIGPPPSNKS ACCC_ECOLI M- LDKIVIANRGEIALRILRACKELGIKTVAVHSSADRDLKHVLLADETVCIGPAPSVKS ACCC_HAEIN M- LEKVVIANRGEIALRILRACKELGIKTVAVHSTADRDLKHVLLADETICIGPAPSAKS ACCC_PSEAE M- LEKVLIANRGEIALRILRACKELGIKTVAVHSTADRELMHLSLADESVCIGPAPATQS ACCC_BACSU M- IKKLLIANRGEIAVRIIRACRELGIETVAVYSEADKDALHVQMADEAFCIGPKASKDS ACCC_METJA M- FNKVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAPAAKS * *::********:**:::* *:** *:** * *: * :*:*: ***.:.* ACCC_ANASP LNIPNIIAAALTRNASAIHPGYGFLSENAKFAEICADHHIAFIGPTPEAIRLMGDKSTAK Q54755 LNIPNIIAAALTRNASAIHPGYGFLAENARFAEICADHHLTFIGPSPDSIRAMGDKSTAK Q55160 LNIPNIIAAALTRNATAIHPGYGFLAENARFAEICADHQITFIGPSPEAITAMGDKSTAK ACCC_ECOLI LNIPAIISAAEITGAVAIHPGYGFLSENANFAEQVERSGFIFIGPKAETIRLMGDKVSAI ACCC_HAEIN LNIPAIIAAAEVTGADAIHPGYGFLSENADFAEQVERSGFTFIGPTADVIRLMGDKVSAI ACCC_PSEAE LQIPAIIAAAEVTGATAIHPGYGFLAENADFAEQIERSGFTFVGPTAEVIRLMGDKVSAK ACCC_BACSU LNVTNIVSVAKLTGTDAIHPGYGFLAENADFAELCEEVNVTFVGPSADAISKMGTKDVAR ACCC_METJA LNIDAILNVAEKAKVDAIHPGYGFLAENAEFARAVKKAGFEFIGPNPDAIEAMGSKINAK *:: *: * *********:*** **. *:**.: * ** * *

36 Erreurs dassignation Famille de la 6-phospho- gluconate déhydrogenase 6PGD_SHIBO 6PGD_SHIDY 6PGD_SHISO 6PGD_SHIFL 6PGD_ECOLI 6PGD_ESCVU 6PGD_CITDI 6PGD_SALTY 6PGD_CITFR YQJI_BACSU 6PGD_BACLI 6PGD_BACSU 6PGD_SYNY3 6PGD_SYNP7

37 Historique des annotations La chronologie de lintroduction de ces séquences dans SWISS-PROT est la suivante : 6PGD_ECOLI 6PGD_BACSU 6PGD_SALTY YQJI_BACSU 21-JUL OCT JAN OCT-1996 Lassignation de 6PGD_BACSU comme étant orthologue à 6PGD_ECOLI sest faite bien avant lobtention du génome complet de B. subtilis.

38 Alignement de départ 6PGD_ECOLI MSKQQIGVVGMAVMGRNLALNIESRGYTVSIFNRSREKTEEVIAENP-GKKLVPYYTVKE 6PGD_SALTY MSKQQIGVVGMAVMGRNLALNIESRGYTVSVFNRSREKTEEVIAENP-GKKLVPYYTVKE 6PGD_BACSU -MFNSIGVIGLGVMGSNIALNMANKGENVAVYNYTRDLTDQLIQKLDGQ-SLSPYYELED YQJI_BACSU PGD_ECOLI VESLETPRRILLMVKAGAGTDAAIDSLKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGF 6PGD_SALTY VESLETPRRILLMVKAGAGTDAAIDSLKPYLEKGDIIIDGGNTFFQDTIRRNRELSAEGF 6PGD_BACSU VQSLEKPRKIFLMVTAGKPVDSVIQSLKPLLEEGDVIMDGGNSHYEDTERRYDELKEKGI YQJI_BACSU ---METPRKILLMVKAGTATDATIQSLLPHLEKDDILIDGGNTYYKDTQRRNKELAESGI :* **:* *** ** *: *:** * *:: *:::****: ::** ** ** * 6PGD_ECOLI FIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY 6PGD_SALTY FIGTGVSGGEEGALKGPSIMPGGQKDAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY 6PGD_BACSU YLGVGISGGEVGALTGPSIMPGGDRDVYEKAAPILTKIAAQVG-DDPCCVYIGPKGAGHF YQJI_BACSU FIGTGVSGGEEGALKGPSIMPGGQKEAHELVKPILEAISAKVD-GEPCTTYIGPDGAGHY ::* *:**** *** ********::: :* *** *:* :** ***..****:

39 Alignement corrigé 6PGD_ECOLI MSKQQIGVVGMAVMGRNLALNIESRGYTVSIFNRSREKTEEVIAENPGKKLVPYYTVKEF 6PGD_SALTY MSKQQIGVVGMAVMGRNLALNIESRGYTVSVFNRSREKTEEVIAENPGKKLVPYYTVKEF 6PGD_BACSU M-FNSIGVIGLGVMGSNIALNMANKGENVAVYNYTRDLTDQLIQKLDGQSLSPYYELEDF YQJI_BACSU MSKQQIGVIGLAVMGKNLALNIESRGFSVSVYNRSSSKTEEFLQEAKGKNVVGTYSIEEF * :.***:*:.*** *:***:.:*.*:::* :. *::.: : *:.: * :::* 6PGD_ECOLI VESLETPRRILLMVKAGAGTDAAIDSLKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGF 6PGD_SALTY VESLETPRRILLMVKAGAGTDAAIDSLKPYLEKGDIIIDGGNTFFQDTIRRNRELSAEGF 6PGD_BACSU VQSLEKPRKIFLMVTAGKPVDSVIQSLKPLLEEGDVIMDGGNSHYEDTERRYDELKEKGI YQJI_BACSU VQSMETPRKILLMVKAGTATDATIQSLLPHLEKDDILIDGGNTYYKDTQRRNKELAESGI *.*:* **:* *** **. *: *:** * *:: *:::****: ::** ** ** * 6PGD_ECOLI FIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY 6PGD_SALTY FIGTGVSGGEEGALKGPSIMPGGQKDAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY 6PGD_BACSU YLGVGISGGEVGALTGPSIMPGGDRDVYEKAAPILTKIAAQVG-DDPCCVYIGPKGAGHF YQJI_BACSU FIGTGVSGGEEGALKGPSIMPGGQKEAHELVKPILEAISAKVD-GEPCTTYIGPDGAGHY ::* *:**** *** ********::: :* *** *:* :** ***..****:

40 Transferts horizontaux Se définissent comme étant le passage de séquences dADN dun génome à un autre. Se distinguent de la transmission verticale de la génération parentale à la progéniture. De nombreux mécanismes moléculaires sont impliqués dans ces échanges : Transformation, conjugaison, transduction. Recombinaison.

41 Interêt de ces phénomènes Remise en cause de la notion despèce chez les procaryotes. Fiabilité des méthodes de reconstruction phylogénétiques. Implication dans lacquisition de la patho- génicité chez certaines souches. Résistance aux antibiotiques et aux métaux lourds.

42 Principe général Gène X Gène Y AB CD E AB CD E Congruence avec larbre des espèces Transfert horizontal

43 Phylogénie de ilvD Protéobactéries Firmicutes Cyanobactérie Eucaryote E. coli H. infuenzae B. aphidicola M. leprae M. tuberculosis S. cerevisiae L. lactis Synechocystis Archaea S. coelicor Famille de la dihydroxy-acid déshydratase

44 Alignement des gènes ilvD M. tuberculosisGMSLPGSAAPPATDRRRDGFARRSGQAVVELLRR GITARDILTKEAFENA/…/ M. lepraeGMSLPGSAAPPATDRRRDGFARRSGQAVIELLRR GITARDILTKEAFENA/…/ L. lactisGMSLPYSSSNPAVSQEKQEECDDIGLAIKNLLEK DIKPSDIMTKEAFENA/…/ S. cerevisiaeGLTIPNSSSFPAVSKEKLAECDNIGEYIKKTMEL GILPRDILTKEAFENA/…/ SynechocystisGMSLPYSSTMAAVDGEKADSTEESAKVLVEAIKK QILPSQILTRKAFENA/…/ H. influenzaeGLSLPGNGSMLATHADRKELFLKAGRQIVELCKRYYEQDDASVLPRSIGTFDAFENA/…/ E. coliGLSQPGNGSLLATHADRKQLFLNAGKRIVELTKRYYEQNDESALPRNIASKAAFENA/…/ B. aphidicolaGLSLPGNGTLLATHIDRKKLFKKSARNIVKITKDYYLNNNKNVLPRNIANKESFENA/…/ S. coelicolorGLSLPGNGSVLATHTARKTLYENAARTVLDLTRRYYEQDDDSVLPRNIATPAAFGNA/…/ *:: *. * :. : :.. : * :* ** M. tuberculosisAENLAAITPPD PDGK-VLRALANPI M. lepraeAENLASIAPPD PDGQ-VIRTLHNPI L. lactisAENVETALDLD FDSQDIMRPLKNPI S. cerevisiaeAERAKKAPSLP EGQEIIKPLSHPI SynechocystisAEVLADIPDQP PAGQDVIHSWDDPV H. influenzaeGEQLDQYDIIR-NQDEELHKFFRAGPAGIRTTQAFSQDCRWDTVDNDRVNGCIRNKENAI E. coliPQTLEQYDVML-TQDDAVKNMFRAGPAGIRTTQAFSQDCRWDTLDDDRANGCIRSLEHAY B. aphidicolaEKTLKKYDILS-TKNKNVIKMFHAGPGGNRTIKPFSQNYRWNKLDKDRVNGCIRSHENAY S. coelicolorADWLKTWDVRGGSPSKEAVELWHAAPGCVRSAEAFSQSERWDTLDEDAEGGCIRSVEHAY. :..:

45 Homologies lointaines Les analyses précédentes impliquaient que les similarités entre séquences soient fortes : Utilisation de programmes comme BLAST. Si les similarités sont faibles il est nécessaire demployer dautres approches : Recherche de signatures PROSITE. Recherche de profils réalisés à partir daligne- ments multiples. Utilisation de PSI-BLAST.

46 Principe de la méthode Alignement de départ profileweight Matrice de pondération … l AC…WAC…W Récupération d homologues pfsearch Homologues proches Positions conservées Homologues lointains

47 Linsuline chez les vertébrés Homo Pan Chlorocebus Macaca Aotus Bos Ovis Sus Canis Oryctolagus Cavia (I) Cavia (II) Octodon Rattus (II) Mus (II) Rattus (I) Mus (I) Mesocricetus Psammomys Gallus Selasphorus Xenopus (I) Xenopus (II) Danio Cyprinus Lophius Verasper Oreochromis Oncorhynchus Myxine Agnates Poissons Amphibiens Oiseaux Rongeurs Cochon dInde Canidés Ongulés Primates Famille FAM dHOVERGEN

48 Recherche avec BLASTP2 Sequences producing significant alignments: bits E O INSULIN-LIKE PEPTIDE PRECURSOR O R06F6.8B PROTEIN YRM8_CAEEL 1941 HYPOTHETICAL KDA PROTEIN R06F O SIMILARITY TO AN RNA RECOGNITION MOTIF O C08F1.5 PROTEIN O T21D12.3 PROTEIN O R07C3.13 PROTEIN Q9U Y56A3A.14 PROTEIN Q9XWF1 541 Y52B11A.3 PROTEIN Recherche effectuée dans SWISS-PROT / TrEMBL à partir de linsuline humaine : Valeur de E (sensibilité maximale). Un seul homologue détecté sur neuf neuf hits :

49 Recherche avec ProfileSearch O76469 INSULIN-LIKE PEPTIDE PRECURSOR INB3_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 3 PRECURSOR; CAB61047 Y116F11B.B PROTEIN Q9XVA1 F08G2.6 PROTEIN BAA84470 CEINSULIN INB5_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 5 PRECURSOR AAF60452 HYPOTHETICAL PROTEIN Y23B4A INB2_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 2 PRECURSOR Q9XV80 F20E11.8 PROTEIN … INB4_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 4 PRECURSOR … Recherche effectuée à partir de lalignement de 30 séquences dinsulines de vertébrés : Six homologues détectés sur 129 hits !

50 Plan du cours Projets génomes Utilisation et définitions Recherche des homologues Exemples dapplications Comparaison de génomes

51 Répartition des familles Levure Archées 6772 Bactéries LUCA ?

52 Nature des familles Les familles communes aux trois règnes comprennent : Des protéines de la machinerie de traduction (protéines ribosomales, facteurs délongation). Des enzymes du métabolisme basal (glycolyse, cycle de Krebs, biosynthèse des nucléotides). Le génome ancestral devait contenir un nombre plus élevé de gènes.

53 Espèces étudiées Saccharomyces cerevisiae Caenorhabditis elegans Schizosaccharomyces pombe Methanococcus jannaschii Methanobacterium thermoautotrophicum Archaeoglobus fulgidus Pyrococcus horikoshii Haemophilus influenzae Mycoplasma genitalium Mycoplasma pneumoniae Synechocystis sp. PCC 6803 Escherichia coli Helicobacter pylori Bacillus subtilis Borrelia burgdorferi Mycobacterium tuberculosis Aquifex aeolicus Treponema pallidum Chlamydia trachomatis Campylobacter jejuni Rickettsia prowazekii Sc Ce Sp Mj Mth Af Ph Hi Mg Mp Ssp Ec Hp Bs Bb Mt Ae Tp Ct Cj Rp 13,00 97,00 15,00 1,66 1,75 2,18 1,74 1,83 0,58 0,81 3,57 4,60 1,66 4,20 1,44 4,40 1,55 1,14 1,04 1,64 1,

54 Duplications et conservations Sc Ce Sp Hs Mm Mj Mth Af Ph Hi Mg Mp Ssp Ec Hp Bs Bb Ae Mt Tp Ct Rp Cj Tot. Cj 15,9 18,8 23,5 11,6 8,0 24,7 26,2 28,7 29,8 47,0 17,8 16,8 44,2 55,9 60,5 49,3 26,9 48,7 36,5 28,6 33,9 37,2 31,1 80,2 Rp 22,6 28,0 32,0 18,4 12,5 21,5 26,2 28,8 31,8 55,6 27,0 27,1 54,5 64,4 52,2 55,0 37,6 55,8 48,9 38,5 51,0 29,0 56,4 85,8 Mj 17,4 18,9 21,6 9,7 7,7 42,0 64,8 62,0 55,9 22,2 16,8 13,7 34,2 32,6 27,6 29,9 15,7 41,6 23,6 14,7 24,1 21,7 24,6 89,7 Mth 17,4 19,0 20,9 11,2 7,7 60,7 44,0 60,6 49,3 22,0 12,7 12,6 37,6 36,7 25,7 32,7 13,3 38,7 29,9 15,9 22,8 20,4 24,5 86,2 Af 15,4 20,7 21,0 11,6 8,1 51,0 52,6 51,0 50,5 21,5 12,3 11,2 34,3 35,8 20,1 32,5 14,0 39,9 27,8 14,2 21,5 20,4 24,1 83,1 Ph 14,8 19,6 21,3 11,8 7,8 44,4 42,9 49,6 42,9 20,0 10,1 9,8 24,3 28,5 19,3 26,7 11,6 30,1 21,1 14,1 21,8 19,1 22,6 75,6 Hi 19,7 22,2 24,7 13,7 9,5 21,2 25,0 27,7 29,7 29,5 18,7 19,4 47,7 79,7 41,4 53,2 25,7 44,0 42,6 30,4 39,1 36,1 48,3 89,6 Mg 24,8 29,9 33,1 16,2 11,5 30,3 28,2 26,7 31,4 52,1 31,8 97,9 55,8 53,8 48,9 63,7 48,1 51,1 49,1 47,0 50,6 48,5 53,0 98,7 Mp 17,9 21,1 24,1 12,3 8,7 21,9 21,4 20,5 27,0 39,3 84,2 45,6 44,2 40,9 37,5 46,8 34,4 37,8 35,5 34,3 38,8 36,2 38,1 93,2 Ssp 14,3 17,8 22,0 10,6 7,6 20,8 24,0 24,8 23,0 31,6 13,3 14,6 47,2 42,5 26,3 39,1 17,3 35,5 37,1 21,0 26,4 25,6 31,0 70,7 Ec 14,7 18,6 20,7 11,4 7,7 17,5 20,4 25,1 25,6 48,1 10,8 12,2 40,4 50,0 28,3 47,6 16,7 34,2 35,8 19,9 26,8 25,3 35,2 78,5 Hp 14,2 16,9 20,6 9,9 6,4 19,3 21,4 23,1 26,9 40,8 17,2 18,1 38,7 47,2 29,9 41,6 24,4 44,4 31,5 27,3 34,1 33,9 62,8 77,9 Bs 15,5 19,4 22,6 11,1 8,0 18,8 23,4 28,1 30,6 35,9 14,8 15,0 39,6 49,7 28,9 48,4 19,6 35,8 36,8 22,3 32,0 28,0 34,5 77,4 Bb 13,5 19,8 26,8 11,5 7,4 20,8 21,5 24,5 30,8 45,1 30,9 30,7 43,4 50,7 43,9 54,8 24,6 50,5 35,2 59,4 45,6 44,4 50,2 84,5 Ae 20,8 22,8 27,5 13,7 8,9 33,6 35,5 38,9 39,4 44,2 17,7 18,0 55,3 58,2 46,3 55,8 28,8 36,2 44,3 30,3 37,4 37,6 54,0 87,3 Mt 13,2 19,6 18,1 12,2 8,2 12,8 18,1 21,9 18,2 26,4 8,7 9,3 35,4 38,0 19,9 37,1 10,3 26,9 51,0 15,6 20,5 18,3 22,5 61,5 Tp 14,5 17,6 20,4 11,2 7,6 16,0 20,5 18,7 22,5 40,2 22,1 22,8 41,6 47,0 37,4 47,2 48,5 41,7 35,1 25,8 40,5 33,7 40,2 72,9 Ct 19,6 22,9 25,3 13,5 10,3 17,0 20,3 21,8 24,6 50,1 25,2 25,4 49,8 54,5 42,4 52,5 34,3 48,0 41,5 38,8 29,0 45,0 46,5 74,7 Sp 65,4 52,6 47,0 40,4 30,2 14,5 16,9 17,4 20,5 15,1 9,8 10,0 22,5 19,7 13,1 20,8 8,8 19,2 18,7 11,3 18,0 14,4 14,3 68,8 Ce 16,7 66,6 24,5 31,2 24,7 4,8 5,5 7,2 9,8 5,9 4,9 4,5 9,0 7,6 5,4 9,2 4,1 8,7 8,1 5,5 10,3 9,8 7,3 47,2 Sc 40,3 42,4 53,9 29,6 21,3 11,3 13,5 17,8 16,7 12,7 7,3 16,5 16,6 11,2 16,7 6,9 14,6 14,4 10,2 15,8 13,1 12,0 72,0

55 Duplications et taille Chez les bactéries, le pourcentage de dupli- cations est corrélé à la taille du génome. % Duplications Taille (Mb) r 2 = 0,311 (p < ) ,511,522,533,544,55

56 Conservations exclusives Sc Ce Sp Hs Mm Mj Mth Af Ph Hi Mg Mp Ssp Ec Hp Bs Bb Ae Mt Tp Ct Rp Cj 0,0 0,05 0,0 0,2 0,0 0,2 0,3 0,05 0,0 0,2 0,4 6,2 03 0,4 0,5 0,2 0,3 0,5 19,8 Rp 0,1 0,0 0,7 0,0 0,4 0,1 0,6 0,2 0,1 0,5 0,4 1,1 0,2 0,0 0,7 0,1 0,4 1,2 14,2 0,2 Mj 0,0 0,05 0,1 0,0 10,3 3,2 1,5 2,8 0,2 0,6 0,3 0,0 0,3 0,0 0,2 0,9 0,0 0,7 0,4 0,1 Mth 0,0 4,0 13,8 1,8 1,2 0,1 0,3 0,6 0,4 0,2 0,4 0,1 0,6 0,2 0,9 0,2 0,1 Af 0,0 0,08 0,1 0,0 1,2 16,8 2,3 0,08 0,3 0,04 0,9 0,5 0,08 0,5 0,1 0,8 0,3 0,2 0,6 0,4 0,08 Ph 0,04 0,1 0,7 0,04 0,0 1,7 1,3 1,6 24,4 0,1 0,3 0,1 0,2 0,4 0,1 1,0 0,0 0,1 3,2 1,5 0,4 Hi 0,0 0,05 0,0 0,1 0,3 0,4 10,4 0,1 0,05 0,2 7,6 0,5 0,2 0,0 0,1 0,0 0,3 1,1 0,4 0,5 Mg 0,0 1,3 15,4 0,2 0,0 0,2 0,0 0,2 Mp 0,0 0,1 0,0 0,1 0,3 0,0 22,5 6,8 0,1 0,3 0,0 0,4 0,1 0,0 Ssp 0,0 0,2 0,7 0,03 0,6 0,5 1,2 0,9 0,3 0,4 29,3 1,1 0,2 0,8 0,03 0,9 1,4 0,5 1,7 0,4 0,3 Ec 0,0 0,09 0,2 0,1 0,06 0,3 0,2 0,5 0,8 3,7 0,06 0,1 1,0 21,5 0,2 1,6 0,02 0,5 0,7 0,4 1,4 0,3 0,4 Hp 0,0 0,06 0,3 0,0 0,2 0,06 0,2 0,6 0,3 0,06 0,1 0,06 0,2 22,1 0,1 0,3 0,0 0,2 1,5 0,8 6,2 Bs 0,02 0,09 0,3 0,0 0,02 0,2 0,4 0,6 1,3 0,2 0,09 1,0 1,7 0,4 22,6 0,3 0,5 0,7 0,3 2,4 0,7 0,4 Bb 0,0 0,1 1,1 0,0 0,1 0,4 0,1 0,2 0,1 0,4 0,6 15,5 0,7 0,0 5,2 0,7 1,2 0,5 Ae 0,0 0,2 0,0 0,3 0,4 1,0 1,1 0,06 0,1 0,06 0,7 0,5 0,3 0,5 0,4 12,7 0,0 0,06 0,9 0,4 0,7 Mt 0,0 0,5 0,3 0,05 0,02 0,2 0,6 0,8 0,3 0,1 0,2 2,1 1,5 0,07 1,8 0,02 0,3 38,5 0,4 1,4 0,4 0,1 Tp 0,0 0,09 0,4 0,0 0,09 0,0 0,3 0,2 0,0 0,5 0,3 0,09 0,4 4,8 0,3 0,2 27,1 1,6 0,3 0,5 Ct 0,0 0,2 0,3 0,0 0,2 0,6 0,9 0,6 0,2 0,0 0,7 0,5 1,3 0,1 0,2 0,1 0,3 25,3 0,9 0,5 Sp 8,0 8,5 31,2 0,3 0,08 0,02 0,0 0,3 0,05 0,0 0,02 0,05 0,08 20,8 0,0 0,2 0,08 0,6 0,2 0,08 Ce 0,2 52,8 2,3 2,9 0,5 0,03 0,04 0,1 0,6 0,06 0,1 0,05 0,2 0,04 0,07 0,04 0,1 0,2 0,06 0,2 1,0 0,9 0,2 Sc 28,0 1,7 9,4 0,2 0,1 0,2 0,3 0,6 0,7 0,1 0,3 0,4 0,1 0,2 0,3 0,1 0,2 1,3 0,5 0,1

57 Génes spécifiques Gènes spécifiques dupliqués : Duplication après lap- parition de lespèce. Perte dans les autres lignées. Gènes spécifiques uniques : Obtention récente. Évolution rapide. Non-spécifique unique Non-spécifique dupliqué Spécifique dupliqué Spécifique unique


Télécharger ppt "Génomique comparative Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard."

Présentations similaires


Annonces Google