La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Génomique comparative

Présentations similaires


Présentation au sujet: "Génomique comparative"— Transcription de la présentation:

1 Génomique comparative
Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard – Lyon 1

2 Plan du cours Projets génomes Utilisation et définitions
Recherche des homologues Exemples d’applications Comparaison de génomes

3 Génomes séquencés Bactéries : Archées : Eucaryotes :
24 génomes complets publics. Archées : Six génomes complets publics. Eucaryotes : Saccharomyces cerevisiae. Caenorhabditis elegans (90 %). Drosophila melanogaster (75 %).

4 Phylogénie des espèces
Eucaryotes Archées Bactéries Caenorhabditis Saccharomyces Drosophila Archeoglobus Methanobacterium Methanococcus Pyrococcus Aquifex Thermotoga Synechocystis Bacillus Mycobacterium Mycoplasma Chlamydia Rickettsia Haemophilus Escherichia Borrelia Treponema Helicobacter

5 Projets publics en cours
Saccharomyces pombe Leishmania major Trypanosoma brucei Plasmodium falciparum Arabidopsis thaliana Mus musculus Homo sapiens 14 Mb (87 %) 34 Mb (15 %) 53 Mb (33 %) 60 Mb (25 %) 100 Mb (95 %) 2 900 Mb (13 %) 3 200 Mb (90 %) + 28 autres eucaryotes + 113 procarotes

6 Cas du génome humain Un nombre important de séquences ne sont disponibles que sous la forme de drafts. La séquence “propre” ne sera pas disponible avant 2003. L’annotation complète prendra encore plus de temps… Fragments non ordonnés Gaps de longueur inconnue

7 Taille des banques EMBL GenBank NBRF/PIR SWISS-PROT log(Taille) 9,5
EST 9,0 8,5 8,0 EMBL GenBank NBRF/PIR SWISS-PROT 7,5 log(Taille) 7,0 6,5 6,0 5,5 5,0 1/10/82 1/08/83 1/06/84 1/04/85 1/02/86 1/12/86 1/10/87 1/08/88 1/06/89 1/04/90 1/02/91 1/12/91 1/10/92 1/08/93 1/06/94 1/04/95 1/02/96 1/12/96 1/10/97 1/08/98

8 Analyses in silico L’annotation de toutes ces séquences est une tâche colossale : Il est impossible de réaliser des expérimenta-tions biologiques sur toutes ces séquences. L’utilisation de méthodes d’analyses in silico est maintenant prépondérante. Du fait même de la quantité de données dispo-nibles, la génomique comparative constitue une approche incontournable.

9 Plan du cours Projets génomes Utilisation et définitions
Recherche des homologues Exemples d’applications Comparaison de génomes

10 Prédiction de gènes Utilisation de méthodes intrinsèques :
Glimmer, GeneMark (procaryotes). GRAIL, GenScan (vertébrés). Confirmation par la recherche d’homolo-gues (BLASTP). Recherche par traduction dans les six phases possibles (BLASTX).

11 Analyse fonctionnelle
Assignation de la fonction d’une protéine par homologie. Détection des différentes régions fonction-nelles (protéines modulaires). Étude des contraintes structurales : Amélioration de la prédiction de structures secondaires (threading). Présence de mutations compensatoires.

12 Évolution moléculaire
Estimation du contenu du génome ancestral. Recherche de transferts horizontaux entre certaines espèces bactériennes. Détermination de voies métaboliques com-munes ou spécifiques à certains taxons. Étude de la contribution des duplications géniques à l’évolution des génomes.

13 Similarité ou homologie ?
Deux séquences sont dites homologues si elles ont un ancêtre commun. L’existence d’un ancêtre commun est infé-rée à partir de la similarité. Seuil pour les protéines : 30 % d’identité sur une longueur de 100 AA  homologie entre les séquences.

14 Similarité sans homologie
La similarité n’est pas toujours due à de l’homologie : Convergence ou simple hasard pour de courtes séquences (quelques résidus). Existence de régions de faible complexité (e.g., cas de la fibroïne [GSGAGA]n) : Présentes dans 40 % des protéines. Peuvent représenter jusqu’à 15 % du total des résidus (Ala, Gly, Pro, Ser, Glu et Gln).

15 Homologie sans similarité
Deux séquences peuvent être homologues sans que leur similarité soit forte : ACP_KLEAE ---MEMKIDALAGTLESSDVMVRIGPAAQPGIQLEIDSIVKQEFGAAIQQVVRETLAQLG ACP_ECOLI STIEERVKKIIGEQLGVKQEEVTDN--ASFVEDLGADSLDTVELVMALEEEFDTEIPDEE * : : * : * * :* **: * *::: : ::: ACP_KLEAE VKECDNVQLARVQAAALRWQQ ACP_ECOLI AEKITTVQAAIDYINGHQA-- :: ** * : : La similarité entre ces protéines est faible mais les données fonctionnelles et biochimiques montrent qu’elles sont homologues.

16 Orthologues et paralogues
Gène ancestral Duplication Primates Rongeurs Spéciation Orthologie INS1 INS2 Paralogie INS Homme INS1 Rat INS1 Souris INS2 Rat INS2 Souris

17 Paralogues et phylogénies
C B A Phylogénie vraie a1 b1 c1 a2 b2 c2 Duplication Spéciation Phylogénie déduite A B C

18 Les paralogues sont fréquents
BIOA_YEAST Aminotransférases pyridoxal- phosphate dépendantes (III) BIOA_MYCTU BIOA_ECOLI BIOA_HAEIN BIOA_BACSU BIOA_METJA YODT_BACSU YHXA_BACSU O53379 O86744 O50131 O57878 O59170 O58478 OAT_ECOLI Saccharomyces Mycobacterium Escherichia Haemophilus Bacillus Methanococcus Streptomyces Pyrococcus O69975 Y949_HAEIN OAT_BACSU O59401 ARGD_BACSU ARGD_ECOLI ARGD_METJA GABT_BACSU GABT_ECOLI GOAG_ECOLI O86823 GABT_MYCTU

19 Plan du cours Projets génomes Utilisation et définitions
Recherche des homologues Exemples d’applications Comparaison de génomes

20 Banques généralistes Faiblesse des annotations :
Définitions rares ou erronées. Informations limitées au fait qu’un gène est similaire à un autre ou à une famille : /note="similar to tremblnew|U52681|MT52681_5" /note="similar to YJF5_YEAST hypothetical 26.9 kd protein in nup82-pep8 intergenic" /note="similar to bacterial sugar permeases; member of the sodium:galactoside symporter family"

21 Le système ENTREZ Introduit la notion de voisins entre séquen-ces, structures et références. Les voisinages entre séquences sont établis sur des critères de similarité. Pas d’accès aux ali-gnements multiples. Phylogénie (Taxman) Structures (MMDB) Réfs. (PubMed) Génomes Complets Séq. Nucl. (GenBank) Séq. Prot. (GenPept)

22 Recherche manuelle La recherche des homologues et l’interpré- tation des homologies requièrent : De déterminer des similarités. De calculer des alignements multiples. De construire des arbres phylogénétiques. De disposer de données taxonomiques. De pouvoir accéder aux annotations des banques.

23 Banques de familles de gènes
Construites par automatisation de la procé-dure décrite précédemment : Recherche de similarité entre toutes les proté-ines (BLASTP, FASTP, Smith-Waterman). Regroupement en familles homologues sur des critères de similarité : En “simple lien”, si {A, B} et {B, C} passent les critères, alors {A, B, C} sont classées ensemble. En “lien complet”, toutes les paires doivent passer les critères.

24 ProtFam Développée par le MIPS (Martinsried Insti-tute for Protein Sequence). Construite à partir des séquences de PIR. Intègre quatre niveaux de classification : Superfamilles de PIR (fonction et similarité). Familles (50 % de similarité). Sous-familles (80 %). Entrées (95 %).

25 Caractéristiques de ProtFAm
Permet de visualiser les alignements et les dendrogrammes construits avec les familles. Intègre les données en domaines de Pfam. Permet à l’utilisateur de soumettre ses propres séquences. Serveur Web :

26 ProtoMap Développée au Department of Biological Chemistry de The Hebrew University of Jerusalem. Construite à partir des séquences de SWISS-PROT. Utilise trois mesures pour déterminer la similarité entre les séquences (BLASTP, FASTP et Smith-Waterman).

27 Caractéristiques de ProtoMap
Alignements et arbres visualisés au moyen d’applets Java. Possibilité de soumettre ses propres séquen-ces pour les classer dans une famille. Pas de données sur les domaines mais visu-alisation d’homologies extra-famille. Serveur Web :

28 Banques dédiées HOVERGEN (Homologous Vertebrate Genes Database) pour les vertébrés : Basée sur GenBank. HOBACGEN (Homologous Bacterial Genes Database) pour les procaryotes et la levure : Basée sur SWISS-PROT / TrEMBL. COG (Clusters of Orthologous Genes) pour les génomes complets.

29 HOBACGEN Intègre séquences protéiques et nucléiques ainsi que des alignements et des arbres. Possède une structure de type client-serveur. Distribution du logiciel client mais aussi du serveur complet. Serveur Web :

30 Architecture client-serveur
Service Web + Programme C (Unix) Client Java (Unix, Mac, Windows) Requêtes HTTP T-RRDLNHS TVRRDFQYI TVRRDIRKL TIRRDL-KL TIRRDI--L TIRRDLIN- Alignements Arbres SWISS- PROT EMBL ACNUC

31 Structure en domaines Découpage en domaines de la famille 6PGD
6PG1_YEAST 6PGD_CANAL 6PGD_SOYBN 6PG2_BACSU O32911_MYCLR P95165_MYCTU 6PGD_CERCA Q40311_MEDSA Y770_MYCTU Y229_SYNY3 Découpage en domaines de la famille 6PGD

32 Banques disponibles Banques de domaines (Blocks, Domo, Pfam, ProDom, SBASE). Banques de motifs ou des profils caractéris-tiques de certaines familles (PRINTS, PRO-SITE). La banque InterPro regroupe les données des différentes banques sur les domaines et les motifs expertisés.

33 Plan du cours Projets génomes Utilisation et définitions
Recherche des homologues Exemples d’applications Comparaison de génomes

34 Assignation de fonction
ACCC_METJA ACCC_BACSU ACCC_PSEAE ACCC_HAEIN ACCC_ECOLI Q55160  Q54755 ACCC_ANASP Famille des carboxylases et formyltransférases accC : gène de la biotine carboxylase

35 Confirmation par l’alignement
ACCC_ANASP MKFDKILIANRGEIALRILRACEEMGIATIAVHSTVDRNALHVQLADEAVCIGEPASAKS Q MRFNKILIANRGEIALRILRTCEELGIGTIAVHSTVDRNALHVQLADEAVCIGEAASSKS Q MQFAKILIANRGEIALRIIHSCEELGIPTVAVHSTIDRHALHVQLANESVCIGPPPSNKS ACCC_ECOLI M-LDKIVIANRGEIALRILRACKELGIKTVAVHSSADRDLKHVLLADETVCIGPAPSVKS ACCC_HAEIN M-LEKVVIANRGEIALRILRACKELGIKTVAVHSTADRDLKHVLLADETICIGPAPSAKS ACCC_PSEAE M-LEKVLIANRGEIALRILRACKELGIKTVAVHSTADRELMHLSLADESVCIGPAPATQS ACCC_BACSU M-IKKLLIANRGEIAVRIIRACRELGIETVAVYSEADKDALHVQMADEAFCIGPKASKDS ACCC_METJA M-FNKVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAPAAKS * *::********:**:::* *:** *:** * *: * :*:*: *** .: .* ACCC_ANASP LNIPNIIAAALTRNASAIHPGYGFLSENAKFAEICADHHIAFIGPTPEAIRLMGDKSTAK Q LNIPNIIAAALTRNASAIHPGYGFLAENARFAEICADHHLTFIGPSPDSIRAMGDKSTAK Q LNIPNIIAAALTRNATAIHPGYGFLAENARFAEICADHQITFIGPSPEAITAMGDKSTAK ACCC_ECOLI LNIPAIISAAEITGAVAIHPGYGFLSENANFAEQVERSGFIFIGPKAETIRLMGDKVSAI ACCC_HAEIN LNIPAIIAAAEVTGADAIHPGYGFLSENADFAEQVERSGFTFIGPTADVIRLMGDKVSAI ACCC_PSEAE LQIPAIIAAAEVTGATAIHPGYGFLAENADFAEQIERSGFTFVGPTAEVIRLMGDKVSAK ACCC_BACSU LNVTNIVSVAKLTGTDAIHPGYGFLAENADFAELCEEVNVTFVGPSADAISKMGTKDVAR ACCC_METJA LNIDAILNVAEKAKVDAIHPGYGFLAENAEFARAVKKAGFEFIGPNPDAIEAMGSKINAK *:: *: * *********:*** ** *:** .: * ** * *

36 Erreurs d’assignation
6PGD_SYNP7 6PGD_SYNY3 6PGD_BACSU 6PGD_BACLI YQJI_BACSU  6PGD_CITFR 6PGD_SALTY 6PGD_CITDI 6PGD_ESCVU 6PGD_ECOLI Famille de la 6-phospho- gluconate déhydrogenase 6PGD_SHIFL 6PGD_SHISO 6PGD_SHIDY 6PGD_SHIBO

37 Historique des annotations
La chronologie de l’introduction de ces séquences dans SWISS-PROT est la suivante : 6PGD_ECOLI 6PGD_BACSU 6PGD_SALTY YQJI_BACSU 21-JUL-1986 01-OCT-1989 01-JAN-1990 01-OCT-1996 L’assignation de 6PGD_BACSU comme étant orthologue à 6PGD_ECOLI s’est faite bien avant l’obtention du génome complet de B. subtilis.

38 Alignement de départ 6PGD_ECOLI MSKQQIGVVGMAVMGRNLALNIESRGYTVSIFNRSREKTEEVIAENP-GKKLVPYYTVKE 6PGD_SALTY MSKQQIGVVGMAVMGRNLALNIESRGYTVSVFNRSREKTEEVIAENP-GKKLVPYYTVKE 6PGD_BACSU MFNSIGVIGLGVMGSNIALNMANKGENVAVYNYTRDLTDQLIQKLDGQ-SLSPYYELED YQJI_BACSU 6PGD_ECOLI VESLETPRRILLMVKAGAGTDAAIDSLKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGF 6PGD_SALTY VESLETPRRILLMVKAGAGTDAAIDSLKPYLEKGDIIIDGGNTFFQDTIRRNRELSAEGF 6PGD_BACSU VQSLEKPRKIFLMVTAGKPVDSVIQSLKPLLEEGDVIMDGGNSHYEDTERRYDELKEKGI YQJI_BACSU METPRKILLMVKAGTATDATIQSLLPHLEKDDILIDGGNTYYKDTQRRNKELAESGI :* **:* *** ** *: *:** * *:: *:::****: ::** ** ** * 6PGD_ECOLI FIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY 6PGD_SALTY FIGTGVSGGEEGALKGPSIMPGGQKDAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY 6PGD_BACSU YLGVGISGGEVGALTGPSIMPGGDRDVYEKAAPILTKIAAQVG-DDPCCVYIGPKGAGHF YQJI_BACSU FIGTGVSGGEEGALKGPSIMPGGQKEAHELVKPILEAISAKVD-GEPCTTYIGPDGAGHY ::* *:**** *** ********::: :* *** *:* :** ***..****:

39 Alignement corrigé 6PGD_ECOLI MSKQQIGVVGMAVMGRNLALNIESRGYTVSIFNRSREKTEEVIAENPGKKLVPYYTVKEF 6PGD_SALTY MSKQQIGVVGMAVMGRNLALNIESRGYTVSVFNRSREKTEEVIAENPGKKLVPYYTVKEF 6PGD_BACSU M-FNSIGVIGLGVMGSNIALNMANKGENVAVYNYTRDLTDQLIQKLDGQSLSPYYELEDF YQJI_BACSU MSKQQIGVIGLAVMGKNLALNIESRGFSVSVYNRSSSKTEEFLQEAKGKNVVGTYSIEEF * :.***:*:.*** *:***: .:* .*:::* : . *::.: : *:.: * :::* 6PGD_ECOLI VESLETPRRILLMVKAGAGTDAAIDSLKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGF 6PGD_SALTY VESLETPRRILLMVKAGAGTDAAIDSLKPYLEKGDIIIDGGNTFFQDTIRRNRELSAEGF 6PGD_BACSU VQSLEKPRKIFLMVTAGKPVDSVIQSLKPLLEEGDVIMDGGNSHYEDTERRYDELKEKGI YQJI_BACSU VQSMETPRKILLMVKAGTATDATIQSLLPHLEKDDILIDGGNTYYKDTQRRNKELAESGI *.*:* **:* *** ** . *: *:** * *:: *:::****: ::** ** ** * 6PGD_ECOLI FIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY 6PGD_SALTY FIGTGVSGGEEGALKGPSIMPGGQKDAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHY 6PGD_BACSU YLGVGISGGEVGALTGPSIMPGGDRDVYEKAAPILTKIAAQVG-DDPCCVYIGPKGAGHF YQJI_BACSU FIGTGVSGGEEGALKGPSIMPGGQKEAHELVKPILEAISAKVD-GEPCTTYIGPDGAGHY ::* *:**** *** ********::: :* *** *:* :** ***..****:

40 Transferts horizontaux
Se définissent comme étant le passage de séquences d’ADN d’un génome à un autre. Se distinguent de la transmission verticale de la génération parentale à la progéniture. De nombreux mécanismes moléculaires sont impliqués dans ces échanges : Transformation, conjugaison, transduction. Recombinaison.

41 Interêt de ces phénomènes
Remise en cause de la notion d’espèce chez les procaryotes. Fiabilité des méthodes de reconstruction phylogénétiques. Implication dans l’acquisition de la patho-génicité chez certaines souches. Résistance aux antibiotiques et aux métaux lourds.

42 Principe général Congruence avec Gène X l’arbre des espèces Gène Y
Transfert horizontal

43 Famille de la dihydroxy-acid déshydratase
Phylogénie de ilvD S. coelicor 100 86 E. coli H. infuenzae 73 95 B. aphidicola Protéobactéries Firmicutes Cyanobactérie Eucaryote M. leprae 100 M. tuberculosis 100 S. cerevisiae 100 88 L. lactis Synechocystis Archaea Famille de la dihydroxy-acid déshydratase

44 Alignement des gènes ilvD
M. tuberculosis GMSLPGSAAPPATDRRRDGFARRSGQAVVELLRR GITARDILTKEAFENA/…/ M. leprae GMSLPGSAAPPATDRRRDGFARRSGQAVIELLRR GITARDILTKEAFENA/…/ L. lactis GMSLPYSSSNPAVSQEKQEECDDIGLAIKNLLEK DIKPSDIMTKEAFENA/…/ S. cerevisiae GLTIPNSSSFPAVSKEKLAECDNIGEYIKKTMEL GILPRDILTKEAFENA/…/ Synechocystis GMSLPYSSTMAAVDGEKADSTEESAKVLVEAIKK QILPSQILTRKAFENA/…/ H. influenzae GLSLPGNGSMLATHADRKELFLKAGRQIVELCKRYYEQDDASVLPRSIGTFDAFENA/…/ E. coli GLSQPGNGSLLATHADRKQLFLNAGKRIVELTKRYYEQNDESALPRNIASKAAFENA/…/ B. aphidicola GLSLPGNGTLLATHIDRKKLFKKSARNIVKITKDYYLNNNKNVLPRNIANKESFENA/…/ S. coelicolor GLSLPGNGSVLATHTARKTLYENAARTVLDLTRRYYEQDDDSVLPRNIATPAAFGNA/…/ *:: * . * : : : : * :* ** M. tuberculosis AENLAAITPPD PDGK-VLRALANPI M. leprae AENLASIAPPD PDGQ-VIRTLHNPI L. lactis AENVETALDLD FDSQDIMRPLKNPI S. cerevisiae AERAKKAPSLP EGQEIIKPLSHPI Synechocystis AEVLADIPDQP PAGQDVIHSWDDPV H. influenzae GEQLDQYDIIR-NQDEELHKFFRAGPAGIRTTQAFSQDCRWDTVDNDRVNGCIRNKENAI E. coli PQTLEQYDVML-TQDDAVKNMFRAGPAGIRTTQAFSQDCRWDTLDDDRANGCIRSLEHAY B. aphidicola EKTLKKYDILS-TKNKNVIKMFHAGPGGNRTIKPFSQNYRWNKLDKDRVNGCIRSHENAY S. coelicolor ADWLKTWDVRGGSPSKEAVELWHAAPGCVRSAEAFSQSERWDTLDEDAEGGCIRSVEHAY :. .:

45 Homologies lointaines
Les analyses précédentes impliquaient que les similarités entre séquences soient fortes : Utilisation de programmes comme BLAST. Si les similarités sont faibles il est nécessaire d’employer d’autres approches : Recherche de signatures PROSITE. Recherche de profils réalisés à partir d’aligne-ments multiples. Utilisation de PSI-BLAST.

46 Principe de la méthode Alignement de départ Matrice de pondération
W profileweight Alignement de départ Matrice de pondération pfsearch Homologues proches Positions conservées Homologues lointains Récupération d ’homologues

47 L’insuline chez les vertébrés
Myxine Agnates Poissons Amphibiens Oiseaux Rongeurs Cochon d’Inde Canidés Ongulés Primates Oncorhynchus Oreochromis Verasper Lophius Cyprinus Danio Xenopus (II) Xenopus (I) Selasphorus Gallus Psammomys Mesocricetus Mus (I) Rattus (I) Mus (II) Rattus (II) Octodon Cavia (II) Cavia (I) Oryctolagus Canis Sus Famille FAM000008 d’HOVERGEN Ovis Bos Aotus Macaca Chlorocebus Pan Homo

48 Recherche avec BLASTP2 Recherche effectuée dans SWISS-PROT / TrEMBL à partir de l’insuline humaine : Valeur de E ≤ 10 000 (sensibilité maximale). Un seul homologue détecté sur neuf neuf hits : Sequences producing significant alignments: bits E O INSULIN-LIKE PEPTIDE PRECURSOR O R06F6.8B PROTEIN YRM8_CAEEL HYPOTHETICAL KDA PROTEIN R06F O SIMILARITY TO AN RNA RECOGNITION MOTIF O C08F1.5 PROTEIN O T21D12.3 PROTEIN O R07C3.13 PROTEIN Q9U Y56A3A.14 PROTEIN Q9XWF Y52B11A.3 PROTEIN

49 Recherche avec ProfileSearch
Recherche effectuée à partir de l’alignement de 30 séquences d’insulines de vertébrés : Six homologues détectés sur 129 hits ! O INSULIN-LIKE PEPTIDE PRECURSOR INB3_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 3 PRECURSOR; CAB Y116F11B.B PROTEIN Q9XVA F08G2.6 PROTEIN BAA CEINSULIN INB5_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 5 PRECURSOR AAF HYPOTHETICAL PROTEIN Y23B4A INB2_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 2 PRECURSOR Q9XV F20E11.8 PROTEIN INB4_CAEEL PROBABLE INSULIN-LIKE PEPTIDE BETA-TYPE 4 PRECURSOR

50 Plan du cours Projets génomes Utilisation et définitions
Recherche des homologues Exemples d’applications Comparaison de génomes

51 Répartition des familles
Bactéries 29489 975 Archées 6772 184 304 56 Levure 5295 LUCA ?

52 Nature des familles Les familles communes aux trois règnes comprennent : Des protéines de la machinerie de traduction (protéines ribosomales, facteurs d’élongation). Des enzymes du métabolisme basal (glycolyse, cycle de Krebs, biosynthèse des nucléotides). Le génome ancestral devait contenir un nombre plus élevé de gènes.

53 Espèces étudiées Saccharomyces cerevisiae Caenorhabditis elegans
Schizosaccharomyces pombe Methanococcus jannaschii Methanobacterium thermoautotrophicum Archaeoglobus fulgidus Pyrococcus horikoshii Haemophilus influenzae Mycoplasma genitalium Mycoplasma pneumoniae Synechocystis sp. PCC 6803 Escherichia coli Helicobacter pylori Bacillus subtilis Borrelia burgdorferi Mycobacterium tuberculosis Aquifex aeolicus Treponema pallidum Chlamydia trachomatis Campylobacter jejuni Rickettsia prowazekii Sc Ce Sp Mj Mth Af Ph Hi Mg Mp Ssp Ec Hp Bs Bb Mt Ae Tp Ct Cj Rp 13,00 97,00 15,00 1,66 1,75 2,18 1,74 1,83 0,58 0,81 3,57 4,60 4,20 1,44 4,40 1,55 1,14 1,04 1,64 1,11 6 182 19 099 3 579 1 735 1 871 2 437 2 061 1 680 468 677 3 168 4 290 1 577 4 100 850 3 924 1 522 1 031 894 1 731 837

54 Duplications et conservations
Sc Ce Sp Hs Mm Mj Mth Af Ph Hi Mg Mp Ssp Ec Hp Bs Bb Ae Mt Tp Ct Rp Cj Tot. 15,9 18,8 23,5 11,6 8,0 24,7 26,2 28,7 29,8 47,0 17,8 16,8 44,2 55,9 60,5 49,3 26,9 48,7 36,5 28,6 33,9 37,2 31,1 80,2 22,6 28,0 32,0 18,4 12,5 21,5 28,8 31,8 55,6 27,0 27,1 54,5 64,4 52,2 55,0 37,6 55,8 48,9 38,5 51,0 29,0 56,4 85,8 17,4 18,9 21,6 9,7 7,7 42,0 64,8 62,0 22,2 13,7 34,2 32,6 27,6 29,9 15,7 41,6 23,6 14,7 24,1 21,7 24,6 89,7 19,0 20,9 11,2 60,7 44,0 60,6 22,0 12,7 12,6 36,7 25,7 32,7 13,3 38,7 22,8 20,4 24,5 86,2 15,4 20,7 21,0 8,1 52,6 50,5 12,3 34,3 35,8 20,1 32,5 14,0 39,9 27,8 14,2 83,1 14,8 19,6 21,3 11,8 7,8 44,4 42,9 49,6 20,0 10,1 9,8 24,3 28,5 19,3 26,7 30,1 21,1 14,1 21,8 19,1 75,6 19,7 9,5 21,2 25,0 27,7 29,7 29,5 18,7 19,4 47,7 79,7 41,4 53,2 42,6 30,4 39,1 36,1 48,3 89,6 24,8 33,1 16,2 11,5 30,3 28,2 31,4 52,1 97,9 53,8 63,7 48,1 51,1 49,1 50,6 48,5 53,0 98,7 17,9 8,7 21,9 21,4 20,5 39,3 84,2 45,6 40,9 37,5 46,8 34,4 37,8 35,5 38,8 36,2 38,1 93,2 14,3 10,6 7,6 20,8 24,0 23,0 31,6 14,6 47,2 42,5 26,3 17,3 37,1 26,4 25,6 31,0 70,7 18,6 11,4 17,5 25,1 10,8 12,2 40,4 50,0 28,3 47,6 16,7 19,9 26,8 25,3 35,2 78,5 16,9 20,6 9,9 6,4 23,1 40,8 17,2 18,1 24,4 31,5 27,3 34,1 62,8 77,9 15,5 11,1 23,4 28,1 30,6 35,9 15,0 39,6 49,7 28,9 48,4 36,8 22,3 34,5 77,4 13,5 19,8 7,4 30,8 45,1 30,9 30,7 43,4 50,7 43,9 54,8 59,4 50,2 84,5 27,5 8,9 33,6 38,9 39,4 17,7 18,0 55,3 58,2 46,3 44,3 37,4 54,0 87,3 13,2 8,2 12,8 18,2 9,3 35,4 38,0 10,3 15,6 18,3 22,5 61,5 14,5 17,6 16,0 40,2 22,1 41,7 35,1 25,8 40,5 33,7 72,9 22,9 17,0 20,3 50,1 25,2 25,4 49,8 42,4 52,5 48,0 41,5 45,0 46,5 74,7 65,4 30,2 15,1 10,0 13,1 8,8 19,2 11,3 14,4 68,8 66,6 31,2 4,8 5,5 7,2 5,9 4,9 4,5 9,0 5,4 9,2 4,1 7,3 40,3 53,9 29,6 16,5 16,6 6,9 10,2 15,8 12,0 72,0

55 Duplications et taille
Chez les bactéries, le pourcentage de dupli-cations est corrélé à la taille du génome. r2 = 0,311 (p < 10-4) 20 25 30 35 40 45 50 55 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 % Duplications Taille (Mb)

56 Conservations exclusives
Sc Ce Sp Hs Mm Mj Mth Af Ph Hi Mg Mp Ssp Ec Hp Bs Bb Ae Mt Tp Ct Rp Cj 0,0 0,05 0,2 0,3 0,4 6,2 03 0,5 19,8 0,1 0,7 0,6 1,1 1,2 14,2 10,3 3,2 1,5 2,8 0,9 4,0 13,8 1,8 0,08 16,8 2,3 0,04 0,8 1,7 1,3 1,6 24,4 1,0 10,4 7,6 15,4 22,5 6,8 0,03 29,3 1,4 0,09 0,06 3,7 21,5 0,02 22,1 22,6 2,4 15,5 5,2 12,7 2,1 0,07 38,5 4,8 27,1 25,3 8,0 8,5 31,2 20,8 52,8 2,9 28,0 9,4

57 Génes spécifiques Gènes spécifiques dupliqués :
Duplication après l’ap-parition de l’espèce. Perte dans les autres lignées. Gènes spécifiques uniques : Obtention récente. Évolution rapide. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Sc Ce Sp Mj Mth Af Ph Hi Mg Mp Ssp Ec Hp Bs Bb Ae Mt Tp Ct Rp Cj Non-spécifique unique Non-spécifique dupliqué Spécifique dupliqué Spécifique unique


Télécharger ppt "Génomique comparative"

Présentations similaires


Annonces Google