La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie.

Présentations similaires


Présentation au sujet: "HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie."— Transcription de la présentation:

1 HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard – Lyon 1

2 Génomique comparative Recherche de régions codantes. Analyse fonctionnelle : Prédiction de la fonction dune protéine. Repérage de régions fonctionnelles. Étude des contraintes structurales : Prédiction de structures secondaires. Recherche de mutations compensatoires.

3 Évolution moléculaire Estimation du contenu du génome ancestral. Recherche de transferts horizontaux entre certaines espèces bactériennes. Détermination de voies métaboliques com- munes ou spécifiques à certains taxons. Étude de la contribution des duplications géniques à lévolution des génomes.

4 Banques généralistes Faiblesse des annotations : Définitions rares ou erronées. Informations limitées au fait quun gène est similaire à un autre ou à une famille : /note="similar to tremblnew|U52681|MT52681_5" /note="similar to YJF5_YEAST hypothetical 26.9 kd protein in nup82-pep8 intergenic" /note="similar to bacterial sugar permeases; member of the sodium:galactoside symporter family"

5 Le système ENTREZ Introduit la notion de voisins entre séquen- ces, structures et références. Les voisinages entre séquences sont établis sur des critères de similarité. Pas daccès aux ali- gnements multiples. Phylogénie (Taxman) Structures (MMDB) Réfs. (PubMed) Génomes Complets Séq. Nucl. (GenBank) Séq. Prot. (GenPept)

6 Recherche manuelle La recherche des homologues et linterpré- tation des homologies requièrent : De déterminer des similarités. De calculer des alignements multiples. De construire des arbres phylogénétiques. De disposer de données taxonomiques. De pouvoir accéder aux annotations des banques.

7 Contenu dHOBACGEN Organisation des gènes en familles. Alignements multiples. Arbres phylogénétiques. Données taxonomiques du NCBI. Séquences protéiques de SWISS-PROT / TrEMBL. Séquences nucléotidiques dEMBL.

8 Construction des familles Comparaison de toutes les séquences proté- iques entre elles au moyen de BLASTP2 : Avantages : –Plus grande sensibilité que BLASTP. –Permet lintroduction de gaps. Paramètres utilisés : –Filtrage des régions de faible complexité par le programme SEG. –Matrice BLOSUM62. –Seuil fixé à E

9 Sélection des segments S2S4S1S3 Séq. A Séq. B S2S1 lg1lgHSP1lg2 lg3 lgHSP2 Séq. A Séq. B

10 Critères dintégration Deux séquences non partielles font partie dune même famille si : Les régions conservées restantes recouvrent au moins 80 % de la longueur. Leur similarité est 50 %. Utilisation de linclusion transitive simple : Si {A, B} F et {B, C} F {A, B, C} F même si {A, C} ne remplit pas les critères pré- cédents.

11 Séquences partielles Une séquence partielle peut être incluse dans une famille préexistante si : Elle rempli les conditions requises pour les séquences non partielles. Sa longueur est 100 AA ou 50 % de la lon- gueur des autres séquences. Linclusion transitive ne sapplique pas aux séquences partielles.

12 Structure en domaines 6PG1_YEAST 6PGD_CANAL 6PGD_SOYBN 6PG2_BACSU O32911_MYCLR P95165_MYCTU 6PGD_CERCA Q40311_MEDSA Y770_MYCTU Y229_SYNY3 Découpage en domaines de la famille 6PGD

13 Dérives liées à la modularité En simple lien, risque dintégration dans une même famille de protéines non-homologues : Maintient de seuils élevés pour la longueur et intégra- tion des données de Prodom dans HOBACGEN. C A B Classification de A, B, C ?

14 Alignements et arbres Les alignements sont calculés avec CLUS- TALW version 1.7 (paramètres par défaut). Les arbres sont construits en utilisant : La divergence observée comme distance. BIONJ avec une matrice de distances complète. La méthode de Guénoche (non publiée) avec une matrice de distances incomplète. Racinement par la méthode du mid-point.

15 Accès à la banque Architecture de type client/serveur : Supprime les problèmes dinstallation et de mises à jour pour les utilisateurs. Utilisation de miroirs pour limiter les risques dembouteillage sur le serveur principal. Informations pour le téléchargement du client et du serveur disponible à lURL :

16 Architecture client-serveur Service Web + Programme C (Unix) Requêtes HTTP T-RRDLNHS TVRRDFQYI TVRRDIRKL TIRRDL-KL TIRRDI--L TIRRDLIN- Alignements Arbres SWISS- PROT EMBL ACNUC Client Java (Unix, Mac, Windows)

17 Visualisation des familles HBG POTASSIUM-TRANSPORTING ATPASE A CHAIN HBG CA-TRANSPORTING ATPASES; POTASSIUM-TRANSPORTING ATPASE HBG POTASSIUM-TRANSPORTING ATPASE C CHAIN HBG ATPASE A CHAIN FAMILY HBG ATP SYNTHASE ALPHA CHAIN, MITOCHONDRIAL; ATP SYNTHASE HBG ATP SYNTHASE BETA CHAIN, MITOCHONDRIAL; ATP SYNTHASE B HBG ATPASE DELTA CHAIN FAMILY HBG ATP SYNTHASE EPSILON CHAIN; SODIUM ION SPECIFIC; ATP S HBG ATP SYNTHASE B CHAIN; ATPF_VIBAL HBG ATP SYNTHASE B CHAIN; ATPF_HELPY HBG ATP SYNTHASE GAMMA CHAIN, MITOCHONDRIAL; ATP SYNTHASE HBG ATP SYNTHASE E CHAIN; MITOCHONDRIAL; ATPJ_YEAST HBG ATPASE C CHAIN FAMILY; ATP SYNTHASE C CHAIN; ATPL_HELP HBG N-ACYL-D-AMINO-ACID DEACYLASE FAMILY; N-ISOPROPYLAMMEL HBG AURACYANIN B; AURB_CHLAU HBG AZLC FAMILY; AF1755; BRANCHED-CHAIN AMINO ACID TRANSPO HBG ALZD/HI1737/HP1330 FAMILY; BRANCHED-CHAIN AMINO ACID T HBG AZURIN II; AZURIN ISO-1; AZURIN ISO-2; H.8 OUTER MEMBR FileSelectHelp Total number of families: View Families

18 Visualisation de larbre ACCC_ANASP Q54755 Q55160 ACCC_ECOLI ACCC_HAEIN ACCC_PSEAE ACCC_BACSU ACCC_METJA Tree Family: HBG SelectSubtreeOutgroupSwap nodes Use leafUpResetColorsCloseHelp PartialLength

19 Visualisation des séquences ID ACCC_ECOLI STANDARD; PRT; 449 AA. AC P24182; DT 01-MAR-1992 (REL. 21, CREATED) DT 01-FEB-1994 (REL. 28, LAST SEQUENCE UPDATE) DT 01-FEB-1997 (REL. 35, LAST ANNOTATION UPDATE) DE BIOTIN CARBOXYLASE (EC ) (A SUBUNIT OF ACETYL-COA DE CARBOXYLASE (EC )) (ACC). GN ACCC OR FABG. OS ESCHERICHIA COLI. OC PROKARYOTA; GRACILICUTES; SCOTOBACTERIA; FACULTATIVELY ANAEROBIC RODS; OC ENTEROBACTERIACEAE. RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RC STRAIN=K12; RX MEDLINE; RA KONDO H., SHIRATSUCHI K., YOSHIMOTO T., MASUDA T., KITAZONO A., RA TSURU D., ANAI M., SEKIGUCHI M., TANABE T.; RL PROC. NATL. ACAD. SCI. U.S.A. 88: (1991). CloseHelp ACC_ECOLI Sequence

20 Visualisation des alignements Close Help ACCC_ANASP MKFDKILIANRGEIALRILRACEEMGIATIAVHSTVDRNALHVQLADEAVCIGEPA Q54755 MRFNKILIANRGEIALRILRTCEELGIGTIAVHSTVDRNALHVQLADEAVCIGEAA Q55160 MQFAKILIANRGEIALRIIHSCEELGIPTVAVHSTIDRHALHVQLANESVCIGPPP ACCC_ECOLI -MLDKIVIANRGEIALRILRACKELGIKTVAVHSSADRDLKHVLLADETVCIGPAP ACCC_HAEIN -MLEKVVIANRGEIALRILRACKELGIKTVAVHSTADRDLKHVLLADETICIGPAP ACCC_PSEAE -MLEKVLIANRGEIALRILRACKELGIKTVAVHSTADRELMHLSLADESVCIGPAP ACCC_BACSU -MIKKLLIANRGEIAVRIIRACRELGIETVAVYSEADKDALHVQMADEAFCIGPKA ACCC_METJA -MFNKVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAP Alignment

21 Transferts horizontaux Remise en cause de la notion despèce chez les procaryotes. Fiabilité des méthodes de reconstruction phylogénétiques. Implication dans lacquisition de la patho- génicité chez certaines souches. Résistance aux antibiotiques et aux métaux lourds.

22 Méthodes intrinsèques Utilisent exclusivement linformation stockée au sein du génome étudié. Se basent sur la composition en codons ou en oligonucléotides des gènes. Ne tiennent pas compte des variations de G+C % existant le long du chromosome : Surestimation du nombre de gènes transférés au voisinage du terminus de réplication.

23 Méthodes extrinsèques Gène X Gène Y AB CD E AB CD E Congruence avec larbre des espèces Transfert horizontal

24 Phylogénie de ilvD Protéobactéries Firmicutes Cyanobactérie Eucaryote E. coli H. infuenzae B. aphidicola M. leprae M. tuberculosis S. cerevisiae L. lactis Synechocystis Archaea S. coelicolor Famille de la dihydroxy-acid déshydratase

25 Alignement des gènes ilvD M. tuberculosis GMSLPGSAAPPATDRRRDGFARRSGQAVVELLRR GITARDILTKEAFENA/…/ M. leprae GMSLPGSAAPPATDRRRDGFARRSGQAVIELLRR GITARDILTKEAFENA/…/ L. lactis GMSLPYSSSNPAVSQEKQEECDDIGLAIKNLLEK DIKPSDIMTKEAFENA/…/ S. cerevisiae GLTIPNSSSFPAVSKEKLAECDNIGEYIKKTMEL GILPRDILTKEAFENA/…/ Synechocystis GMSLPYSSTMAAVDGEKADSTEESAKVLVEAIKK QILPSQILTRKAFENA/…/ H. influenzae GLSLPGNGSMLATHADRKELFLKAGRQIVELCKRYYEQDDASVLPRSIGTFDAFENA/…/ E. coli GLSQPGNGSLLATHADRKQLFLNAGKRIVELTKRYYEQNDESALPRNIASKAAFENA/…/ B. aphidicola GLSLPGNGTLLATHIDRKKLFKKSARNIVKITKDYYLNNNKNVLPRNIANKESFENA/…/ S. coelicolor GLSLPGNGSVLATHTARKTLYENAARTVLDLTRRYYEQDDDSVLPRNIATPAAFGNA/…/ *:: *. * :. : :.. : * :* ** M. tuberculosis AENLAAITPPD PDGK-VLRALANPI M. leprae AENLASIAPPD PDGQ-VIRTLHNPI L. lactis AENVETALDLD FDSQDIMRPLKNPI S. cerevisiae AERAKKAPSLP EGQEIIKPLSHPI Synechocystis AEVLADIPDQP PAGQDVIHSWDDPV H. influenzae GEQLDQYDIIR-NQDEELHKFFRAGPAGIRTTQAFSQDCRWDTVDNDRVNGCIRNKENAI E. coli PQTLEQYDVML-TQDDAVKNMFRAGPAGIRTTQAFSQDCRWDTLDDDRANGCIRSLEHAY B. aphidicola EKTLKKYDILS-TKNKNVIKMFHAGPGGNRTIKPFSQNYRWNKLDKDRVNGCIRSHENAY S. coelicolor ADWLKTWDVRGGSPSKEAVELWHAAPGCVRSAEAFSQSERWDTLDEDAEGGCIRSVEHAY. :..:

26 Perspectives Introduction dans les alignements et les arbres de séquences personnelles. Visualisation des données sur les domaines protéiques (ProDom). Développement dautres banques sur le même modèle : Gènes de recepteurs nucléaires. Bactéries endocytobiotiques. Tous les gènes disponibles !


Télécharger ppt "HOBACGEN : phylogénie des gènes de bactéries et darchées Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie."

Présentations similaires


Annonces Google