La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

HOBACGEN : phylogénie des gènes de bactéries et d’archées

Présentations similaires


Présentation au sujet: "HOBACGEN : phylogénie des gènes de bactéries et d’archées"— Transcription de la présentation:

1 HOBACGEN : phylogénie des gènes de bactéries et d’archées
Guy Perrière et Laurent Duret Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS n° 5558 Université Claude Bernard – Lyon 1

2 Génomique comparative
Recherche de régions codantes. Analyse fonctionnelle : Prédiction de la fonction d’une protéine. Repérage de régions fonctionnelles. Étude des contraintes structurales : Prédiction de structures secondaires. Recherche de mutations compensatoires.

3 Évolution moléculaire
Estimation du contenu du génome ancestral. Recherche de transferts horizontaux entre certaines espèces bactériennes. Détermination de voies métaboliques com-munes ou spécifiques à certains taxons. Étude de la contribution des duplications géniques à l’évolution des génomes.

4 Banques généralistes Faiblesse des annotations :
Définitions rares ou erronées. Informations limitées au fait qu’un gène est similaire à un autre ou à une famille : /note="similar to tremblnew|U52681|MT52681_5" /note="similar to YJF5_YEAST hypothetical 26.9 kd protein in nup82-pep8 intergenic" /note="similar to bacterial sugar permeases; member of the sodium:galactoside symporter family"

5 Le système ENTREZ Introduit la notion de voisins entre séquen-ces, structures et références. Les voisinages entre séquences sont établis sur des critères de similarité. Pas d’accès aux ali-gnements multiples. Phylogénie (Taxman) Structures (MMDB) Réfs. (PubMed) Génomes Complets Séq. Nucl. (GenBank) Séq. Prot. (GenPept)

6 Recherche manuelle La recherche des homologues et l’interpré- tation des homologies requièrent : De déterminer des similarités. De calculer des alignements multiples. De construire des arbres phylogénétiques. De disposer de données taxonomiques. De pouvoir accéder aux annotations des banques.

7 Contenu d’HOBACGEN Organisation des gènes en familles.
Alignements multiples. Arbres phylogénétiques. Données taxonomiques du NCBI. Séquences protéiques de SWISS-PROT / TrEMBL. Séquences nucléotidiques d’EMBL.

8 Construction des familles
Comparaison de toutes les séquences proté-iques entre elles au moyen de BLASTP2 : Avantages : Plus grande sensibilité que BLASTP. Permet l’introduction de gaps. Paramètres utilisés : Filtrage des régions de faible complexité par le programme SEG. Matrice BLOSUM62. Seuil fixé à E ≤ 10-4.

9 Sélection des segments
Séq. A Séq. B S1’ S2 Séq. A Séq. B ∆lg1 lgHSP1 ∆lg2 lgHSP2 ∆lg3

10 Critères d’intégration
Deux séquences non partielles font partie d’une même famille si : Les régions conservées restantes recouvrent au moins 80 % de la longueur. Leur similarité est ≥ 50 %. Utilisation de l’inclusion transitive simple : Si {A, B}  F et {B, C}  F  {A, B, C}  F même si {A, C} ne remplit pas les critères pré-cédents.

11 Séquences partielles Une séquence partielle peut être incluse dans une famille préexistante si : Elle rempli les conditions requises pour les séquences non partielles. Sa longueur est ≥ 100 AA ou ≥ 50 % de la lon- gueur des autres séquences. L’inclusion transitive ne s’applique pas aux séquences partielles.

12 Structure en domaines Découpage en domaines de la famille 6PGD
6PG1_YEAST 6PGD_CANAL 6PGD_SOYBN 6PG2_BACSU O32911_MYCLR P95165_MYCTU 6PGD_CERCA Q40311_MEDSA Y770_MYCTU Y229_SYNY3 Découpage en domaines de la famille 6PGD

13 Dérives liées à la modularité
C A B Classification de A, B, C ? En simple lien, risque d’intégration dans une même famille de protéines non-homologues : Maintient de seuils élevés pour la longueur et intégra-tion des données de Prodom dans HOBACGEN.

14 Alignements et arbres Les alignements sont calculés avec CLUS- TALW version 1.7 (paramètres par défaut). Les arbres sont construits en utilisant : La divergence observée comme distance. BIONJ avec une matrice de distances complète. La méthode de Guénoche (non publiée) avec une matrice de distances incomplète. Racinement par la méthode du mid-point.

15 Accès à la banque Architecture de type client/serveur :
Supprime les problèmes d’installation et de mises à jour pour les utilisateurs. Utilisation de miroirs pour limiter les risques d’embouteillage sur le serveur principal. Informations pour le téléchargement du client et du serveur disponible à l’URL :

16 Architecture client-serveur
Service Web + Programme C (Unix) Client Java (Unix, Mac, Windows) Requêtes HTTP T-RRDLNHS TVRRDFQYI TVRRDIRKL TIRRDL-KL TIRRDI--L TIRRDLIN- Alignements Arbres SWISS- PROT EMBL ACNUC

17 Visualisation des familles
HBG POTASSIUM-TRANSPORTING ATPASE A CHAIN HBG CA-TRANSPORTING ATPASES; POTASSIUM-TRANSPORTING ATPASE HBG POTASSIUM-TRANSPORTING ATPASE C CHAIN HBG ATPASE A CHAIN FAMILY HBG ATP SYNTHASE ALPHA CHAIN, MITOCHONDRIAL; ATP SYNTHASE HBG ATP SYNTHASE BETA CHAIN, MITOCHONDRIAL; ATP SYNTHASE B HBG ATPASE DELTA CHAIN FAMILY HBG ATP SYNTHASE EPSILON CHAIN; SODIUM ION SPECIFIC; ATP S HBG ATP SYNTHASE B CHAIN; ATPF_VIBAL HBG ATP SYNTHASE B CHAIN; ATPF_HELPY HBG ATP SYNTHASE GAMMA CHAIN, MITOCHONDRIAL; ATP SYNTHASE HBG ATP SYNTHASE E CHAIN; MITOCHONDRIAL; ATPJ_YEAST HBG ATPASE C CHAIN FAMILY; ATP SYNTHASE C CHAIN; ATPL_HELP HBG N-ACYL-D-AMINO-ACID DEACYLASE FAMILY; N-ISOPROPYLAMMEL HBG AURACYANIN B; AURB_CHLAU HBG AZLC FAMILY; AF1755; BRANCHED-CHAIN AMINO ACID TRANSPO HBG ALZD/HI1737/HP1330 FAMILY; BRANCHED-CHAIN AMINO ACID T HBG AZURIN II; AZURIN ISO-1; AZURIN ISO-2; H.8 OUTER MEMBR File Select Help Total number of families: 36153 View Families

18 Visualisation de l’arbre
ACCC_ANASP Q54755 Q55160 ACCC_ECOLI ACCC_HAEIN ACCC_PSEAE ACCC_BACSU ACCC_METJA Tree Family: HBG000066 Select Subtree Outgroup Swap nodes Use leaf Up Reset Colors Close Help Partial Length

19 Visualisation des séquences
ID ACCC_ECOLI STANDARD; PRT; AA. AC P24182; DT 01-MAR-1992 (REL. 21, CREATED) DT 01-FEB-1994 (REL. 28, LAST SEQUENCE UPDATE) DT 01-FEB-1997 (REL. 35, LAST ANNOTATION UPDATE) DE BIOTIN CARBOXYLASE (EC ) (A SUBUNIT OF ACETYL-COA DE CARBOXYLASE (EC )) (ACC). GN ACCC OR FABG. OS ESCHERICHIA COLI. OC PROKARYOTA; GRACILICUTES; SCOTOBACTERIA; FACULTATIVELY ANAEROBIC RODS; OC ENTEROBACTERIACEAE. RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RC STRAIN=K12; RX MEDLINE; RA KONDO H., SHIRATSUCHI K., YOSHIMOTO T., MASUDA T., KITAZONO A., RA TSURU D., ANAI M., SEKIGUCHI M., TANABE T.; RL PROC. NATL. ACAD. SCI. U.S.A. 88: (1991). Close Help ACC_ECOLI Sequence

20 Visualisation des alignements
Close Help ACCC_ANASP MKFDKILIANRGEIALRILRACEEMGIATIAVHSTVDRNALHVQLADEAVCIGEPA Q MRFNKILIANRGEIALRILRTCEELGIGTIAVHSTVDRNALHVQLADEAVCIGEAA Q MQFAKILIANRGEIALRIIHSCEELGIPTVAVHSTIDRHALHVQLANESVCIGPPP ACCC_ECOLI -MLDKIVIANRGEIALRILRACKELGIKTVAVHSSADRDLKHVLLADETVCIGPAP ACCC_HAEIN -MLEKVVIANRGEIALRILRACKELGIKTVAVHSTADRDLKHVLLADETICIGPAP ACCC_PSEAE -MLEKVLIANRGEIALRILRACKELGIKTVAVHSTADRELMHLSLADESVCIGPAP ACCC_BACSU -MIKKLLIANRGEIAVRIIRACRELGIETVAVYSEADKDALHVQMADEAFCIGPKA ACCC_METJA -MFNKVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAP Alignment

21 Transferts horizontaux
Remise en cause de la notion d’espèce chez les procaryotes. Fiabilité des méthodes de reconstruction phylogénétiques. Implication dans l’acquisition de la patho-génicité chez certaines souches. Résistance aux antibiotiques et aux métaux lourds.

22 Méthodes intrinsèques
Utilisent exclusivement l’information stockée au sein du génome étudié. Se basent sur la composition en codons ou en oligonucléotides des gènes. Ne tiennent pas compte des variations de G+C % existant le long du chromosome : Surestimation du nombre de gènes transférés au voisinage du terminus de réplication.

23 Méthodes extrinsèques
A B C D E Congruence avec l’arbre des espèces Gène X A B C D E Gène Y Transfert horizontal

24 Famille de la dihydroxy-acid déshydratase
Phylogénie de ilvD S. coelicolor 100 86 E. coli H. infuenzae 73 95 B. aphidicola Protéobactéries Firmicutes Cyanobactérie Eucaryote M. leprae 100 M. tuberculosis 100 S. cerevisiae 100 88 L. lactis Synechocystis Archaea Famille de la dihydroxy-acid déshydratase

25 Alignement des gènes ilvD
M. tuberculosis GMSLPGSAAPPATDRRRDGFARRSGQAVVELLRR GITARDILTKEAFENA/…/ M. leprae GMSLPGSAAPPATDRRRDGFARRSGQAVIELLRR GITARDILTKEAFENA/…/ L. lactis GMSLPYSSSNPAVSQEKQEECDDIGLAIKNLLEK DIKPSDIMTKEAFENA/…/ S. cerevisiae GLTIPNSSSFPAVSKEKLAECDNIGEYIKKTMEL GILPRDILTKEAFENA/…/ Synechocystis GMSLPYSSTMAAVDGEKADSTEESAKVLVEAIKK QILPSQILTRKAFENA/…/ H. influenzae GLSLPGNGSMLATHADRKELFLKAGRQIVELCKRYYEQDDASVLPRSIGTFDAFENA/…/ E. coli GLSQPGNGSLLATHADRKQLFLNAGKRIVELTKRYYEQNDESALPRNIASKAAFENA/…/ B. aphidicola GLSLPGNGTLLATHIDRKKLFKKSARNIVKITKDYYLNNNKNVLPRNIANKESFENA/…/ S. coelicolor GLSLPGNGSVLATHTARKTLYENAARTVLDLTRRYYEQDDDSVLPRNIATPAAFGNA/…/ *:: * . * : : : : * :* ** M. tuberculosis AENLAAITPPD PDGK-VLRALANPI M. leprae AENLASIAPPD PDGQ-VIRTLHNPI L. lactis AENVETALDLD FDSQDIMRPLKNPI S. cerevisiae AERAKKAPSLP EGQEIIKPLSHPI Synechocystis AEVLADIPDQP PAGQDVIHSWDDPV H. influenzae GEQLDQYDIIR-NQDEELHKFFRAGPAGIRTTQAFSQDCRWDTVDNDRVNGCIRNKENAI E. coli PQTLEQYDVML-TQDDAVKNMFRAGPAGIRTTQAFSQDCRWDTLDDDRANGCIRSLEHAY B. aphidicola EKTLKKYDILS-TKNKNVIKMFHAGPGGNRTIKPFSQNYRWNKLDKDRVNGCIRSHENAY S. coelicolor ADWLKTWDVRGGSPSKEAVELWHAAPGCVRSAEAFSQSERWDTLDEDAEGGCIRSVEHAY :. .:

26 Perspectives Introduction dans les alignements et les arbres de séquences personnelles. Visualisation des données sur les domaines protéiques (ProDom). Développement d’autres banques sur le même modèle : Gènes de recepteurs nucléaires. Bactéries endocytobiotiques. Tous les gènes disponibles !


Télécharger ppt "HOBACGEN : phylogénie des gènes de bactéries et d’archées"

Présentations similaires


Annonces Google