Télécharger la présentation
Publié parDanielle Sergent Modifié depuis plus de 11 années
1
L’outil bio-informatique pour la génomique structurale
Gscope L’outil bio-informatique pour la génomique structurale
2
Gscope pour le biologiste
Automatise la cascade des programmes Crée et gère les données Les visualise Recherche de cibles à l ’échelle génomique Annotation ... Gscope est aussi une boîte à outils bio-informatique
3
Database creation ORFs determination Database searches
DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool
4
Séquences ? un génome fraîchement séquencé (P.abyssi)
tous les génomes ‘petits’ existants (V.cholera…) un groupe fonctionnel (TFIIH) une famille de protéines (synthétases, NR, ERco) un ...ome (ribosome, péroxisome) une séquence (la vôtre). …
5
Deux regards Structural … je veux des cristaux !
ORF quality (overlap, validation du codon start, …) organisation en domaines ( local vs global, ... ) productivité (codon usage vs coli or yeast, hydrophobicité) Phylogénomique … qui suis-je, d’où je viens ? annotation, recherche de fonction bilan présence/absence dans autres organismes, transferts horizontaux, cluster maintenance bilan de paralogie bilan phylogénomique etc.
6
Intègration et automatisation des outils existants
Lecture de données formats TFA, EMBL, GenBank, texte,… liste de accession numbers Détermination des ORFs Glimmer, tRNA_Scan Création des séq nuc et prot Analyse ADN composition, codon usage, biais GC, ShineDalgarno BlastP, TBlastN, BlastX SwissProt, TrEmbl, PDB Human, CompleteGenomes … Ballast, DbClustal, LMS et alignements multiples avec test de qualité BestDefinition + Secator, Ordali >> groupes, domaines Phylogénie
7
Visualisation
8
Coloration/Liste Séquence Orthologues Info structurale Phylogénie
blast, alignements présence/absence paralogues Info structurale PDB codon adaptation index hydrophobicité Phylogénie folle fonction
9
Ce qu’il faut pour démarrer ...
une liste de séquences accession numbers fichiers existants un fichier ADN (génome complet ou non) une suite de contigs un fichier GenBank avec ADN et protéome ... Gscope lit, convertit, vérifie, recherche, range.
10
Database creation ORF quality ORFs determination Database searches
DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool ORF quality
11
ORF quality la séquence est-elle bien définie
ORF quality la séquence est-elle bien définie ? (existe, start, stop, frame-shift) protéome connu ou Glimmer, tRNAscan overlap, biais en composition beaucoup ou pas d’orthologues (Blastp, Tblastn) validité du codon start (Secator, DbClustal) ... mauvais splicing
12
Validité du codon start
beaucoup d ’erreurs dans les banques overlap peu probable sauf overlap de un ( TAA ATG > TAATG ) alignements des codons start DbClustal le permet (méthode globale) pour les séquences du groupe Secator en particulier s ’il y en a suffisamment … si en plus apparaît la séquence de Shine-Dalgarno !
13
Codon start 2/3
14
Codon start 3/3
15
Database creation Production ORFs determination Database searches
DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool Production
16
Production Codon adaptation index vs E.coli or S.cerevisiae
Hydrophobicité, hélices transmembranaires Orthologues dans la PDB existence fragments Mise en évidence de domaines par l ’alignement si opposition local (blast) - global (DbClustal) … à suivre
18
Database creation Phylogenomic ORFs determination Database searches
DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool Phylogenomic
19
Phylogénomique Bilan de présence/absence dans les génomes complets
TBlastN Phylo folle Biais en GC Arbre phylogénétique non conforme (pertes ou transferts)
22
à l ’aide de Gscope, qui l ’automatisera bientôt ...
Un exemple de protocole d ’analyse mis au point par Marc sur ERco pour mettre en évidence les domaines structuraux Faire un alignement avec toutes les séquences du blastp Définir les groupes avec Secator Choisir un représentant par groupe Puis Rechercher les domaines existants (ProDom par exemple) PDB Prédictions de structures secondaires, profil hydrophobicité, … Sites de coupures aux protéases (trypsine, …) VRP information bibliographique (fonction, mutants, …) à l ’aide de Gscope, qui l ’automatisera bientôt ...
23
Perspectives Eucaryotes supérieurs
mauvais épissage intégration des Est étude promoteurs Informations sur les domaines et motifs Ballast Correlator Domainol data mining Utilisation protocole automatique de recherche de cibles (Shankar) RELACS (RELational Alignement of Complete Sequences) De mieux en mieux Web … mais ça marche déjà !!!
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.