L’outil bio-informatique pour la génomique structurale

Slides:



Advertisements
Présentations similaires
Gscope Programmation - Architecture Conventions, trucs et astuces Projets Qui fait quoi...
Advertisements

L’outil bio-informatique pour la génomique structurale
Yoann Beausse Journée Bioinformatique des Génopoles
X Blast y pour tous. Recherche BLAST 1,2,3,4,5 1.Choisir sa séquence 2.Choisir le programme BLAST 3.Choisir la banque 4.Choisir les paramètres optionnels.
Prédiction d’interactions protéine-protéine
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
Formation Bio-informatique IRD
BIN 1001 TP1 Outils sur ESIBAC Assemblage S é ance aux ordinateurs.
Institut Universitaire de Technologie de Clermont-Ferrand
Recherche heuristique dans les bases de données L’algorithme BLAST
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
Bio-Informatique Analyse de séquences nucléotidiques
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Calcul Intensif en Génomique Comparative Laurent Duret Laboratoire de Biométrie et Biologie Evolutive.
Edition du son AVEC AUDACITY. Import du wav Durée, env. 1 h par fichier WAV.
Gestion par le super administrateur. Page d’accueil.
Refonte du portail eaufrance Présentation du cadre de référence pour avis GCIB – 14/10/2014 – Anne Macaire.
Etat de l’art et recherche bibliographique L3EEA 3ème année – 2016.
Cahier des charges.
Comment Sécuriser Le Système d’information de son entreprise
L’arbre de la vie Page 20 Les relations évolutionnistes d’un groupe d’organismes sont des relations phylogénétiques Darwin: «phylogénie = branches d’un.
Exposé : Les arbres phylogénétiques
elmousaoui mourad dalli mohammed bouzIane omar Prof. N. Boukhatem
Formation sur la publication des données de biodiversité dans le réseau GBIF et leur aptitude à être utilisées , édition 2011 Comment le DwC-A a changé.
METHODES DE DETECTION DES OGM DANS LES ALIMENTS
Séminaire Novembre 2006 Zephir : Déploiement et supervision des serveurs Eole.
Départ 2ème jour si plus de 2 tours
Retracer l’évolution des gènes
Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
Mutations.
Actions de communication pour La convention services climatiques
Présentation J GUIRANDE.
Les répétitions en tandem et l ’étude des génomes
SP6 Cas d'usage & intégration 06/12/2016
ANFH - La Réunion – 16 novembre 2017
Acide désoxyribonucléique
Les hélices des protéines transmembranaires
Programmation en C++ Classes
Création Et Modification De La Structure De La Base De Données
Recherche par automates finis
Note 1 : Tous les rapports de T. P
Le code à l’école Qu’est-ce que le codage informatique ?
Biologie Moléculaire Travailler avec l’ADN.
Orthographe à retenir :
Techniques du Data Mining
Atelier sous régional sur l'intégration des données administratives, des données de masse et des informations géospatiales pour la compilation des indicateurs.
LANGUES VIVANTES ET TICE
SYNTHESE DES PROTEINES Résumé de la protéogenèse
Les Séquences et leurs Propriétés
L’EPISSAGE ALTERNATIF DE L’ARN
Bonjour, Je suis votre guide pour cette visite de votre nouveau logiciel HDS. Je vais vous montrer comment préparer une note de frais.
FORMATION POWERPOINT 2007/2010
STS Web Services libres
Biologie Moléculaire Travailler avec l’ADN.
Sophie Lapierre – Conseillère pédagogique en francisation
Technologie de l’ADN recombinant
Démarrage du projet Préparer les fonds de plan
Les Séquences et leurs Propriétés
Expression du Génome Le transcriptome.
Matrice d'autonomie (Zelfredzaamheid-Matrix (ZRM))
REUNION DES INTENDANTS ET CHEF DE TRAVAUX BUREAU D’ETUDES TECSEN
Gscope Projets Programmation - Architecture
Sigle optionnel en français FBD
Quelques réflexions sur le programme de 2nde
Construire un graphique
STS Web Services libres Constituer les services libres
Deux nouveaux programmes en « Techniques de l’informatique »
Transcription de la présentation:

L’outil bio-informatique pour la génomique structurale Gscope L’outil bio-informatique pour la génomique structurale

Gscope pour le biologiste Automatise la cascade des programmes Crée et gère les données Les visualise Recherche de cibles à l ’échelle génomique Annotation ... Gscope est aussi une boîte à outils bio-informatique

Database creation ORFs determination Database searches DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool

Séquences ? un génome fraîchement séquencé (P.abyssi) tous les génomes ‘petits’ existants (V.cholera…) un groupe fonctionnel (TFIIH) une famille de protéines (synthétases, NR, ERco) un ...ome (ribosome, péroxisome) une séquence (la vôtre). …

Deux regards Structural … je veux des cristaux ! ORF quality (overlap, validation du codon start, …) organisation en domaines ( local vs global, ... ) productivité (codon usage vs coli or yeast, hydrophobicité) Phylogénomique … qui suis-je, d’où je viens ? annotation, recherche de fonction bilan présence/absence dans autres organismes, transferts horizontaux, cluster maintenance bilan de paralogie bilan phylogénomique etc.

Intègration et automatisation des outils existants Lecture de données formats TFA, EMBL, GenBank, texte,… liste de accession numbers Détermination des ORFs Glimmer, tRNA_Scan Création des séq nuc et prot Analyse ADN composition, codon usage, biais GC, ShineDalgarno BlastP, TBlastN, BlastX SwissProt, TrEmbl, PDB Human, CompleteGenomes … Ballast, DbClustal, LMS et alignements multiples avec test de qualité BestDefinition + Secator, Ordali >> groupes, domaines Phylogénie

Visualisation

Coloration/Liste Séquence Orthologues Info structurale Phylogénie blast, alignements présence/absence paralogues Info structurale PDB codon adaptation index hydrophobicité Phylogénie folle fonction

Ce qu’il faut pour démarrer ... une liste de séquences accession numbers fichiers existants un fichier ADN (génome complet ou non) une suite de contigs un fichier GenBank avec ADN et protéome ... Gscope lit, convertit, vérifie, recherche, range.

Database creation ORF quality ORFs determination Database searches DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool ORF quality

ORF quality la séquence est-elle bien définie ORF quality la séquence est-elle bien définie ? (existe, start, stop, frame-shift) protéome connu ou Glimmer, tRNAscan overlap, biais en composition beaucoup ou pas d’orthologues (Blastp, Tblastn) validité du codon start (Secator, DbClustal) ... mauvais splicing

Validité du codon start beaucoup d ’erreurs dans les banques overlap peu probable sauf overlap de un ( TAA ATG > TAATG ) alignements des codons start DbClustal le permet (méthode globale) pour les séquences du groupe Secator en particulier s ’il y en a suffisamment … si en plus apparaît la séquence de Shine-Dalgarno !

Codon start 2/3

Codon start 3/3

Database creation Production ORFs determination Database searches DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool Production

Production Codon adaptation index vs E.coli or S.cerevisiae Hydrophobicité, hélices transmembranaires Orthologues dans la PDB existence fragments Mise en évidence de domaines par l ’alignement si opposition local (blast) - global (DbClustal) … à suivre

Database creation Phylogenomic ORFs determination Database searches DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool Phylogenomic

Phylogénomique Bilan de présence/absence dans les génomes complets TBlastN Phylo folle Biais en GC Arbre phylogénétique non conforme (pertes ou transferts)

à l ’aide de Gscope, qui l ’automatisera bientôt ... Un exemple de protocole d ’analyse mis au point par Marc sur ERco pour mettre en évidence les domaines structuraux Faire un alignement avec toutes les séquences du blastp Définir les groupes avec Secator Choisir un représentant par groupe Puis Rechercher les domaines existants (ProDom par exemple) PDB Prédictions de structures secondaires, profil hydrophobicité, … Sites de coupures aux protéases (trypsine, …) VRP information bibliographique (fonction, mutants, …) à l ’aide de Gscope, qui l ’automatisera bientôt ...

Perspectives Eucaryotes supérieurs mauvais épissage intégration des Est étude promoteurs Informations sur les domaines et motifs Ballast Correlator Domainol data mining Utilisation protocole automatique de recherche de cibles (Shankar) RELACS (RELational Alignement of Complete Sequences) De mieux en mieux Web … mais ça marche déjà !!!