L’outil bio-informatique pour la génomique structurale

Slides:



Advertisements
Présentations similaires
Journées AReNA, Strasbourg,18-20 Avril 2005 Problèmes liés à lidentification de gènes bactériens exprimant des ARN non traduits en protéines UPRES JE 2311,
Advertisements

Logique approchée Michel de Rougemont Université Paris II VERA: CORRECT:
Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin
Gscope Programmation - Architecture Conventions, trucs et astuces Projets Qui fait quoi...
interaction in the .LRN platform
I. Recherche du gène correspondant aux séquences initiales.
Pons Nicolas, Jean-Michel Batto, S.Dusko Ehrlich, Pierre Renault
Coopération/Distribution DEA Informatique Nancy. Content 4 Introduction - Overview 4 Coordination of virtual teams : –explicit interaction model –explicit.
Colloque Traitement et Analyse de séquences : compte-rendu
PILOTE - Sous Projet PILOTE SOUS-PROJET 5 Cyril Carrez, Elie Najm, Alexandre Tauveron.
PILOTE - Sous Projet PILOTE SOUS-PROJET 5 Cyril Carrez, Elie Najm, Alexandre Tauveron.
Bacterial genome annotation in the AGC group
Les bases de données biologiques au LBBE
Bioinformatique: prédiction de gènes
Méthodes alternatives
Loutil de CLASSIFICATION. Loutil de classification Organisation de données en sous ensembles.Collection Regroupement de fiches dune collection en sous-ensembles.
Bioinformatique =?? génomique protéomique
Caractérisation structurale d ’un régulateur transcriptionnel du « Quorum Sensing » chez Brucella abortus.
Yoann Beausse Journée Bioinformatique des Génopoles
#JSS2013 Les journées SQL Server 2013 Un événement organisé par GUSS.
L article fondateur: Nagalakshmi U, Wang Z, Waern K, Shou C, Raha D, Gerstein M, Snyder M. (2008) The transcriptional landscape of the yeast genome defined.
X Blast y pour tous. Recherche BLAST 1,2,3,4,5 1.Choisir sa séquence 2.Choisir le programme BLAST 3.Choisir la banque 4.Choisir les paramètres optionnels.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
La Cellule.
Introduction à la génomique structurelle
ETL et Data Mining Présenté par : Marc Catudal-Gosselin Université de Sherbrooke automne 2004 automne 2004.
Bioinformatique et Biologie Structurale 1 – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
Geneva SSED - TECFA Uni Geneva Lombard F. 30 I 07 Biology Teaching Methods : Impossible convergence ? Point in time in my thesis Selected findings A short.
Protein data bank (PDB) : structures (oct 2007) SCOP (Structural Classification Of Proteins): 971 folds (major structural similarity) 1586 super-families.
Textract Magali Paquot. 2 Outil d'indexation (semi-) automatique de texte.
Introduction à la bioinformatique
Les bactéries Gram négatives possèdent plusieurs systèmes pour transférer le matériel génétique. L’un de ces mécanismes est le système de conjugaison.
Prédiction d’interactions protéine-protéine
Thematic Alignment of Static Documents with Meeting Dialogs Dalila Mekhaldi Diva Group Department of Computer Science University of Fribourg.
Annotation de génomes complets
BIOS – – Mise en œuvre Projet RosEST Développements Sebastien Carrere, LIPM Thibaut Hourlier, LIPM Coordination.
BIOS – – Un environnement de développement et de production de web-services BioMOBY Sébastien Carrere.
Bases de données en biologie (suite)
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
Annotation de séquences génomiques: gènes
Co-expression = fonction (Eisen et al., PNAS 1998)
Chapitre 3.
Formation Bio-informatique IRD
Analyses phylogénétiques
Familles de gènes Nadia El-Mabrouk.
E.R. Gauthier, Ph.D.CHMI 3216F – A20091 Bioingénierie de l’A.D.N. CHMI 3216 F 14 Septembre 2009 Boîte à outils, 2 ième partie (suite). Plasmides, clonage.
Banques de données en bio-informatique
Reconstitution partielle du génome codant d'un puceron (Acyrthosiphon pisum, Hémiptères) - Evolution d'une famille fortement multigénique (protéases) Claude.
MobyleNet – – Un environnement de développement et de production de web-services BioMOBY Sébastien Carrere.
Parfois mais pas toujours oui, non, enfin parfois, ça dépend, pas toujours, non, voilà, pas toujours
Institut Universitaire de Technologie de Clermont-Ferrand
Recherche heuristique dans les bases de données L’algorithme BLAST
Sylvain Foisy, Ph. D. Bio-informaticien Conseil Diploide.net Sources de données en bio-informatique.
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Bio-Informatique Analyse de séquences nucléotidiques
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
elmousaoui mourad dalli mohammed bouzIane omar Prof. N. Boukhatem
Note 1 : Tous les rapports de T. P
Expression du Génome Le transcriptome.
L’outil bio-informatique pour la génomique structurale
Gscope Projets Programmation - Architecture
Transcription de la présentation:

L’outil bio-informatique pour la génomique structurale Gscope L’outil bio-informatique pour la génomique structurale

Gscope pour le biologiste Automatise la cascade des programmes Crée et gère les données Les visualise Recherche de cibles à l ’échelle génomique Annotation ... Gscope est aussi une boîte à outils bio-informatique

Database creation ORFs determination Database searches DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool

Séquences ? un génome fraîchement séquencé (P.abyssi) tous les génomes ‘petits’ existants (V.cholera…) un groupe fonctionnel (TFIIH) une famille de protéines (synthétases, NR, ERco) un ...ome (ribosome, péroxisome) une séquence (la vôtre). …

Deux regards Structural … je veux des cristaux ! ORF quality (overlap, validation du codon start, …) organisation en domaines ( local vs global, ... ) productivité (codon usage vs coli or yeast, hydrophobicité) Phylogénomique … qui suis-je, d’où je viens ? annotation, recherche de fonction bilan présence/absence dans autres organismes, transferts horizontaux, cluster maintenance bilan de paralogie bilan phylogénomique etc.

Intègration et automatisation des outils existants Lecture de données formats TFA, EMBL, GenBank, texte,… liste de accession numbers Détermination des ORFs Glimmer, tRNA_Scan Création des séq nuc et prot Analyse ADN composition, codon usage, biais GC, ShineDalgarno BlastP, TBlastN, BlastX SwissProt, TrEmbl, PDB Human, CompleteGenomes … Ballast, DbClustal, LMS et alignements multiples avec test de qualité BestDefinition + Secator, Ordali >> groupes, domaines Phylogénie

Visualisation

Coloration/Liste Séquence Orthologues Info structurale Phylogénie blast, alignements présence/absence paralogues Info structurale PDB codon adaptation index hydrophobicité Phylogénie folle fonction

Ce qu’il faut pour démarrer ... une liste de séquences accession numbers fichiers existants un fichier ADN (génome complet ou non) une suite de contigs un fichier GenBank avec ADN et protéome ... Gscope lit, convertit, vérifie, recherche, range.

Database creation ORF quality ORFs determination Database searches DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool ORF quality

ORF quality la séquence est-elle bien définie ORF quality la séquence est-elle bien définie ? (existe, start, stop, frame-shift) protéome connu ou Glimmer, tRNAscan overlap, biais en composition beaucoup ou pas d’orthologues (Blastp, Tblastn) validité du codon start (Secator, DbClustal) ... mauvais splicing

Validité du codon start beaucoup d ’erreurs dans les banques overlap peu probable sauf overlap de un ( TAA ATG > TAATG ) alignements des codons start DbClustal le permet (méthode globale) pour les séquences du groupe Secator en particulier s ’il y en a suffisamment … si en plus apparaît la séquence de Shine-Dalgarno !

Codon start 2/3

Codon start 3/3

Database creation Production ORFs determination Database searches DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool Production

Production Codon adaptation index vs E.coli or S.cerevisiae Hydrophobicité, hélices transmembranaires Orthologues dans la PDB existence fragments Mise en évidence de domaines par l ’alignement si opposition local (blast) - global (DbClustal) … à suivre

Database creation Phylogenomic ORFs determination Database searches DNA and/or Proteome - Nuc sequence - Prot sequence - Intergenic regions - GC content & Codon Usage - ShineDalgarno ORFs determination (Glimmer,tRNAScan) BlastP : - Best hits - Hits count tBlastN : - Presence/abs in other organisms - Two Gene Cluster - Detection of putative ORFs not created Database searches BlastP on SwissProt, TrEmbl tBlastN on complete genomes Database creation MultiAlignment of Complete Sequences Ballast on BlastP output DbClustal - Alignments - Trees - Phylo profils - Hydrophobicity - Two Gene Cluster Analysis - Wrong start codon detection - Phylogenetic analysis - Recombination - Gene losses - Functions - Annotation Integrated analysis & Visualization tool Phylogenomic

Phylogénomique Bilan de présence/absence dans les génomes complets TBlastN Phylo folle Biais en GC Arbre phylogénétique non conforme (pertes ou transferts)

à l ’aide de Gscope, qui l ’automatisera bientôt ... Un exemple de protocole d ’analyse mis au point par Marc sur ERco pour mettre en évidence les domaines structuraux Faire un alignement avec toutes les séquences du blastp Définir les groupes avec Secator Choisir un représentant par groupe Puis Rechercher les domaines existants (ProDom par exemple) PDB Prédictions de structures secondaires, profil hydrophobicité, … Sites de coupures aux protéases (trypsine, …) VRP information bibliographique (fonction, mutants, …) à l ’aide de Gscope, qui l ’automatisera bientôt ...

Perspectives Eucaryotes supérieurs mauvais épissage intégration des Est étude promoteurs Informations sur les domaines et motifs Ballast Correlator Domainol data mining Utilisation protocole automatique de recherche de cibles (Shankar) RELACS (RELational Alignement of Complete Sequences) De mieux en mieux Web … mais ça marche déjà !!!