Quelques mots sur la bioinfo

Slides:



Advertisements
Présentations similaires
Ressources documentaires électroniques
Advertisements

Tutoriel - Les Ressources du BCH
Manipulation et traitement de données massives
MySQL Base de données.
Un aperçu de la bioinformatique moléculaire
TRAVAILLER AVEC UN SITE GUPPY
1/32 Forum des utilisateurs du SISMER – Novembre 2005 Le portail NAUTILUS accès en ligne aux données et nouveau site WEB du SISMER Michèle FICHAUT Mickael.
Atelier CDS, 1er 2 avril 2004
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Les données et les banques de données
La France Données sociales
Transcription de l’ADN
Colloque Traitement et Analyse de séquences : compte-rendu
Initiation à la bioinformatique
Les enzymes : outils de biologie moléculaire Enzymes de restriction: endonucléases Kinases: ajoutent un phosphate (P*) Phosphatases: retirent un phosphate.
La société MAKINA CORPUS Spécialisée dans le « libre ». Deux pôles technologiques principaux. La conjoncture.
Les bases de données biologiques au LBBE
1 Résultats de lenquête de lectorat du magazine "Vivre la Meurthe-et-Moselle" Enquête réalisée par la société
Les pratiques documentaires de la Maison des Géosciences : Rapport denquête Emilie Gentilini Juin 2006.
MRP, MRP II, ERP : Finalités et particularités de chacun.
Septembre Interconnexion entre HAL et dautres systèmes dinformation.
LES ÉCOLES PROMOTRICES DE SANTÉ EN POLOGNE : NORMES NATIONALES ET
LUTILISATION DES COURS EN LIGNE Atelier SOFAD - Commissions scolaires Pierre Giguère et Jean-Simon Labrecque 2 novembre 2011.
Bioinformatique =?? génomique protéomique
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Licence professionnelle de Génomique
Projet Génome Humain (HGP)
Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.
1. L’ADN et l’information génétique
« Génome, adaptation et environnement »
Module 2 – Les joies de la procréation
L’utilisation des bases de données
Le code génétique Biologie 122.
TP 5 Du génome au protéome
La transcription.
Initiation aux outils de recherche bibliographique dans le cadre de la réalisation dune séquence de formation à la recherche documentaire Luc Verdebout.
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Chercher et trouver Module 1 Déroulement : Souhaiter la bienvenue
La réplication d’ADN.
Projet Génie Logiciel & UML, Bases de Données & Interfaces
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
Expression du Génome Le transcriptome.
La Transcription de l’ADN a l’ARN
ADN à ARN La synthèse des protéines étape 1
L’arbre du vivant.
Conception, création et animation d’une classe virtuelle
Introduction à la bioinformatique
LA SYNTHÈSE DES PROTÉINES
La banque UniprotKB et le logiciel Blast
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
Evolutions dans l'orientation. Thématiques Des évolutions générales dans la conception de l'orientation et du rôle des états Réforme de l'orientation.
Compétences des enseignants
Bordeaux - Juin HAL – Le contenu / Les acteurs
Co-expression = fonction (Eisen et al., PNAS 1998)
CHMI 2227F Biochimie I Expression des gènes
Banques de données en bio-informatique
Intégration des données sur le transcriptome
Institut Universitaire de Technologie de Clermont-Ferrand
Cartographie génomes entiers
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Régulation de l’expression génétique: la transcription
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Bio-Informatique Analyse de séquences nucléotidiques
Séance TICE en seconde Découverte de la cellule via l’outil informatique C2i2e.
1 Les bases de données en Biologie Et Formats des séquences Dr Lilia ROMDHANE Faculté des Sciences de Bizerte 2015/2016 Identifiant:
Transcription de la présentation:

Quelques mots sur la bioinfo Maude Pupin

Déroulement des 6 séances de TP : 5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui) Comparaison de séquences Prédiction de gènes Annotation des protéines Reconstruction phylogénétique Sujets de TP accessibles depuis : http://www.lifl.fr/~noe/enseignement/

Qu’est-ce que la bioinformatique ? L’approche in silico de la biologie Un outil indispensable aux biologistes Un nouveau domaine de recherche Trois activités principales : Acquisition et organisation des données biologiques Conception de logiciels pour l’analyse, la comparaison et la modélisation des données Analyse des résultats produits par les logiciels

Les limites de la bioinformatique Grands volumes de données à traiter Parfois diminution de la qualité des résultats au profit de la rapidité Recherche d’une solution parmi un ensemble infini de possibilités Besoin d’optimiser les programmes pour arriver à proposer un résultat dans un temps raisonnable Ce n’est pas toujours la solution la meilleure qui est trouvée Dépendant des connaissances biologiques Un résultat de programme n'est pas une vérité !

Quelques liens utiles (en français) Deambulum à Infobiogen http://www.infobiogen.fr/services/deambulum/fr/ Recueil de liens vers des sites de biologie et bioinformatique Logiciels pour la biologie à l’Institut Pasteur http://bioweb.pasteur.fr/ De nombreux logiciels proposés et des liens vers des sites NPSA au PBIL (Pôle BioInformatique Lyonnais) http://npsa-pbil.ibcp.fr/ L’étude des protéines et autres logiciels Proteomics tools à Expasy http://www.expasy.org/tools/ Tout sur l’étude des protéines

Présentation des banques de données

Qu’est-ce qu’une banque de données ? Ensemble de données relatives à un domaine, organisées par traitement informatique, accessibles en ligne et à distance Souvent, les données sont stockées sous la forme d’un fichier texte formaté (respectant une disposition particulière) Besoin de développer des logiciels spécifiques pour interroger les données contenues dans ces banques

Les banques de données généralistes Ces banques contiennent des données hétérogènes Collecte la plus exhaustive possible Banques de séquences nucléiques Banques de séquences protéiques Banques de structure 3D de macromolécules Banques d’articles scientifiques Avantage : tout est consultable en une fois Inconvénients : difficiles à maintenir, difficiles à interroger

Les banques de données spécialisées Ces banques contiennent des données homogènes Collecte établie autour d’une thématique particulière Avantages : facilité pour mettre à jour les données, vérifier leur intégrité, offrir une interface adaptée, … Inconvénients : ne cible pas toujours ce que l’on veut; toutes les banques possibles n’existent pas Exemples : banques spécialisées pour un génome, banques de séquences d'immunologies, banques sur des séquences validées, …

Les banques de séquences nucléiques Origine des données : Séquençage d’ADN et d’ARN Les données stockées : séquences + annotations Fragments de génomes Un ou plusieurs gènes, un bout de gène, séquence intergénique, … Génomes complets ARNm, ARNt, ARNr, … (fragments ou entiers) [ Note 1] : toutes les séquences (ADN ou ARN) sont écrites avec des T [ Note 2] : les séquences sont toujours orientées 5’ vers 3’.

Développement du séquençage de l’ADN 1977 : F. Sanger met au point la méthode de Sanger pour établir le séquençage de l’ADN. 1980 : Création de la banque EMBL 1984 : Développement de la réaction de polymérisation en chaîne (PCR) par Mullis. 1987 : Réalisation et commercialisation du 1er séquenceur automatisé par la société Applied Biosystems (Californie).

Banques nucléiques, les débuts Apparition dans les années 1980 Toutes les séquences déterminées sont publiées dans un article Les banques guettent les articles et en extraient les séquences Croissance du nombre de séquences : Pas de publication systématique pour une séquence Beaucoup de données à collecter Gestion des données par des organismes spécialisés Les séquences et leurs annotations sont soumises aux banques par les laboratoires qui ont fait le séquençage

Banques nucléiques, le partage des données Trois banques : EMBL (European Molecular Biology Laboratory), crée en 1982 GenBank (banque des Etats-Unis d’Amérique), crée en 1982 DDJ (DNA Databank of Japon), crée en 1986 Echange quotidien des données entre ces banques depuis 1987 (1992 ?) Répartition de la collecte des données Chaque banque collecte les données de son continent Même format de données pour la partie « Feature » Formats différents pour le reste de l’entrée

Banques nucléiques, mises à jour de la banque Une nouvelle version est disponible plusieurs fois par an Date et numéro de version (release) Données figées à une date fixée (toutes les séquences collectées jusque là) Mise à disposition des « UpDates » Mise à jour quotidienne des données Toutes les nouvelles séquences depuis la dernière version Facilite le traitement des données Pas besoin de télécharger la banque entière tous les jours Possibilité de faire des calculs longs

Banques nucléiques, dernière version EMBL, version 85 du 30 novembre 2005 64,739,883 entrées, 116,106,677,726 bp Dont 12,088,383 entrées (59,629,958,692 bp) sont issues de « shutgun » GenBank, version 150 de février 2006 54,584,635 entrées, 59,750,386,305 bp DDBJ, version 62 de mai 2005 45.249.444 entrées, 49.158.155.283 bp

Banques nucléiques, croissance

Séquençage de génomes 1995 : Séquençage de la 1ère bactérie, Haemophilus influenzae (1,83 Mb) (Fleischmann). 1996 : Séquençage du 1er génome eucaryote, Saccharomyces cerevisiae (12 Mb) (Dujon). 1998 : Séquençage du 1er organisme pluricellulaire, Caenorhabditis elegans (100 Mb). 2001 : Annonce du décryptage presque complet du génome humain (février).

Les projets de séquençage (source : GOLD) 298 génomes complets publiés 236 bactéries 39 eucaryotes 23 archaebactéries 746 génomes procaryotes en cours de séquençage 706 bactéries 38 archaebactéries 531 génomes eucaryotes en cours de séquençage

Banques nucléiques, format d’une entrée 3 parties : Chaque ligne commence par un mot-clé Deux lettres pour EMBL Maximum 12 lettres pour Genbank et DDBJ Fin d’une entrée : // Description générale de la séquence « Features » Description des objets biologiques présents sur la séquence La séquence ctccggcagc ccgaggtcat cctgctagac tcagacctgg atgaacccat agacttgcgc 60 tcggtcaaga gccgcagcga ggccggggag ccgcccagct ccctccaggt gaagcccgag 120 acaccggcgt cggcggcggt ggcggtggcg gcggcagcgg cacccaccac gacggcggag 180

Description générale de la séquence ID AF226511 standard; genomic DNA; PRO; 948 BP. AC AF226511; SV AF226511.1 DT 15-MAR-2000 (Rel. 63, Created) DT 04-JAN-2006 (Rel. 86, Last updated, Version 2) DE Neisseria meningitidis strain 1000 membrane protein GNA1220 (gna1220) gene, DE complete cds. OS Neisseria meningitidis OC Bacteria; Proteobacteria; Betaproteobacteria; Neisseriales; Neisseriaceae; OC Neisseria. RP 1-948 RX DOI; 10.1126/science.287.5459.1816. RX PUBMED; 10710308. RA Pizza M., Scarlato V., Masignani V., Giuliani M.M., Arico' B., … RT "Identification of vaccine candidates … " RL Science 287(5459):1816-1820(2000). RL Submitted (19-JAN-2000) to the EMBL/GenBank/DDBJ databases. RL IRIS Immunobiological Research Institute in Siena, Chiron SpA, Via RL Fiorentina, 1, Siena 53100, Italy

Banques nucléiques, les différentes lignes (1/2) ID : nom de l’entrée , … Unique (propre à une entrée) Non permanent (peut changer au cours des versions) AC : numéro d’accession Unique, plusieurs pour une même entrée (fusion d’entrées) Permanent (ne disparaît jamais de la banque) SV : version de la séquence (Acc.version) DT : date d’incorporation dans la banque et de dernière mise à jour DE : description du contenu de l’entrée

Banques nucléiques, la ligne ID ID entryname dataclass; molecule; division; sequencelength BP. Exemple: ID AB000263 standard; RNA; PRI; 368 BP. Entryname : nom de l’entrée en général numéro d'accession Dataclass : toujours le mot « standard » Molecule : type de la molécule de l’entrée DNA, RNA, circular DNA, … Division : essentiellement basé sur la taxonomie HUM (Human), MUS (Souris), MAM (Other Mammals), ... Taille : en paires de bases

Banques nucléiques, les différentes lignes (2/2) KW : liste de mots-clés (désuet) OS : organisme d’où provient la séquence (nom latin) OC : taxonomie (ou « artificial sequence ») Exemple : Eukaryota; Planta; Phycophyta; Euglenophyceae. OG : localisation de séquences non nucléaires Exemple : Mito, Plasmid … RA, RT, RN, RC, RX, RP, RL : réf. bibliographiques DR : liaison avec d’autres banques de données FH, FT : caractéristiques d’une entrée (Features) SQ : séquence (termine par //)

Description des objets biologiques présents sur la séquence « Features » Description des objets biologiques présents sur la séquence FH Key Location/Qualifiers FH FT source 1..948 FT /db_xref="taxon:487" FT /mol_type="genomic DNA" FT /note="serogroup: B" FT /organism="Neisseria meningitidis" FT /strain="1000" FT gene 1..948 FT /gene="gna1220" FT CDS 1..948 FT /codon_start=1 FT /db_xref="GOA:Q9JPH5" FT /db_xref="InterPro:IPR001107" FT /db_xref="InterPro:IPR001972" FT /db_xref="UniProtKB/TrEMBL:Q9JPH5" FT /note="similar to stomatin-like proteins; Genome-derived FT Neisseria Antigen GNA1220" FT /transl_table=11 FT /product="membrane protein GNA1220" FT /protein_id="AAF42660.1" FT /translation="MEFFIILLVAVAVFGFKSFVVIPQQEVHVVERLGRFHRALTAGLN FT ILIPFIDRVAYRHSLKEIPLDVPSQVCITRDNTQLTVDGIIYFQVTDPKLASYGSSNYI FT MAITQLAQTTLRSVIGRMELDKTFEERDEINSTVVSALDEAAGAWGVKVLRYEIKDLVP FT PQEILRSMQAQITAEREKRARIAESEGRKIEQINLASGQREAEIQQSEGEAQAAVNASN FT AEKIARINRAKGEAESLRLVAEANAEAIRQIAAALQTQGGADAVNLKIAEQYVAAFNNL FT AKESNTLIMPANVADIGSLISAGMKIIDSSKTAK" XX

Banques nucléiques, Features But : Mettre à disposition un vocabulaire étendu pour décrire les caractéristiques biologiques des séquences. Format : Key : indique un groupe fonctionnel Vocabulaire contrôlé, hiérarchique Location : instructions pour trouver l’objet sur la séquence de l’entrée Qualifiers : informations complémentaires /qualifier=‘‘commentaires libres’’

Banques nucléiques, Key (1/2) Mot-clé le plus général : misc_feature Changements dans la séquence : misc_difference, ... Régions répétées : repeat_region, ... Régions des Ig : immunoglobulin_related, ... Structures secondaires : misc_structure stem_loop D-loop Régions impliquées dans la recombinaison : misc_recomb, ...

Banques nucléiques, Key (2/2) gene misc_signal promoter CAAT_signal TATA_signal -35_signal -10_signal GC_signal RBS polyA_signal enhancer attenuator terminator misc_RNA prim_transcript precursor_RNA mRNA 5'clip 3'clip 5'UTR 3'UTR exon CDS intron polyA_site http://www.ebi.ac.uk/embl/WetFeat/

Banques nucléiques, Location (1/2) 467 base seule 340..565 séquence comprise entre les bornes (incluses) <1..888 commence avant le premier nt de l'entrée <234..888 début réel inconnu, avant 234 234..>888 finit après la position 888. (228.234)..888 position réelle inconnue, entre 228 et 234 145^146 situé entre deux nt adjacents

Banques nucléiques, Location (2/2) complement(340..565) séquence complémentaire inversée de celle de l'entrée Intervalle toujours donné avec la borne la plus petite en premier Indique que l’objet est sur l’autre brin join(12..78,134..202) séquence unique composée des fragments indiqués concaténés Ex : ARNm mature constitué de plusieurs exons

Banques nucléiques, Qualifiers Vocabulaire contrôlé entre « / » et « = » puis texte libre Le vocabulaire dépend du Key au quel le Qualifier se réfère Nom de gène /gene= ou /name= Fonction de la protéine codée par le gène /product= Origine de l’annotation /evidence= Texte libre /note=

Banques nucléiques, mise à jour des données Evolution des entrées Erreurs de séquences Changements dans les annotations Pb : Seuls les auteurs d’une entrées peuvent la corriger ! Faible taux de mise à jour Création d’une nouvelle banque : TPA Third Party Annotation Stockage à part de la mise à jour des entrées

Banques nucléiques, inconvénients Difficulté de mise à jour des données Version plus récente d’une séquence ou d’une annotation dans d’autres banques (ex : banques dédiées à un génome complet) Forte redondance Un même fragment de séquence présent dans plusieurs entrées Annotations peu normalisées Difficulté de recherche d’une information précise Annotations peu précises Peu de descriptions sur les gènes et leur produit Erreurs dans les annotations

Création de banques plus spécialisées, RefSeq Gérée au NCBI Séquences nucléiques et protéiques Liens explicites entre les gènes et leurs produits Chaque entrée représente une unique molécule d’un organisme particulier Pas de redondance Mise à jour manuelle par le personnel du NCBI Validation des données et annotations normalisées Statut de l’entrée indiqué sur chaque entrée (prédit, validé, …) Information sur les variants de transcrits

Création de banques plus spécialisées, UniGene Gérée au NCBI Regroupe les séquences nucléiques Comparaison des séquences de GenBank entre elles Création de groupes de séq similaires basés sur les gènes Une entrée : les séquences dérivées d’un même gène Les différents ARNm connus, les EST, … Informations sur le gène, la protéine, l’expression

Les banques de séquences protéiques Origine des données Traduction de séquences d’ADN Séquençage de protéines Rare car long et coûteux Protéines dont la structure 3D est connue Les données stockées : séquences + annotations Protéines entières Fragments de protéines

Banques de séquences protéiques, les débuts 1965 : Atlas of Protein Sequences, Margaret Dayhoff 50 entrées Version papier jusqu’en 78, puis version électronique 1984 : création de PIR-NBRF (Protein Information Resource - National Biomedical Research Foundation) Collaboration avec MIPS (Allemagne) et JIPID (Japon) 1986 : création de SwissProt Collaboration entre SIB (Swiss Institute of Bioinformatics ) et EBI Fin 2003 : création de UniProt (Universal Protein Resource) Mise en commun des informations de PIR et SwissProt/TrEMBL « entrepôt » central de séquences et fonctions protéiques

PIR, ses deux bases de données PSD : Protein Sequence Database Séquences protéiques avec annotation fonctionnelle «the most comprehensive and expertly annotated protein sequence database in the public domain » PIR-NREF : Non redondant protein sequences Pas plus d’une entrée pour une protéine (comparaison de toutes les séquences entre elles) Données : PIR-PSD, SwissProt, TrEMBL, RefSeq, GenPept, PDB

SwissProt, ses deux banques Données corrigées et validées par des experts Haut niveau d’annotation Description de la fonction (références associées) Localisation des domaines fonctionnels Modifications post-traductionnelles Existence de variants, … Redondance minimale Nombreux liens vers d’autres banques (60 BD) TrEMBL Entrées supplémentaires à SwissProt (pas encore annotées) Traduction automatique de l’EMBL

SwissProt/TrEMBL, croissance

SwissProt/TrEMBL, format d’une entrée Format basé sur celui de l’EMBL Mot-clé de 2 lettres au début de chaque ligne Les mêmes mots-clés sont utilisés Format différent pour les Features Mots-clés supplémentaires : GN : les différents noms du gène qui code pour la protéine (OR) les différents gènes qui codent pour la même protéine (AND) OX : références croisées vers les banques taxonomiques CC : commentaires, lignes très documentées dans SwissProt KW : mots-clés issus d’un distionnaire

SwissProt/TrEMBL, lignes CC Informations découpées en blocs pour plus de lisibilité CC -!- TOPIC: First line of a comment block; CC second and subsequent lines of a comment block. De nombreux sujets sont abordés FUNCTION : description générale de la fonction de la protéine CATALYTIC ACTIVITY : description des réactions catalysées par les enzymes DEVELOPMENTAL STAGE : description du stade spécifique auquel la protéine est exprimée SUBUNIT : complexes dont fait partie la protéine (+ partenaires) …

SwissProt/TrEMBL, lignes FT Régions ou sites d’intérêt dans la séquence Modifications post-traductionnelles Sites de fixation Sites actifs d’enzymes Structures secondaire Changements de séquence (y compris les variants) Format en colonne (nb caractères) 1-2 : FT 6-13 : Key (mot-clé, vocabulaire contrôlé) 15-20 22-27 : début et fin de l’objet 35-75 : description (éventuellement sur plusieurs lignes)

UniProt, les différentes banques UniProt : UniProt Knowledgebase Deux parties : entrées annotées manuellement (SwissProt) et entrées annotées de façon automatique (TrEMBL) Plus d’informations que dans les banques d’origine UniRef : UniProt Non-redundant Reference database UniRef100 : regroupement des séquences identiques et de leurs fragments provenant d’un même organisme UniRef90 : entrées de UniRef100 avec plus de 90% d’identité UniRef50 : idem pour 50% d’identitié UniParc : UniProt Archive UniProt + d’autres banques (PDB, RefSeq, FlyBase, brevets, …)

Banques protéiques, dernières versions PIR-PSD : n° 80, 31/12/05, 283.416 entrées PIR-NREF : n° 1.77, 19/09/05, 2.577.815 entrées. PIR (283.009 entrées) GenPept (2.570.458 entrées) RefSeq : 1.266.570 entrées PDB : 32.545 entrées SwissProt : n° 48, 13/09/05, 194.317 entrées TrEMBL : n° 31, 13/09/05: 2.105.517 entrées UniProt : n° 6.0, 13/09/05: 2.299.834 entrées UniRef100 : 2.939.066, UniRef90 : 1.730.689, UniRef50 : 907.983 UniParc : 5.025.587

Une Banque bibliographique, PubMed Contient Journaux concernant la biologie et la médecine Articles indexés par des experts à l’aide des termes MeSH Termes MeSH : vocabulaire contrôlé de termes biomédicaux et de molécules chimiques Hiérarchisé Dictionnaire de synonymes 19.000 termes médicaux, 103.500 termes chimiques Subheadings : sous-titres qui décrivent un aspect particulier des termes MeSH Mis à jour régulièrement

Exemple de terme MeSH

Systèmes d’interrogation de banques de données

Interrogation d’une banque But : Obtenir des informations nouvelles et pertinentes Aide à la mise au point d’expériences Validation des résultats d’une expérience Contraintes pour un systèmes d’interrogation Obtention de données pertinentes (pas trop de résultats, mais tous ceux relatifs à notre problématique) Simplicité d’utilisation (syntaxe d’interrogation intuitive) Réponse rapide Possibilité d’analyse des résultats (couplage à des outils)

Entrez, le système d’interrogation du NCBI Interface propriétaire (ne peut être installée par autrui) Opérateurs en majuscule AND, OR, NOT Nom du champ entre crochets homo sapiens [organism] Aide dans « Preview/Index » Historique (lien « History ») Ajout de limites (lien « Limits ») Sauvegarde, format Boutons « Display », « send to » Menus déroulants associés

Entrez, liens entre banques et entrées PubMed termes MeSH communs OMIM Nucleotide Accès aux liens entre banques à l’aide du menu associé au bouton « Display » Liens entre banques Structure Similarité (BLAST) Protein Genome Taxonomy

SRS, le système d’interrogation de l’EBI (TIGR) Système libre, de nombreux miroirs existent Onglet « Libary » Choix de la ou des banques interrogées Onglet « Query » Lancement du formulaire Onglet « Results » Historique des requêtes Onglet « Views » Création de format d’affichage

Interrogation via SRS Opérateurs & (et), | (ou), ! (non) Nom des champ dans des menus déroulants Sauvegarde, format Bouton « Save » Bouton « Rerun query » Options associées Analyse bioinformatique des entrées Bouton « Launch »

SRS, le découpage en sous-entrées Sous-entrée : partie extraite d’une entrée Annotation et séquence associée (fragment séquence parent) Utile dans le cas de champs répétés dans une entrée EMBL : références, « features », compteurs UniProt : ref, commentaires, liens, « features », compteurs Interrogeables facilement via le formulaire étendu Liste de valeurs quand vocabulaire contrôlé Sous-entrées « compteurs » Nombre d’apparitions de certains champs dans les entrées Non disponible dans Entrez

SRS, liens entre banques Construits à partir des informations présentent dans les entrées Les liens sont bidirectionnels Les liens sont propagés : A lié à B et B lié à C alors A lié à C Deux types de liens Dans une entrée sous la forme d’hyperliens (HTML) Par requête à l’aide du bouton « Link », à partir d’une liste d’entrées. Pas de liens entre entrées d’une même banque

Quelques formats de données biologiques Format des banques, exemples : Séquences ADN/ARN : EMBL ; GenBank et DDBJ Séquences protéiques : SwissProt et TrEMBL ; PIR ; … Formats lus par la plupart des outils en bioinformatique FASTA Séquence brute (« raw sequence ») Conversion de formats Lors de la consultation des banques Le programme ReadSeq (n’importe quel format en entrée, choix du format de sortie)

Le format FASTA ( et Multi-FASTA) Une ligne de commentaires précédé de « > » La séquence brute (pas d’espace, ni de nombre) >Human Polycomb 2 homolog (hPc2) mRNA, partial cds ctccggcagcccgaggtcatcctgctagactcagacctggatgaacccat agacttgcgctcggtcaagagccgcagcgaggccggggagccgcccagct ccctccaggtgaagcccgagacaccggcgtcggcggcggtggcggtggcg gcggcagcggcacccaccacgacggcggagaagcctccagccgaggccca ggacgaacctgcagagtcgctgagcgagttcaagcccttctttgggaata taattatcaccgacgtcaccgcgaactgcctcaccgttactttcaaggag tacgtgacggtg