1 Les bases de données en Biologie Et Formats des séquences Dr Lilia ROMDHANE Faculté des Sciences de Bizerte 2015/2016 Identifiant:

1 Les bases de données en Biologie Et Formats des séquences Dr Lilia ROMDHANE Faculté des Sciences de Bizerte 2015/2016 Identifiant: sv.bioinformatique@yahoo.fr Mot de passe: bioinformatique2015

2 OBJECTIFS  Présentation des quelques formats de séquences biologiques (ADN et Protéine)  Manipulation des séquences dans différents formats à l’aide d’un programme (Seqret)

3  Le format (en informatique) = manière (convention ) utilisée pour représenter et stocker des données  Les banques données diffèrent selon la manière dont leurs données sont représentées  L’évolution des types de formats est indispensable pour faciliter leurs traitements par les programmes informatiques  Les séquences sont enregistrées dans des fichiers. Le nom de chaque fichier est accompagné d’une extension pour rappeler son format.  Les BD de séquences du NCBI enregistrent les séquences dans des fichiers: L’existence de plusieurs types de formats Exemple: Sequence.fasta Sequence.gb Extension Formats des séquences biologiques I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Quelques formats de données biologiques  Format des banques, exemples : Séquences ADN/ARN : EMBL ; GenBank et DDBJ Séquences protéiques : SwissProt et TrEMBL ; PIR ; …  Formats lus par la plupart des outils en bioinformatique FASTA Séquence brute (« raw sequence »)  Conversion de formats Lors de la consultation des banques Le programme ReadSeq (n’importe quel format en entrée, choix du format de sortie) I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

5 Format brut: GTGCCCGCCCCTGCATCCCTAAAAGCTTCGGCTACAGC TCGGTGGTGTGTGTCTGCAATGCCACATACTGTGACTC CTTTGACCCCCCGACCTTTCCTGCCCTTGGTACCTTCA GCCGCTATGAGAGTACACGCAGTGGGCGACGGATGGA GCTGAGTATGGGGCCCATCCAGGCTAATCACACGGGC ACAG Le format brut I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Le format FASTA ( et Multi-FASTA)  Une ligne de commentaires précédé de « > »  La séquence brute (pas d’espace, ni de nombre) >Human Polycomb 2 homolog (hPc2) mRNA, partial cds ctccggcagcccgaggtcatcctgctagactcagacctggatgaacccat agacttgcgctcggtcaagagccgcagcgaggccggggagccgcccagct ccctccaggtgaagcccgagacaccggcgtcggcggcggtggcggtggcg gcggcagcggcacccaccacgacggcggagaagcctccagccgaggccca ggacgaacctgcagagtcgctgagcgagttcaagcccttctttgggaata taattatcaccgacgtcaccgcgaactgcctcaccgttactttcaaggag tacgtgacggtg I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

7 Format FASTA >gi|54607044|ref|NM_001005741.1| Homo sapiens glucosidase, beta; acid (includes glucosylceramidase) (GBA), transcript variant 2, mRNA CTTTTCCAATCCAGGTCCCGCCCCGACTCCCCAGGGCTGCTTTTCTCGCGGC TGCGGGTGGTCGGGCTGCTGCCTTCAGAGTCTTACTGCGCGGGGCCCCAGT CTCCAGTCCCGCCCAGGCGCCTTTGCAGGCTGCGGTGGGATTTCGTTTTGCC TCCGGTTGGGGCTGCTGTTTCTCTTCGCCGACGTGGATCCTCTATCCTTCAGA GACTCTGGAACCCCTGTGGTCTTCTCTTCATCTAATGACCCTGAGGGGATGGA GTTTTCAAGTCCTTCCAGAGAGGAATGTCCCAAGCCTTTGAGTAGGGTAAGCA TCATGGCTGGCAGCCTCACAGGATTGCTTCTACTTCAGGCAGTGTCGTGGGC ATCAGGTGCCCGCCCCTGCATCCCTAAAAGCTTCGGCTACAGCTCGGTGGTG TGTGTCTGCAATGCCACATACTGTGACTCCTTTGACCCCCCGACCTTTCCTGC CCTTGGTACCTTCAGCCGCTATGAGAGTACACGCAGTGGGCGACGGATGGAG CTGAGTATGGGGCCCATCCAGGCTAATCACACGGGCACAGGCCTGCTACTGA CCCTGCAGCCAGAACAGAAGTTCCAGAAAGTGAAGGGATTTGGAGGGGCCA Ligne de description Séquence Base de données Numéro d’accession Organisme Type de la molécule Gene Identifier Nom du gène

Banques nucléiques, format d’une entrée  3 parties :  Chaque ligne commence par un mot-clé Deux lettres pour EMBL Maximum 12 lettres pour Genbank et DDBJ  Fin d’une entrée : // Description générale de la séquence « Features » Description des objets biologiques présents sur la séquence La séquence ctccggcagc ccgaggtcat cctgctagac tcagacctgg atgaacccat agacttgcgc 60 tcggtcaaga gccgcagcga ggccggggag ccgcccagct ccctccaggt gaagcccgag 120 acaccggcgt cggcggcggt ggcggtggcg gcggcagcgg cacccaccac gacggcggag 180 I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

9 Annotations Field Feature Qualifier Location I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples Description générale de la séquence « Features » Description des objets biologiques présents sur la séquence

10 I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples La séquence ctccggcagc ccgaggtcat cctgctagac tcagacctgg atgaacccat agacttgcgc 60 tcggtcaaga gccgcagcga ggccggggag ccgcccagct ccctccaggt gaagcccgag 120 acaccggcgt cggcggcggt ggcggtggcg gcggcagcgg cacccaccac gacggcggag 180

11 Field I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

12 Feature Qualifier Location I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

ID AF226511 standard; genomic DNA; PRO; 948 BP. AC AF226511; SV AF226511.1 DT 15-MAR-2000 (Rel. 63, Created) DT 04-JAN-2006 (Rel. 86, Last updated, Version 2) DE Neisseria meningitidis strain 1000 membrane protein GNA1220 (gna1220) gene, DE complete cds. OS Neisseria meningitidis OC Bacteria; Proteobacteria; Betaproteobacteria; Neisseriales; Neisseriaceae; OC Neisseria. RP 1-948 RX DOI; 10.1126/science.287.5459.1816. RX PUBMED; 10710308. RA Pizza M., Scarlato V., Masignani V., Giuliani M.M., Arico' B., … RT "Identification of vaccine candidates … " RL Science 287(5459):1816-1820(2000). RL Submitted (19-JAN-2000) to the EMBL/GenBank/DDBJ databases. RL IRIS Immunobiological Research Institute in Siena, Chiron SpA, Via RL Fiorentina, 1, Siena 53100, Italy Description générale de la séquence I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Banques nucléiques, les différentes lignes (1/2)  ID : nom de l’entrée, … Unique (propre à une entrée) Non permanent (peut changer au cours des versions)  AC : numéro d’accession Unique, plusieurs pour une même entrée (fusion d’entrées) Permanent (ne disparaît jamais de la banque)  SV : version de la séquence (Acc.version)  DT : date d’incorporation dans la banque et de dernière mise à jour  DE : description du contenu de l’entrée I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples Description générale de la séquence FieldDescription LOCUSCourt nom pour l’entrée, choisi pour suggérer la définition de la séquence DEFINITIONCourte description de la séquence ACCESSIONLe numéro d’accession primaire est un code unique et invariable attribué à cette entrée VERSIONUn identifiant composé consistant du numéro d’accession primaire et un autre nombre associé pour indiquer la version de la séquence. Celui-ci est suivi par un nombre (« GI ») assigné à la séquence par le NCBI. KEYWORDCourtes phrases décrivant les produits des gènes et autres information à propos d’une entrée. SEGMENTInformation sur l’ordre dans lequel cette entrée apparait dans des séries de séquences discontinues à partir de la même molécule. SOURCENom de l’organisme ou le nom le plus fréquemment utilisé dans la littérature. ORGANISMNom scientifique et formel de l’organisme (première ligne) et la classification taxonomique (les lignes suivantes) REFERENCECitations pour tous les articles contenant des données rapportées dans cette entrée. AUTHORSListe des auteurs de la citation TITLETitre complet de la citation JOURNALListe du nom du journal, le volume, l’année et le nombre de pages de la citation. MEDLINEFournit l’identifiant unique de la citation dans Medline PUBMEDFournit l’identifiant unique de la citation dans PubMed REMARKSpécifie la pertinence d’une citation à une entrée COMMENTRéférences croisées à d’autres entrées de séquences, comparaisons à d’autres collections, note des changements dans le nom dans LOCUS, et autres remarques FEATURESTableau contenant des informations sur la séquence et ses produits= Annotations BASE COUNTRésumé du nombre d’occurrence de chaque base dans la séquence ORIGINSpécifie le début de la séquence //Symbole de la fin de l’entrée.

Banques nucléiques, Features But : Mettre à disposition un vocabulaire étendu pour décrire les caractéristiques biologiques des séquences. Format :  Key : indique un groupe fonctionnel Vocabulaire contrôlé, hiérarchique  Location : instructions pour trouver l’objet sur la séquence de l’entrée  Qualifiers : informations complémentaires /qualifier=‘‘commentaires libres’’ I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples « Features »: Description des objets biologiques présents sur la séquence

DDBJ/EMBL/GenBank feature key table « Features »: Description des objets biologiques présents sur la séquence I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples FeatureDéfinition CDS Séquence codante, sequence de nucleotides qui correspons à la séquence des acides aminés dans une protéine exon Région du genome qui code pour une portion de l’ARNm épissée, ARNr, et ARNt qui peut contenir 5’UTR, toutes les CDSs et 3’UTR. gene Région douée d’intérêt biologique identifiée comme étant un gène et pour lequel un nom a été attribué intronUn segment d’AND qui est transcrit mais éliminé par épissage. mat_peptide Peptide mature ou séquence codante pour une protéine, séquence codante pour le peptide mature ou final ou le produit protéique après les modifications post- traductionnelle ; la position n’indique pas le codon stop (contrairement à ). mRNA ARMm, incluant les régions et non traduites ((5'UTR et 3'UTR) et les séquences codantes. sourceIdentifie la source biologique de la séquence spécifiée. STS Sequence tagged site= courte et unique copie de séquence d’DN qui peut être détectée par PCR. variationPolymorphismes ou mutations. 3' UTRRégion non traduite. 5' UTRRégion 5' non traduite. DDBJ/EMBL/GenBank feature key table

Banques nucléiques, Location  467base seule  340..565 séquence comprise entre les bornes (incluses)  <1..888 commence avant le premier nt de l'entrée  <234..888 début réel inconnu, avant 234  234..>888 finit après la position 888.  (228.234)..888 position réelle inconnue, entre 228 et 234  145^146situé entre deux nt adjacents  complement(340..565) séquence complémentaire inversée de celle de l'entrée Intervalle toujours donné avec la borne la plus petite en premier Indique que l’objet est sur l’autre brin  join(12..78,134..202) séquence unique composée des fragments indiqués concaténés Ex : ARNm mature constitué de plusieurs exons I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Banques nucléiques, Qualifiers  Vocabulaire contrôlé entre « / » et « = » puis texte libre Le vocabulaire dépend du Key au quel le Qualifier se réfère  Nom de gène /gene= ou /name=  Fonction de la protéine codée par le gène /product=  Origine de l’annotation /evidence=  Texte libre /note= I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Banques nucléiques, Feature, Location, Qualifier: Exemple I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples Key feature Location Qualifier

SwissProt/TrEMBL, format d’une entrée  Format basé sur celui de l’EMBL Mot-clé de 2 lettres au début de chaque ligne Les mêmes mots-clés sont utilisés Format différent pour les Features  Mots-clés supplémentaires : GN : les différents noms du gène qui code pour la protéine (OR) les différents gènes qui codent pour la même protéine (AND) OX : références croisées vers les banques taxonomiques CC : commentaires, lignes très documentées dans SwissProt KW : mots-clés issus d’un dictionnaire I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

21 Champs à 2 lettres I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

22 I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

SwissProt/TrEMBL, lignes CC  Informations découpées en blocs pour plus de lisibilité CC -!- TOPIC: First line of a comment block; CC second and subsequent lines of a comment block.  De nombreux sujets sont abordés FUNCTION : description générale de la fonction de la protéine CATALYTIC ACTIVITY : description des réactions catalysées par les enzymes DEVELOPMENTAL STAGE : description du stade spécifique auquel la protéine est exprimée SUBUNIT : complexes dont fait partie la protéine (+ partenaires) … I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

SwissProt/TrEMBL, lignes FT  Régions ou sites d’intérêt dans la séquence Modifications post-traductionnelles Sites de fixation Sites actifs d’enzymes Structures secondaire Changements de séquence (y compris les variants) I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

La conversion des séquences biologiques  Deux manières: En consultant les banques En utilisant un logiciel  Recommandations: Créer un dossier qui va contenir les séquences à analyser ainsi que les séquences obtenues en résultat. S’assurer que le fichier contient la séquence à analyser S’assurer que le fichier est ben nommé Utiliser les options du logiciels selon le besoin de l’analyse Bien renommer le fichier obtenu en résultat I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Exemples: Seqret (http://www.ebi.ac.uk/Tools/sfc/emboss_seqret/ )http://www.ebi.ac.uk/Tools/sfc/emboss_seqret/ 26 Copier-coller la séquence Choisir le fichier contenant la séquence à étudier Plus d’options I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples Choisir la nature de la séquence à convertir Input= séquence en entrée = analyser Output= séquence en sortie = résultat

Structure des gènes Eucaryotes

Travail à faire  Vous allez refaire le même exercice mais pour un gène parmi la liste. Il s’agit de gènes humains.  Vous allez exposer vos résultats pendant la séance prochaine. Vous allez travailler par binôme.  Répondre aux questions suivantes:  Quel est l’identifiant de ce gène dans cette base de données ?son symbole ? son nom officiel ?  De quel type est ce gène ?  Quelle est la fonction de la protéine codée par ce gène ?  Quelle est la structure de ce gène ?  A quelles positions se situe le gène sur le chromosome ?  Ce gène subit-il l’épissage alternatif ? Justifier  Quels sont les gènes à proximité du gène étudié?  Ce gène est-il conservé chez d’autres espèces ? Si oui, lesquelles ?  Dans quels fonctions moléculaires, processus biologiques et composantes cellulaires est impliqué ce gène ?  Afficher les exons et les introns  Quelles sont les tailles respectives du gène, du transcrit et de la protéine ?  A quelle base commence la traduction ?  Dans quelle maladie ce gène est impliqué?  A partir des fiches GenBank:  Résumer dans un tableau: le nombre de transcrits validés/reviewed et prédits, ainsi que leurs numéros d’accession, leur tailles, la tailles des protéines, des CDS, le nombre d’exon et leurs tailles  Extraire les séquences dans les formats GenBank et Fasta du gène, d’un seul transcrit (le plus long) et de la CDS correspondante. Dans les diapos, vous allez faire des captures d’écran pour le début de chaque séquence dans chacun des formats.  30

Travail à faire: Groupe 1  CUL7 : Nouha Jenboudi + Mohamed Taaieb Bouteraa  MTTP: Hana Daabak + Sahar Boughdir  TGM5: Afaf Barkouti + Jihed Aouini + Ibtissem Amara  CNGA3: Basma Gharsalli + Ameni Ben Maaouia  FGA: Nourhene Dawafi + Rihab Bouabsa +Aicha Fraj  AAAS  RPE65  ABHD5 31

 SBF2  ALB  AQP2  CFTR  TMPRSS3  TMC1  GJB2  ASAH1 32 Travail à faire: Groupe 3

 F5  ROBO3  TBXAS1  AGXT  CLDN16  TGM1  AICDA  FERMT1 33 Travail à faire: Groupe 2

 HSF4  GUCY2D  MLC1  ARSA  GALNS  LAMA2  SGCA  NPHP1 34 Travail à faire: Groupe 4

1 Les bases de données en Biologie Et Formats des séquences Dr Lilia ROMDHANE Faculté des Sciences de Bizerte 2015/2016 Identifiant:

Présentations similaires

Présentation au sujet: "1 Les bases de données en Biologie Et Formats des séquences Dr Lilia ROMDHANE Faculté des Sciences de Bizerte 2015/2016 Identifiant:"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

1 Les bases de données en Biologie Et Formats des séquences Dr Lilia ROMDHANE Faculté des Sciences de Bizerte 2015/2016 Identifiant:

Présentations similaires

Présentation au sujet: "1 Les bases de données en Biologie Et Formats des séquences Dr Lilia ROMDHANE Faculté des Sciences de Bizerte 2015/2016 Identifiant:"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back