1 Les bases de données en Biologie Et Formats des séquences Dr Lilia ROMDHANE Faculté des Sciences de Bizerte 2015/2016 Identifiant:

Slides:



Advertisements
Présentations similaires
Quelques mots sur la bioinfo
Advertisements

1 Bases de donn é es relationnelles. 2 Introduction au mod è le relationnel les donn é es sont repr é sent é es par des tables, sans pr é juger de la.
Transcription de l’ADN
ADN.
Comment obtenir un prix Nobel ?
TP 5 Du génome au protéome
Synthèse de protéines (et d’ARN)
LA SYNTHÈSE DES PROTÉINES
ADN à ARN La synthèse des protéines étape 1
LA SYNTHÈSE DES PROTÉINES
La structure et la reproduction de l’ ADN
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
Toute représentation ou reproduction intégrale, ou partielle faite sans le consentement de l'auteur ou de ses ayants droit ou ayants cause est illicite"
: le tutoriel d’autoformation à la recherche documentaire en Santé Je gère ma bibliographie  Je rédige ma bibliographie : le tutoriel.
COOPERATION TERRITORIALE DE CLUBS DEM CLUBS présentation CTC Commande RAPPEL Retour des Assises fédérales de février 2011 : nécessité.
1 Comment préparer un plan Document No. 2.1 Gestion des activités conjointes de lutte contre la tuberculose et le VIH: cours de formation pour responsables.
APP-TSWD Apprentissage Par Problèmes Techniques des Sites Web Dynamiques Licence Professionnelle FNEPI Valérie Bellynck, Benjamin Brichet-Billet, Mazen.
Leçon 3: Utiliser les options et enregistrer l’affichage.
Bio-Informatique Analyse de séquences nucléotidiques
Analyse et comparaison des séquences biologiques
Cours de Mme Dominique Meganck - ICC - IFC MICROSOFT ACCESS Un système de gestion de bases de données...
1) Qu’est-ce que BCDI? BCDI est un logiciel informatique de recherche documentaire : C’est le catalogue informatique du CDI. Au collège on travaille principalement.
Gabriel Dumouchel, doctorant Université de Montréal Atelier Jouvence 2011 Atelier Jouvence 2011.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 5 Support de cours rédigé par Bernard COFFIN Université.
Simon Collin, Université de Montréal Hélène Meunier, UQAM.
Travail de maturité CEC ANDRÉ-CHAVANNE TM.
Comment écrire un article scientifique Olivier MIMOZ DAR.
INSTITUT UNIVERSITAIRE DE TECHNOLOGIE -B.P.2235 – Avenue Aristide Briand – Montluçon Cedex Tél – Fax –
Pour une recherche efficace F. Courtiol– CDI Lycée Léo Ferré – 10/2011.
Réalisation d’un Diaporama. Ne pas oublier ! Les images sont sélectionnées, pertinentes, mises en face du texte correspondant, + légende. Les diapos doivent.
LECON 3 Question d’éducation. Les devoirs: Corrections et questions.
Chapitre 4 Gestion des disques Module S41. Plan du cours 1. Utilisation de l'outil Gestion des disques 2. Utilisation des disques de base 3. Utilisation.
   .   Attention : le temps de réaction des boutons d’action de cette page peut être un peu long.
Pour : les 9 Instituts d’Etudes Politiques la plupart des écoles de commerce post-bac quelques écoles d‘ingénieurs post-bac La plupart des écoles d’art.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 1 Support de cours rédigé par Bernard COFFIN Université.
INTRANET.SANTEFRANCAIS.CA ANTOINE DÉSILETS Coordonnateur au réseautage et Agent de communication Formation sur l’utilisation de l’Intranet 1.
A RETOURNER À LA FEHAP - Service Adhésion 179 rue de Lourmel Paris - tél. O fax : O Madame, Monsieur le Pr é sident,
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 6 Support de cours rédigé par Bernard COFFIN Université.
Quelques points de vigilance et exemples Le Plan de Formation Individualisé (PFI)  C’est un document de 10 pages environ  Il est rédigé par le stagiaire.
Initiation aux bases de données et à la programmation événementielle Outil de création des tables Support de TD rédigé par Bernard COFFIN Université Paris.
La création des données d’exemplaire pour un exemplarisateur Sudoc.
Cours 19 Transcription et Régulation Partie 1 Chapitre 17 p p BIO 1540Caroline Petit-Turcotte Hiver
Lettres d’affaires Lettre commerciale. Préface La rédaction des lettres commerciales c’est un art. Il y a AFNOR (Association française de normalisation).
Les Archives départementales de la Somme Fiche n°5 Les bordereaux de versement et d’élimination ©SR Cg80.
LA DIVISION CELLULAIRE, LA GÉNÉTIQUE ET LA BIOLOGIE MOLÉCULAIRE.
Du panier à la commande client Créer un panier Identification Validation de la commande Paiement Formulaire de création de compte Etats de la commande.
Présentation Objectifs du TP Mesures 1  Réalisation  Exploitation  Conclusion Mesures 2  Réalisation  Exploitation  Conclusion Titre du TP Système.
La création des données d’exemplaire pour un responsable de Centre Régional.
Clonage et construction de vecteur in silico Objectif Réaliser un clonage virtuel d’un ADNc codant pour une protéine d’intérêt dans un vecteur d’expression.
Formation à l’utilisation de K-Sup V5 février 2009 CRISI - COM.
Les bases de données CINAHL
PNF CAP BAC PRO Maintenance des matériels mars 2016 Lycée Raspail Paris EXEMPLE D’ORGANISATION PEDAGOGIQUE Christophe OLIVEIRA Lycée Gustave EIFFEL.
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Modes de Marches et d’Arrêts
Orange Solidarité – association loi de 1901 Atelier 3 Les fonctions avancées de Word pour un CV « original » Se servir de Word pour produire des documents.
M7-Géoréférencement Choix du code terrain…. Très important : choix du « type de code… » Paramètres divers…
Créer un SmartArt Les graphiques SmartArt permettent de communiquer visuellement de l'information. Il peut s'agir de listes ou de diagrammes simples, mais.
FORMATIONENT/SVT Saint Orens Vendredi 15 novembre 2013.
Universit é Mohamed Kheider de Biskra Facult é de science et technologie D é partement de g é nie é lectrique Sp é cialit é : t é l é communication Le.
1 Initiation aux bases de données et à la programmation événementielle Construction d’un état Support de TD rédigé par Bernard COFFIN Université Paris.
RÉSERVER AVEC ADOC Mode d’emploi 1 Page 1 : Page de garde. Pages 2, 3, 4 et 5 : Mode d’emploi. Page 6 : Rubriques supplémentaires – Règlement. Défilement.
Université Ferhat Abbas –Sétif 1 Centre des Systèmes et Réseaux d’Information Et de Communication, de Télé-enseignement et D’Enseignement à Distance Rapport.
du logiciel documentaire PMB
Les Modalités d’Evaluation en Bac Pro tertiaire..
09/03/09 - Page 1 Département Office Département des constructions et des technologies de l'information Département de l'instruction publique SIGEF Présentation.
L’EPISSAGE ALTERNATIF DE L’ARN
Technologie de l’ADN recombinant
Transcription de la présentation:

1 Les bases de données en Biologie Et Formats des séquences Dr Lilia ROMDHANE Faculté des Sciences de Bizerte 2015/2016 Identifiant: Mot de passe: bioinformatique2015

2 OBJECTIFS  Présentation des quelques formats de séquences biologiques (ADN et Protéine)  Manipulation des séquences dans différents formats à l’aide d’un programme (Seqret)

3  Le format (en informatique) = manière (convention ) utilisée pour représenter et stocker des données  Les banques données diffèrent selon la manière dont leurs données sont représentées  L’évolution des types de formats est indispensable pour faciliter leurs traitements par les programmes informatiques  Les séquences sont enregistrées dans des fichiers. Le nom de chaque fichier est accompagné d’une extension pour rappeler son format.  Les BD de séquences du NCBI enregistrent les séquences dans des fichiers: L’existence de plusieurs types de formats Exemple: Sequence.fasta Sequence.gb Extension Formats des séquences biologiques I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Quelques formats de données biologiques  Format des banques, exemples : Séquences ADN/ARN : EMBL ; GenBank et DDBJ Séquences protéiques : SwissProt et TrEMBL ; PIR ; …  Formats lus par la plupart des outils en bioinformatique FASTA Séquence brute (« raw sequence »)  Conversion de formats Lors de la consultation des banques Le programme ReadSeq (n’importe quel format en entrée, choix du format de sortie) I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

5 Format brut: GTGCCCGCCCCTGCATCCCTAAAAGCTTCGGCTACAGC TCGGTGGTGTGTGTCTGCAATGCCACATACTGTGACTC CTTTGACCCCCCGACCTTTCCTGCCCTTGGTACCTTCA GCCGCTATGAGAGTACACGCAGTGGGCGACGGATGGA GCTGAGTATGGGGCCCATCCAGGCTAATCACACGGGC ACAG Le format brut I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Le format FASTA ( et Multi-FASTA)  Une ligne de commentaires précédé de « > »  La séquence brute (pas d’espace, ni de nombre) >Human Polycomb 2 homolog (hPc2) mRNA, partial cds ctccggcagcccgaggtcatcctgctagactcagacctggatgaacccat agacttgcgctcggtcaagagccgcagcgaggccggggagccgcccagct ccctccaggtgaagcccgagacaccggcgtcggcggcggtggcggtggcg gcggcagcggcacccaccacgacggcggagaagcctccagccgaggccca ggacgaacctgcagagtcgctgagcgagttcaagcccttctttgggaata taattatcaccgacgtcaccgcgaactgcctcaccgttactttcaaggag tacgtgacggtg I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

7 Format FASTA >gi| |ref|NM_ | Homo sapiens glucosidase, beta; acid (includes glucosylceramidase) (GBA), transcript variant 2, mRNA CTTTTCCAATCCAGGTCCCGCCCCGACTCCCCAGGGCTGCTTTTCTCGCGGC TGCGGGTGGTCGGGCTGCTGCCTTCAGAGTCTTACTGCGCGGGGCCCCAGT CTCCAGTCCCGCCCAGGCGCCTTTGCAGGCTGCGGTGGGATTTCGTTTTGCC TCCGGTTGGGGCTGCTGTTTCTCTTCGCCGACGTGGATCCTCTATCCTTCAGA GACTCTGGAACCCCTGTGGTCTTCTCTTCATCTAATGACCCTGAGGGGATGGA GTTTTCAAGTCCTTCCAGAGAGGAATGTCCCAAGCCTTTGAGTAGGGTAAGCA TCATGGCTGGCAGCCTCACAGGATTGCTTCTACTTCAGGCAGTGTCGTGGGC ATCAGGTGCCCGCCCCTGCATCCCTAAAAGCTTCGGCTACAGCTCGGTGGTG TGTGTCTGCAATGCCACATACTGTGACTCCTTTGACCCCCCGACCTTTCCTGC CCTTGGTACCTTCAGCCGCTATGAGAGTACACGCAGTGGGCGACGGATGGAG CTGAGTATGGGGCCCATCCAGGCTAATCACACGGGCACAGGCCTGCTACTGA CCCTGCAGCCAGAACAGAAGTTCCAGAAAGTGAAGGGATTTGGAGGGGCCA Ligne de description Séquence Base de données Numéro d’accession Organisme Type de la molécule Gene Identifier Nom du gène

Banques nucléiques, format d’une entrée  3 parties :  Chaque ligne commence par un mot-clé Deux lettres pour EMBL Maximum 12 lettres pour Genbank et DDBJ  Fin d’une entrée : // Description générale de la séquence « Features » Description des objets biologiques présents sur la séquence La séquence ctccggcagc ccgaggtcat cctgctagac tcagacctgg atgaacccat agacttgcgc 60 tcggtcaaga gccgcagcga ggccggggag ccgcccagct ccctccaggt gaagcccgag 120 acaccggcgt cggcggcggt ggcggtggcg gcggcagcgg cacccaccac gacggcggag 180 I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

9 Annotations Field Feature Qualifier Location I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples Description générale de la séquence « Features » Description des objets biologiques présents sur la séquence

10 I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples La séquence ctccggcagc ccgaggtcat cctgctagac tcagacctgg atgaacccat agacttgcgc 60 tcggtcaaga gccgcagcga ggccggggag ccgcccagct ccctccaggt gaagcccgag 120 acaccggcgt cggcggcggt ggcggtggcg gcggcagcgg cacccaccac gacggcggag 180

11 Field I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

12 Feature Qualifier Location I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

ID AF standard; genomic DNA; PRO; 948 BP. AC AF226511; SV AF DT 15-MAR-2000 (Rel. 63, Created) DT 04-JAN-2006 (Rel. 86, Last updated, Version 2) DE Neisseria meningitidis strain 1000 membrane protein GNA1220 (gna1220) gene, DE complete cds. OS Neisseria meningitidis OC Bacteria; Proteobacteria; Betaproteobacteria; Neisseriales; Neisseriaceae; OC Neisseria. RP RX DOI; /science RX PUBMED; RA Pizza M., Scarlato V., Masignani V., Giuliani M.M., Arico' B., … RT "Identification of vaccine candidates … " RL Science 287(5459): (2000). RL Submitted (19-JAN-2000) to the EMBL/GenBank/DDBJ databases. RL IRIS Immunobiological Research Institute in Siena, Chiron SpA, Via RL Fiorentina, 1, Siena 53100, Italy Description générale de la séquence I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Banques nucléiques, les différentes lignes (1/2)  ID : nom de l’entrée, … Unique (propre à une entrée) Non permanent (peut changer au cours des versions)  AC : numéro d’accession Unique, plusieurs pour une même entrée (fusion d’entrées) Permanent (ne disparaît jamais de la banque)  SV : version de la séquence (Acc.version)  DT : date d’incorporation dans la banque et de dernière mise à jour  DE : description du contenu de l’entrée I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples Description générale de la séquence FieldDescription LOCUSCourt nom pour l’entrée, choisi pour suggérer la définition de la séquence DEFINITIONCourte description de la séquence ACCESSIONLe numéro d’accession primaire est un code unique et invariable attribué à cette entrée VERSIONUn identifiant composé consistant du numéro d’accession primaire et un autre nombre associé pour indiquer la version de la séquence. Celui-ci est suivi par un nombre (« GI ») assigné à la séquence par le NCBI. KEYWORDCourtes phrases décrivant les produits des gènes et autres information à propos d’une entrée. SEGMENTInformation sur l’ordre dans lequel cette entrée apparait dans des séries de séquences discontinues à partir de la même molécule. SOURCENom de l’organisme ou le nom le plus fréquemment utilisé dans la littérature. ORGANISMNom scientifique et formel de l’organisme (première ligne) et la classification taxonomique (les lignes suivantes) REFERENCECitations pour tous les articles contenant des données rapportées dans cette entrée. AUTHORSListe des auteurs de la citation TITLETitre complet de la citation JOURNALListe du nom du journal, le volume, l’année et le nombre de pages de la citation. MEDLINEFournit l’identifiant unique de la citation dans Medline PUBMEDFournit l’identifiant unique de la citation dans PubMed REMARKSpécifie la pertinence d’une citation à une entrée COMMENTRéférences croisées à d’autres entrées de séquences, comparaisons à d’autres collections, note des changements dans le nom dans LOCUS, et autres remarques FEATURESTableau contenant des informations sur la séquence et ses produits= Annotations BASE COUNTRésumé du nombre d’occurrence de chaque base dans la séquence ORIGINSpécifie le début de la séquence //Symbole de la fin de l’entrée.

Banques nucléiques, Features But : Mettre à disposition un vocabulaire étendu pour décrire les caractéristiques biologiques des séquences. Format :  Key : indique un groupe fonctionnel Vocabulaire contrôlé, hiérarchique  Location : instructions pour trouver l’objet sur la séquence de l’entrée  Qualifiers : informations complémentaires /qualifier=‘‘commentaires libres’’ I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples « Features »: Description des objets biologiques présents sur la séquence

DDBJ/EMBL/GenBank feature key table « Features »: Description des objets biologiques présents sur la séquence I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples FeatureDéfinition CDS Séquence codante, sequence de nucleotides qui correspons à la séquence des acides aminés dans une protéine exon Région du genome qui code pour une portion de l’ARNm épissée, ARNr, et ARNt qui peut contenir 5’UTR, toutes les CDSs et 3’UTR. gene Région douée d’intérêt biologique identifiée comme étant un gène et pour lequel un nom a été attribué intronUn segment d’AND qui est transcrit mais éliminé par épissage. mat_peptide Peptide mature ou séquence codante pour une protéine, séquence codante pour le peptide mature ou final ou le produit protéique après les modifications post- traductionnelle ; la position n’indique pas le codon stop (contrairement à ). mRNA ARMm, incluant les régions et non traduites ((5'UTR et 3'UTR) et les séquences codantes. sourceIdentifie la source biologique de la séquence spécifiée. STS Sequence tagged site= courte et unique copie de séquence d’DN qui peut être détectée par PCR. variationPolymorphismes ou mutations. 3' UTRRégion non traduite. 5' UTRRégion 5' non traduite. DDBJ/EMBL/GenBank feature key table

Banques nucléiques, Location  467base seule  séquence comprise entre les bornes (incluses)  < commence avant le premier nt de l'entrée  < début réel inconnu, avant 234  234..>888 finit après la position 888.  ( )..888 position réelle inconnue, entre 228 et 234  145^146situé entre deux nt adjacents  complement( ) séquence complémentaire inversée de celle de l'entrée Intervalle toujours donné avec la borne la plus petite en premier Indique que l’objet est sur l’autre brin  join(12..78, ) séquence unique composée des fragments indiqués concaténés Ex : ARNm mature constitué de plusieurs exons I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Banques nucléiques, Qualifiers  Vocabulaire contrôlé entre « / » et « = » puis texte libre Le vocabulaire dépend du Key au quel le Qualifier se réfère  Nom de gène /gene= ou /name=  Fonction de la protéine codée par le gène /product=  Origine de l’annotation /evidence=  Texte libre /note= I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Banques nucléiques, Feature, Location, Qualifier: Exemple I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples Key feature Location Qualifier

SwissProt/TrEMBL, format d’une entrée  Format basé sur celui de l’EMBL Mot-clé de 2 lettres au début de chaque ligne Les mêmes mots-clés sont utilisés Format différent pour les Features  Mots-clés supplémentaires : GN : les différents noms du gène qui code pour la protéine (OR) les différents gènes qui codent pour la même protéine (AND) OX : références croisées vers les banques taxonomiques CC : commentaires, lignes très documentées dans SwissProt KW : mots-clés issus d’un dictionnaire I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

21 Champs à 2 lettres I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

22 I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

SwissProt/TrEMBL, lignes CC  Informations découpées en blocs pour plus de lisibilité CC -!- TOPIC: First line of a comment block; CC second and subsequent lines of a comment block.  De nombreux sujets sont abordés FUNCTION : description générale de la fonction de la protéine CATALYTIC ACTIVITY : description des réactions catalysées par les enzymes DEVELOPMENTAL STAGE : description du stade spécifique auquel la protéine est exprimée SUBUNIT : complexes dont fait partie la protéine (+ partenaires) … I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

SwissProt/TrEMBL, lignes FT  Régions ou sites d’intérêt dans la séquence Modifications post-traductionnelles Sites de fixation Sites actifs d’enzymes Structures secondaire Changements de séquence (y compris les variants) I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

La conversion des séquences biologiques  Deux manières: En consultant les banques En utilisant un logiciel  Recommandations: Créer un dossier qui va contenir les séquences à analyser ainsi que les séquences obtenues en résultat. S’assurer que le fichier contient la séquence à analyser S’assurer que le fichier est ben nommé Utiliser les options du logiciels selon le besoin de l’analyse Bien renommer le fichier obtenu en résultat I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Exemples: Seqret ( ) 26 Copier-coller la séquence Choisir le fichier contenant la séquence à étudier Plus d’options I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples Choisir la nature de la séquence à convertir Input= séquence en entrée = analyser Output= séquence en sortie = résultat

27 I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

28 I. Les banques généralistes / 1. les banques nucléiques/ 2. les banques protéiques / II. Les banques spécialisées / 1. Catégorie 1 / 2. Catégorie 2 / III. Les formats de séquences biologiques / IV. Exemples

Structure des gènes Eucaryotes

Travail à faire  Vous allez refaire le même exercice mais pour un gène parmi la liste. Il s’agit de gènes humains.  Vous allez exposer vos résultats pendant la séance prochaine. Vous allez travailler par binôme.  Répondre aux questions suivantes:  Quel est l’identifiant de ce gène dans cette base de données ?son symbole ? son nom officiel ?  De quel type est ce gène ?  Quelle est la fonction de la protéine codée par ce gène ?  Quelle est la structure de ce gène ?  A quelles positions se situe le gène sur le chromosome ?  Ce gène subit-il l’épissage alternatif ? Justifier  Quels sont les gènes à proximité du gène étudié?  Ce gène est-il conservé chez d’autres espèces ? Si oui, lesquelles ?  Dans quels fonctions moléculaires, processus biologiques et composantes cellulaires est impliqué ce gène ?  Afficher les exons et les introns  Quelles sont les tailles respectives du gène, du transcrit et de la protéine ?  A quelle base commence la traduction ?  Dans quelle maladie ce gène est impliqué?  A partir des fiches GenBank:  Résumer dans un tableau: le nombre de transcrits validés/reviewed et prédits, ainsi que leurs numéros d’accession, leur tailles, la tailles des protéines, des CDS, le nombre d’exon et leurs tailles  Extraire les séquences dans les formats GenBank et Fasta du gène, d’un seul transcrit (le plus long) et de la CDS correspondante. Dans les diapos, vous allez faire des captures d’écran pour le début de chaque séquence dans chacun des formats.  30

Travail à faire: Groupe 1  CUL7 : Nouha Jenboudi + Mohamed Taaieb Bouteraa  MTTP: Hana Daabak + Sahar Boughdir  TGM5: Afaf Barkouti + Jihed Aouini + Ibtissem Amara  CNGA3: Basma Gharsalli + Ameni Ben Maaouia  FGA: Nourhene Dawafi + Rihab Bouabsa +Aicha Fraj  AAAS  RPE65  ABHD5 31

 SBF2  ALB  AQP2  CFTR  TMPRSS3  TMC1  GJB2  ASAH1 32 Travail à faire: Groupe 3

 F5  ROBO3  TBXAS1  AGXT  CLDN16  TGM1  AICDA  FERMT1 33 Travail à faire: Groupe 2

 HSF4  GUCY2D  MLC1  ARSA  GALNS  LAMA2  SGCA  NPHP1 34 Travail à faire: Groupe 4