Bio-Informatique Analyse de séquences nucléotidiques Illustration: http://www.arradx-almac.com/diagnostics/bioinformatics-consultancy.aspx
Objectifs Format Fasta Logiciel d’édition ApE BLAST Prédiction de gènes Design primers Recherche de sites de restriction Analyse critique des résultats
Mise en situation Création banque cDNA Recherche de gènes candidats Arabidopsis thaliana Recherche de gènes candidats impliqués dans la résistance à la sécheresse
Trouver des infos sur le vecteur pUC57 Enregistrer la séquence du vecteur vide en format .fasta Système de sélection Blanc/Bleu:
Le format FASTA (rappel) FASTA = format de séquence (ARN, ADN, acides aminés) utilisable par de nombreux outils bioinformatiques Programme: Bloc Note >Identifiant (commentaire) AATTCCGGAATAAATGGCAA (séquence) Enregistrer « .fasta » Ce caractère indique le début d’une nouvelle séquence Pour faciliter l’alignement des caractères: dans WORD, utiliser police Courier Taille 8 ou 10
Logiciel d’édition : ApE http://biologylabs.utah.edu/jorgensen/wayned/ape/ Logiciel gratuit et convivial d’édition de séquence Permet alignement, création de carte de restriction, obtenir un réverse complémentaire, rechercher des ORF,…
Logiciel d’édition : ApE http://biologylabs.utah.edu/jorgensen/wayned/ape/ Logiciel gratuit et convivial d’édition de séquence Permet alignement, création de carte de restriction, obtenir un réverse complémentaire, rechercher des ORF,… Recherche d’éléments connus (features)
Logiciel d’édition : ApE http://biologylabs.utah.edu/jorgensen/wayned/ape/ Logiciel gratuit et convivial d’édition de séquence Permet alignement, création de carte de restriction, obtenir un réverse complémentaire, rechercher des ORF,…
Distinguer la séquence de l’insert de celle du vecteur: VecScreen http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html
Distinguer la séquence de l’insert de celle du vecteur: VecScreen
Logiciel d’édition : ApE Tools: Align sequences (…) (…)
Traduire ADN en protéine, trouver la phase de lecture codante Via ExPASy et ORF Finder Deux programmes simples : OK pour génomes procaryotes OK si départ de cDNA car pas d’introns MAIS à partir d’ADNg d’organismes eucaryotes, besoin de programmes plus sophistiqués
Traduire ADN en protéine, trouver la phase de lecture codante ExPASy Outil de traduction Présente les 6 cadres de lecture possibles http://www.expasy.ch/tools/dna.html
Traduire ADN en protéine, trouver la phase de lecture codante ExPASy Outil de traduction Présente les 6 cadres de lecture possibles http://www.expasy.ch/tools/dna.html Sélection des ORF probables: taille > 300 bp entre un START et un STOP Lien direct vers BLAST
Mise en évidence d’ORF http://www.ncbi.nlm.nih.gov/projects/gorf/
Mise en évidence d’ORF http://www.ncbi.nlm.nih.gov/projects/gorf/ Récupération de la séquence nucléotidique de l’ORF de notre choix en .fasta
Identification de la fonction potentielle http://blast.ncbi.nlm.nih.gov/Blast.cgi
« Basic Local Alignment Search Tool » - Regions of local similarity between sequences. Calculates the statistical significance of matches Calcul d’un score de similarité et une E-value (probabilité d’obtenir cette similitude par hasard) Au plus la E-value est faible au plus il est probable que les deux séquences comparées soient homologues Plusieurs types de BLAST: Nucleotide or protein sequences VS nucleotide or protein or translated DNA sequence databases
Choix du BLAST BlastN BlastP BlastX tBlastN tBlastX Type de séquence à analyser Type de banque utilisée BlastN BlastP BlastX tBlastN tBlastX Nucléotidique Nucléotidique Protéique Protéique Nucléotidique Traduction AA Protéique Protéique Nucléotidique Traduction AA Nucléotidique Traduction AA Nucléotidique Traduction AA Interet des BlastX : outrepasser le « wobble » mutation silencieuse de la troisième base des codons
Choix du BLAST BlastN BlastP BlastX tBlastN tBlastX Type de séquence à analyser Type de banque utilisée BlastN BlastP BlastX tBlastN tBlastX Nucléotidique Nucléotidique Protéique Protéique Nucléotidique Traduction AA Protéique Protéique Nucléotidique Traduction AA Nucléotidique Traduction AA Nucléotidique Traduction AA
« Basic Local Alignment Search Tool » Blast de la séquence entière (pas que l’ORF)
« Basic Local Alignment Search Tool » Code couleur: en fonction des E-values croissantes
Choix du BLAST BlastN: Nucleotide database vs nucleotide query. Pratique pour trouver des homologies entre espèces proches. TBLASTN: Search translated nucleotide database (AA) using a protein query (AA) compares a protein query sequence against a nucleotide sequence database dynamically translated in all six reading frames (both strands). Efficace pour trouver d’une séquence EST des protéines probables TBLASTX: Search translated nucleotide database using a translated nucleotide query (compares the six-frame translations of a nucleotide query sequence against the six-frame translations of a nucleotide sequence database). Analyse intensif
Choix du BLAST BLASTP: Search protein database (AA) using a protein query (AA) Identifier une protéine, trouver des régions similaires Différents algorithmes possibles en fonction de ce que l’on cherche: Trouver des protéines apparentées mais plus éloignées (ou de nouveaux membres d’une famille protéique): (PSI)-BLAST (très sensible!) Trouver un motif protéique dans sa séquence et une similarité autour du motif: (PHI)-BLAST. Blastx: Search protein database using a translated nucleotide query (compares the six-frame conceptual translation products of a nucleotide query sequence (both strands) against a protein sequence database) plus sensible que nucléotide BLAST quand on a une séquence nucléotidique codante première analyse quand on a une nouvelle séquence nucléotidique!
Que contient une page d’entrée GenBank-NCBI? Nom de la séquence dans la banque de données, taille et description brève Numéro d’accession unique! Le plus simple pour retrouver une séquence de façon certaine Eventuellement des synonymes Bibliographie
Que contient une page d’entrée GenBank-NCBI? Liste des différents éléments de séquence identifiés Dépend du type de séquence encodée (ex: promoteur, gene, CDS, RBS…) Position exacte de la CDS suivie d’une description brève et de la séquence en AA de la protéine encodée et numéro d’accession de la séquence protéique dans la banque de donnée (…)
Que contient une page d’entrée GenBank-NCBI? Séquence nucléotidique Début: Origine Fin: // (…) Obtenir la séquence en .fasta
Que contient une page d’entrée GenBank-NCBI? Séquence génomique d’origine
Que contient une page d’entrée GenBank-NCBI? Séquence génomique d’origine
Que contient une page d’entrée GenBank-NCBI? Exemple plus complexe de séquence génomique encodée en plusieurs entrées Formule du gène: Reconstruction à suivre Nucléotides de 1 à 1735 de la page AF018429 Nucléotides de 1 à 1177 de la page actuelle Nucléotides de 1 à 45 de la page AF018431 Nucléotides de 658 à 732 de la page AF018432 (…) < et > signifie que le gène peut en réalité dépasser ces limites de début et de fin Deux mRNA différents Façon dont GenBank représente le splicing alternatif Plus loin dans la liste, on trouve la position d’un exon
Primer design Critères de départ: Longueur: entre 18 et 25 bp Séquence: % en GC compris entre 50 et 60 % séquence se terminant par un C ou G Température de melting: T°m : 4(GC)+2(AT) identiques pour les deux primers REM : si bouts flottants, ne pas tenir compte de cette partie non hybridée pour les premiers cycles Structures secondaires, dimères de primers, self dimers,… Toujours simuler la PCR in silico avant la commande des primers http://engels.genetics.wisc.edu/amplify/
Primer design http://frodo.wi.mit.edu/primer3/
Primer design
Primer design Analyseur d’oligonucléotides: http://eu.idtdna.com/analyzer/Applications/OligoAnalyzer/#Structure%202
ADNc <> ADNg recherche d’introns-exons http://www.ncbi.nlm.nih.gov/spidey/ MAIS, il faut disposer de la séquence cDNA et gDNA
ADNc <> ADNg recherche d’introns-exons http://www.ncbi.nlm.nih.gov/spidey/ MAIS, il faut disposer de la séquence cDNA et gDNA On évite alors de choisir des primers à proximité (min 2 bases de distance) de l’intron mis en évidence
Genes prediction Localisation des gènes et positions introns exons
Trouver des sites de restriction http://rna.lundberg.gu.se/cutter2/
Trouver des sites de restriction Logiciel ApE
Trouver des sites de restriction Logiciel ApE
Trouver des sites de restriction Logiciel ApE
Trouver des sites de restriction Site de New England Biolabs : une mine d’informations sur les enzymes de restriction!!! https://www.neb.com/products/restriction-endonucleases Tout ce qu’il faut savoir sur les digestions par enzymes de restriction: Guide technique PDF à télécharger gratuitement Des outils pratiques: NEBcutter 2.0 http://tools.neb.com/NEBcutter2/index.php
Trouver des sites de restriction http://tools.neb.com/NEBcutter2/index.php
Trouver des sites de restriction Site de New England Biolabs : une mine d’informations sur les enzymes de restriction!!! https://www.neb.com/products/restriction-endonucleases Tout ce qu’il faut savoir sur les digestions par enzymes de restriction: Guide technique PDF à télécharger gratuitement Des outils pratiques: NEBcutter 2.0 et meme, … super pratiques: Enzyme finder http://tools.neb.com/NEBcutter2/index.php https://www.neb.com/tools-and-resources/interactive-tools/enzyme-finder
Trouver des sites de restriction https://www.neb.com/tools-and-resources/interactive-tools/enzyme-finder
Analyse taux de GC http://www.genomatix.de/cgi-bin/tools/tools.pl
Functional analyse http://www.ebi.ac.uk/Tools/pfa/iprscan/
Functional analyse http://pfam.sanger.ac.uk/