Université d’Angers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey Angers Cedex
2 Qu’est-ce qu’un génôme ? Des gènes : portions d’ADN codant des protéines portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, … portions d ’ADN codant des ARN non traduits Eléments régulateurs : promoteurs, enhancers, … Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, … Séquences non fonctionnelles : séquences non codantes séquences répétées pseudogènes Université d’Angers - Maîtrise de Biologie Cellulaire
3 Taille des génômes ? Mycoplasma genitalium : 0,6 Mb Escherichia coli : 4,7 Mb Saccharomyces. cerevisiae : 13,5 Mb C. elegans : 100 Mb Amoeba dubia : Mb Fugu rubripes : 400 Mb Homo sapiens : 3400 Mb Amphibiens : Mb Prokaryotes Eukaryotes Université d’Angers - Maîtrise de Biologie Cellulaire
4 Gènes et éléments fonctionnels dans les génomes H. sapiens Taille du génôme : x1000 Nombre de gènes : x10 E. coli Gènes protéiques ARN Non codant ? Université d’Angers - Maîtrise de Biologie Cellulaire
5 Proportion d’éléments « fonctionnels » dans le génôme humain 85 % d’ADN sans fonctions connues Université d’Angers - Maîtrise de Biologie Cellulaire
6 Gène protéique eucaryote type promoteurexonsintronssite de polyadénylation TRANSCRIPTION MATURATION AAAAA ATGSTOP Traduction Régions non traduites (UTR) Régions traduites (CDS) AGGTAGGT point de branchement signaux d’épissage donneuraccepteur ADN préARNm ARNm Protéine Université d’Angers - Maîtrise de Biologie Cellulaire
7 Structure d’un gène protéique humain ATG polyA STOP Epissage alternatif dans 30% des gènes Tailles moyennes Université d’Angers - Maîtrise de Biologie Cellulaire
8 D’où provient la complexité du génôme humain ? NOYAU CELLULE ADN TRANSCRIPTION REVERSE TRANSCRIPTION INTEGRATION RETROVIRUS Transcriptase inverse LINE(s) : long interspersed elements (6-8 kb) SINE(s) : short interspersed elements ( bp) Rétrovirus endogènes (5-10 kb) Rétroéléments Pseudogènes : après la duplication d’un gène Evolution vers une nouvelle fonction Inactivation d’un gène gène élément répété crossing-over inégal mutation Université d’Angers - Maîtrise de Biologie Cellulaire
9 D’où provient la complexité du génome humain ? Rétropseudogènes à dans le génome humain dérivé de gènes ubiquitaires gènepromoteur AAAA transcription et maturation mRNA ADN rétrotranscription et intégration AAAA DNA Université d’Angers - Maîtrise de Biologie Cellulaire
10 L’alignement des séquences biologiques : pourquoi ? Identification de gènes homologues ; Recherches de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines ; Prédictions de fonctions ; Prédictions de structures d’ARN et de protéines ; Reconstitution des relations évolutives entre séquences (phylogénie) ; Choix d’amorces pour la PCR ; Université d’Angers - Maîtrise de Biologie Cellulaire
11 Prédiction de fonction par homologie ? SIMILARITE HOMOLOGIE CONSERVATION STRUCTURALE FONCTION CONSERVEE Prot1 TKRKLCGDSSPD Prot2 AKRKSCGDSSPD Prot1Prot2 Ancêtre commun Mais … Le concept de fonction est flou : Activité biochimique identique ? Distribution tissulaire identique ? Compartimentation identique ? Protéines homologues de fonctions différentes ? Homologues ligands d’un même récepteur Homologues recrutées pour des fonctions très différentes Université d’Angers - Maîtrise de Biologie Cellulaire
12 Histoire (Mendel) Théorie de l’hérédité 1944 (Avery) ADN, support de l’information génétique 1951 (Sanger) Séquençage de l’insuline 1951 (Watson & &Crick) L ’ADN est une double hélice 1970 Needleman & Wunsch 1970 Needleman & Wunsch 1980/1986 Création de l’EMBL (1980),de GenBank (1982) et de la DDBJ (1986).Création de SwissProt (1986) 1990 (Altschul) BLAST 1978(Dayhoff) Matrices PAM 2000/ ier brouillon du génome humain 1990 (Henikoff) Matrices BLOSUM 1981 (Smith & Waterman) Smith & Waterman Université d’Angers - Maîtrise de Biologie Cellulaire
13 Les banques de données de séquences biologiques : accessibilité sur Internet Articles et livres1968 -> 1985 Cassettes informatiques1982 ->1992 Disquettes1984 -> 1990 CD-ROM1989 -> ? Serveur FTP1989 -> ? WWW1993 -> ? DVD > ? Université d’Angers - Maîtrise de Biologie Cellulaire
14 Les étapes du séquençage d’un génome Séquence non-terminée : contigs non-orientés et non-ordonnés, gaps Séquence non-terminée : contigs orientés et ordonnés, gaps Séquence terminée HTG HUM Université d’Angers - Maîtrise de Biologie Cellulaire
15 Les banques de données de séquences biologiques : définition Une collection de données : structurées ; indexées (table des matières) ; périodiquement mise à jour ; contenant des références croisées avec d’autres banques. Elles comportent souvent des outils associés (logiciels) nécessaires pour : l’accession à la banque ; la mise à jour de la banque ; … Il existe essentiellement deux catégories de banques de données : généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, … spéciaisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage,... Université d’Angers - Maîtrise de Biologie Cellulaire
16 Les banques de données de séquences biologiques : structure d’une entrée de la banque Identification de la séquence Numéro unique d’accession (Accession Number - AC) Références bibliographiques Données taxinomiques Mots-clefs Annotations Références croisées avec d’autres banques de données ID IL6_HUMAN STANDARD; PRT; 212 AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence].. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB]... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Université d’Angers - Maîtrise de Biologie Cellulaire
17 Les banques de données de séquences biologiques : structure d’une entrée de la banque Annotation de la séquence Séquence FT SIGNAL 1 29 FT CHAIN INTERLEUKIN-6. FT DISULFID FT DISULFID FT CARBOHYD N-LINKED (GLCNAC...). FT VARIANT P -> S. FT /FTId=VAR_ FT VARIANT D -> V. FT /FTId=VAR_ FT MUTAGEN A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN W->R: NO LOSS OF ACTIVITY. FT MUTAGEN S->P: 13% ACTIVITY. FT MUTAGEN R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE 212 AA; MW; 1F1ED1FE1B CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Fin de l’entrée >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM La séquence peut être formatée : le format FASTA Entrée de SwissProtNuméro unique d’accessionInformations diverses (nom, espèce, …) Université d’Angers - Maîtrise de Biologie Cellulaire
18 Les banques de données de séquences biologiques : laquelle choisir ? AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage, BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc... Université d’Angers - Maîtrise de Biologie Cellulaire
19 Les banques de données de séquences biologiques : accessibilité sur Internet Banques généralistes : GenBank (Etats-Unis ) : DNA DataBank of Japan (Japon ) : EMBL (Europe ) : Banques spécialisées : ProSite : Pfam : BrookHaven Protein DataBank (PDB) : FlyBase : Université d’Angers - Maîtrise de Biologie Cellulaire
20 Une séquence : symboles, structure et fonction Alphabet de symboles (acides aminés) : chaque symbole a une signification propre ; chaque symbole a une certaine propension à être placé à côté de tel ou tel voisin ; chaque symbole peut être décrit par un descripteur binaire (1 ou 0) : d 11 d 12 d 13 d 14 AA 1 AA 2 d 21 d 22 d 23 d 24 descripteur binaire de l’acide aminé 1 descripteur binaire de l’acide aminé 2 d i1 : l’acide aminé i est gros d i2 : l’acide aminé i est chargé positivement d i3 : l’acide aminé i est aromatique d i4 : l’acide aminé i est soufré Exemple : descripteur binaire de la séquence GCW G : 0000 W : 1010 C : GCW L’ensemble des descripteurs binaires d’une séquence contient toute l’information nécessaire à la protéine pour adopter sa structure et donc sa fonction. Université d’Angers - Maîtrise de Biologie Cellulaire
Alignement global (Needlman & Wunsch, 1970) 21 Alignement global et alignement local Protéine A Protéine B Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990) Protéine A Protéine B domaine ARNm gène Université d’Angers - Maîtrise de Biologie Cellulaire
Opérations élémentaires d’édition : opérations permettant de « passer » d’une séquence à une autre ; insertions (i) : délétions (d) : substitutions (s) : A A - B C A A * * * A A C B C A A 22 Alignement : représentation A A B C A A * * * * * A A C C A A INsertion / DELétion INDEL A A B C A A * * * * * A A - C A A Université d’Angers - Maîtrise de Biologie Cellulaire
23 Quel est le meilleur alignement ? GTTACGA *** ** GTT-GGA GTTAC-GA *** ** GTT--GGA GTTACGA *** ** GTTG-GA 5 matches 1 délétion 1 substitution (C>G) 5 matches 1 délétion 1 substitution (A>G) 5 matches 2 délétions 1 insertion Système de score : se = score élémentaire sp = pénalité d’indel Université d’Angers - Maîtrise de Biologie Cellulaire
24 Les matrices nucléiques de substitution Unitaire et unitaire inverse : Matrices évolutives : Transitions : 1 Transversions : 0 Matches : 3 A TG C Université d’Angers - Maîtrise de Biologie Cellulaire
25 Les matrices protéiques de substitution Matrice de substitution protéique liée au code génétique Nombre de mutations nécessaires pour passer du codon d'un acide aminé au codon d'un autre acide aminé Mutation GLU LYS d ’ou GAA GAG AAA AAG 1 mutation sur la première base du codon Université d’Angers - Maîtrise de Biologie Cellulaire
26 Les matrices protéiques de substitution Les matrices liées aux propriétés physico-chimiques : hydrophobie / hydrophilie (Levitt, 1976) ; propension d’un acide aminé à intégrer une structure secondaire précise (Levin, 1986). Université d’Angers - Maîtrise de Biologie Cellulaire
27 Les matrices protéiques de substitution Les matrices liées à l’évolution : matrices PAM représentent les échanges possibles et acceptables d’un acide aminé par un autre lors de l’évolution des protéines (Dayhoff, 1978). Principe de base : si deux séquences appartiennent au même processus évolutif, et qu’un acide aminé de l’une a été muté pour donner l’autre, alors on peut supposer que les deux acides aminés sont similaires : les mutations sont dites acceptées (Point Accepted Mutation) elles ont été conservées au cours de l’évolution de part leur caractère à ne pas altérer la fonction de la protéine. Les protéines évoluent via des successions de mutations ponctuelles indépendantes les unes des autres et acceptées dans la population. Université d’Angers - Maîtrise de Biologie Cellulaire
28 La matrice de substitution PAM250 (Dayhoff, 1978) ? ? Université d’Angers - Maîtrise de Biologie Cellulaire
29 Les matrices de substitution PAM (Dayhoff, 1978) : construction (1/4) Fréquences d’échanges de paires d’acides aminés Mutation fixée durablement au cours de l’évolution unité de distance évolutive 1 unité PAM = une mutation ponctuelle acceptée entre deux séquences pour 100 résidus Utilisation de 71 familles (1300 protéines) de protéines à 85% identiques Construction d’arbres phylogénétiques Construction des matrices pour chaques couples d’acides aminés échangés A ij : nombre de mutations i j acceptées observées Université d’Angers - Maîtrise de Biologie Cellulaire
30 Les matrices de substitution PAM (Dayhoff, 1978) : construction (2/4) Mutabilité des acides aminés (m j ) Propension d’un acide aminé a être remplacé par un autre acide aminé Soit l’alignement suivant : Les acides aminés en jeu sont les suivants : A, D, E, F, W et R. A D E F R E A D D W R E Université d’Angers - ISSBA - Option Biotechnologie
Université d’Angers - Maîtrise de Biologie Cellulaire 31 Les matrices de substitution PAM (Dayhoff, 1978) : construction (3/4) Matrice de probabilité de mutation Calcul de la probabilité qu’un acide aminé i de la matrice remplace un acide aminé j : La matrice ainsi construite est appelée 1-PAM : elle définit l’unité de changement évolutif, l’unité PAM. Deux séquences sont séparées par une distance évolutive de 1 PAM si il y a eu 1 changement observé et accepté au cours de l'évolution pour 100 acides aminés. Matrice « odds » Chaque élément de la matrice est divisé par la fréquence d’occurrence de chaque acide aminé
32 Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4) Matrice « log-odds » Elle est calculée en prenant le logarithme de la matrice précedente : Cette matrice peut être utilisée pour simuler l'évolution en utilisant un générateur de nombres aléatoires afin de prédire le devenir de chaque résidu et ceci en accord avec les probabilités données dans la table. Les opérations suivantes sont équivalentes : - applications successives de 1-PAM sur une séquence ; - multiplication de la matrice 1-PAM par elle-même puis application à une séquence : - rééchelonnage des éléments de 1-PAM par une constante de proportionnalité suivi de l'application à une séquence : Université d’Angers - Maîtrise de Biologie Cellulaire
33 Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4) Utilisation de la matrice PAM Twilight Zone Distances (en % de différences) PAM Université d’Angers - Maîtrise de Biologie Cellulaire
34 La matrice de substitution PAM250 (Dayhoff, 1978) Les aromatiques sont peu mutables L’asparagine et l’alanine sont plus mutables que les acides aminés aromatiques Université d’Angers - Maîtrise de Biologie Cellulaire
35 Les matrices protéiques de substitution Les matrices de type BLOSUM (BLOcks Substitution Matrix) observation de blocs d’acides aminés issus de protéines relativement éloignées ; chaque bloc provient d’alignements multiples sans insertions / délétions de courtes régions conservées ; les blocs sont utilisés pour regrouper tous les segments de séquences ayant un pourcentage d’identité minimum au sein de leur bloc ; on en déduit des fréquences de substitution pour chaque paire d’acides aminés ; on calcule une matrice logarithmique de probabilité ; à chaque pourcentage d’identité correspond une matrice : BLOSUM50 avec un seuil d’identité de 50 % ; BLOSUM62 avec un seuil d’identité de 62 %. 50% BLOSUM50 Fréquences de substitution pour chaque acide aminé Université d’Angers - Maîtrise de Biologie Cellulaire
36 Quelle matrice de substitution choisir ? Pas de matrice idéale ; Les matrices dérivées des mutations observées donnent, pour les protéines, de meilleurs résultats que les matrices basées sur l’identité, le code génétique ou les propriétés physico-chimiques. Matrices PAM établies par M. Dayhoff (1978) : donnent un trop grand poids aux identités ; négligent trop les ressemblances structurales ; PAM250 : séquences éloignées, faible identité ; PAM125 : séquences proches, identité élevée. Matrices BLOSUM (1992) : construites à partir de plus de données ; BLOSUM62 : séquences proches, identité élevée ; BLOSUM30 : séquences éloignées, identité faible. Barton, G.J. (1996), « Protein Sequence Alignment and Database Scanning », In: Protein Structure Prediction : A Practical Approach (Ed. M.J.E. Sternberg), IRL Press at Oxford University Press. Identité PAMBLOSUM Université d’Angers - Maîtrise de Biologie Cellulaire
37 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Soient 2 séquences A et B de longueur respective m et n ; Soient i et j 2 acides aminés quelconques de A et B. Construction d’une matrice de comparaison (m,n) Matrice transformée par l’addition de scores Chemin des scores maxima Université d’Angers - Maîtrise de Biologie Cellulaire
38 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement global des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 Matrice initiale x = i+1 j<y n i<x m y = j+1 Transformation de la matrice initiale i j Université d’Angers - Maîtrise de Biologie Cellulaire
39 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 Matrice initialeMatrice en cours de transformation S(R,H) = se(R,H) + max S(x,y) se(R,H) = 2 S(x,y) S(D,E) = 7 S(A,E) = 2 S(F,E) = -5 S(D,A) = 2 S(D,L) = -4 Université d’Angers - Maîtrise de Biologie Cellulaire
40 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 Matrice transformée et chemin des scores maxima Listing d’édition substitution insertion dans i délétion dans j insertion dans j délétion dans i V T - E E R D A F L T S H E - - A L Université d’Angers - Maîtrise de Biologie Cellulaire
41 Alignement global : limites Les deux séquences présentent une similarité que l’alignement global ne révèle pas : G G C T G A C C A C C - T T | | | | | | | G A - T C A C T T C C A T G G G C T G A C C A C C T T | | | | | | | G A T C A C - T T C C A T G Un alignement local aurait donné le résultat suivant : Université d’Angers - Maîtrise de Biologie Cellulaire
42 Alignement local : Smith & Waterman (1981) N’importe quelle cellule de la matrice de comparaison peut être prise comme point de départ pour le calcul des scores sommes ; Tout score somme qui devient négatif stoppe la progression du calcul. Cette nouvelle case peut être initialisée à 0 et constituer un nouveau point de départ. Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initialeMatrice dont les scores négatifs ont été supprimés Université d’Angers - Maîtrise de Biologie Cellulaire
43 Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initiale x = i+1 j+2<y n i+2<x m y = j+1 Transformation de la matrice initiale i j Université d’Angers - Maîtrise de Biologie Cellulaire
44 Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initialeMatrice en cours de transformation S(R,H) = se(R,H) + max S(x,y) se(R,H) = 2 P = 6 S(x,y) S(D,E) = 7 S(F,E) = -6 S(D,L) = -6 Université d’Angers - Maîtrise de Biologie Cellulaire
45 Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice transformée et chemin des scores maxima Listing d’édition substitution insertion dans i délétion dans j insertion dans j délétion dans i 3 : E E R D A F : 8 2 : T S H E A L : 7 Université d’Angers - Maîtrise de Biologie Cellulaire
46 Alignement local : recherches de similitudes dans les banques de séquences Pourquoi ? Savoir si ma séquence ressemble à d'autres déjà connues Trouver toutes les séquences d'une même famille Rechercher toutes les séquences qui contiennent un motif donné Outils grand volume de texte à traîter programmes classiques d’alignement inutilisables utilisation d’heuristiques programmes BLAST et FASTA le résultat n ’est pas garanti comme étant le meilleur Université d’Angers - Maîtrise de Biologie Cellulaire
47 BLAST : Basic Local Alignment Search Tool (Altschul et al, 1990) Recherche de régions sans insertions / délétions riches en similarité ; Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ; Hachage de la séquence « requête » en mot de taille w … Liste de mots voisins de longueur w ayant un score supérieur à un seuil T fixé par rapport au mot m. Séquence requête m Chaque mot similaire au mot m est comparé à chaque mot de taille w pris dans chaque séquence B i de la banque. Lorsqu’un mot d’une séquence B i est identique à un mot de la liste de mots voisins, un hit est enregistré. Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP). Université d’Angers - Maîtrise de Biologie Cellulaire
48 BLAST : exemple S L A A L L N K C K T P Q G Q R L V N Q W m(w=3) P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N Liste de mots voisins Score seuil T = 13 Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W L A + + L + T P G R W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310 High Scoring Pairs (HSP) S( P, P ) = 7 S( Q, R ) = 1 S( G, G ) = 6 X T Université d’Angers - Maîtrise de Biologie Cellulaire
49 BLAST : Approche à adopter Choix de l’algorithme ; Matrice de substitution ; Stratégie de recherche : nucléique ou protéique ; Traitement du bruit de fond. BLAST Paramètres par défaut Filtrage BLAST Adaptation des paramètres FASTA Adaptation des paramètres FASTA Paramètres par défaut Université d’Angers - Maîtrise de Biologie Cellulaire
50 BLAST : Choix du programme SEQUENCEBANQUE Protéique Nucléique TT TT BLASTP BLASTN TBLASTX TBLASTN BLASTX Université d’Angers - Maîtrise de Biologie Cellulaire
51 BLAST sur Internet : Requête(1/8) séquence requête choix de la base de données Université d’Angers - Maîtrise de Biologie Cellulaire
52 BLAST sur Internet : Paramètres (2/8) Limiter la recherche à une espèce Filtre pour les séquences de faible complexité E-value limite Taille w du mot m Choix de la matrice et gestion des indels Position Specific Score Matrix PSI - BLAST Options supplémentaires Motif PHI - BLAST Université d’Angers - Maîtrise de Biologie Cellulaire
53 BLAST sur Internet : Format de la sortie (3/8) Limiter l ’affichage des résultats à une espèce Limiter l’affichage des résultats à une plage de valeur d’E-value Pour recevoir les résultats par Université d’Angers - Maîtrise de Biologie Cellulaire
54 BLAST sur Internet : Fichier de sortie (5/8) Séquence requête Banques de données choisies Université d’Angers - Maîtrise de Biologie Cellulaire
55 BLAST sur Internet : Fichier de sortie (6/8) Répartition des hits en fonction du score Nombres de hits Université d’Angers - Maîtrise de Biologie Cellulaire
56 BLAST sur Internet : Fichier de sortie (7/8) Université d’Angers - Maîtrise de Biologie Cellulaire
57 BLAST sur Internet : Fichier de sortie (8/8) Université d’Angers - Maîtrise de Biologie Cellulaire