La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32.

Présentations similaires


Présentation au sujet: "Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32."— Transcription de la présentation:

1 Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey Angers Cedex

2 2 Quest-ce quun génôme ? Des gènes : portions dADN codant des protéines portions d ADN codant des ARN : ARNr, ARNt, ARNsn, … portions d ADN codant des ARN non traduits Eléments régulateurs : promoteurs, enhancers, … Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, … Séquences non fonctionnelles : séquences non codantes séquences répétées pseudogènes Université dAngers - Maîtrise de Biologie Cellulaire

3 3 Taille des génômes ? Mycoplasma genitalium : 0,6 Mb Escherichia coli : 4,7 Mb Saccharomyces. cerevisiae : 13,5 Mb C. elegans : 100 Mb Amoeba dubia : Mb Fugu rubripes : 400 Mb Homo sapiens : 3400 Mb Amphibiens : Mb Prokaryotes Eukaryotes Université dAngers - Maîtrise de Biologie Cellulaire

4 4 Gènes et éléments fonctionnels dans les génomes H. sapiens Taille du génôme : x1000 Nombre de gènes : x10 E. coli Gènes protéiques ARN Non codant ? Université dAngers - Maîtrise de Biologie Cellulaire

5 5 Proportion déléments « fonctionnels » dans le génôme humain 85 % dADN sans fonctions connues Université dAngers - Maîtrise de Biologie Cellulaire

6 6 Gène protéique eucaryote type promoteurexonsintronssite de polyadénylation TRANSCRIPTION MATURATION AAAAA ATGSTOP Traduction Régions non traduites (UTR) Régions traduites (CDS) AGGTAGGT point de branchement signaux dépissage donneuraccepteur ADN préARNm ARNm Protéine Université dAngers - Maîtrise de Biologie Cellulaire

7 7 Structure dun gène protéique humain ATG polyA STOP Epissage alternatif dans 30% des gènes Tailles moyennes Université dAngers - Maîtrise de Biologie Cellulaire

8 8 Doù provient la complexité du génôme humain ? NOYAU CELLULE ADN TRANSCRIPTION REVERSE TRANSCRIPTION INTEGRATION RETROVIRUS Transcriptase inverse LINE(s) : long interspersed elements (6-8 kb) SINE(s) : short interspersed elements ( bp) Rétrovirus endogènes (5-10 kb) Rétroéléments Pseudogènes : après la duplication dun gène Evolution vers une nouvelle fonction Inactivation dun gène gène élément répété crossing-over inégal mutation Université dAngers - Maîtrise de Biologie Cellulaire

9 9 Doù provient la complexité du génome humain ? Rétropseudogènes à dans le génome humain dérivé de gènes ubiquitaires gènepromoteur AAAA transcription et maturation mRNA ADN rétrotranscription et intégration AAAA DNA Université dAngers - Maîtrise de Biologie Cellulaire

10 10 Lalignement des séquences biologiques : pourquoi ? Identification de gènes homologues ; Recherches de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines ; Prédictions de fonctions ; Prédictions de structures dARN et de protéines ; Reconstitution des relations évolutives entre séquences (phylogénie) ; Choix damorces pour la PCR ; Université dAngers - Maîtrise de Biologie Cellulaire

11 11 Prédiction de fonction par homologie ? SIMILARITE HOMOLOGIE CONSERVATION STRUCTURALE FONCTION CONSERVEE Prot1 TKRKLCGDSSPD Prot2 AKRKSCGDSSPD Prot1Prot2 Ancêtre commun Mais … Le concept de fonction est flou : Activité biochimique identique ? Distribution tissulaire identique ? Compartimentation identique ? Protéines homologues de fonctions différentes ? Homologues ligands dun même récepteur Homologues recrutées pour des fonctions très différentes Université dAngers - Maîtrise de Biologie Cellulaire

12 12 Histoire (Mendel) Théorie de lhérédité 1944 (Avery) ADN, support de linformation génétique 1951 (Sanger) Séquençage de linsuline 1951 (Watson & &Crick) L ADN est une double hélice 1970 Needleman & Wunsch 1970 Needleman & Wunsch 1980/1986 Création de lEMBL (1980),de GenBank (1982) et de la DDBJ (1986).Création de SwissProt (1986) 1990 (Altschul) BLAST 1978(Dayhoff) Matrices PAM 2000/ ier brouillon du génome humain 1990 (Henikoff) Matrices BLOSUM 1981 (Smith & Waterman) Smith & Waterman Université dAngers - Maîtrise de Biologie Cellulaire

13 13 Les banques de données de séquences biologiques : accessibilité sur Internet Articles et livres1968 -> 1985 Cassettes informatiques1982 ->1992 Disquettes1984 -> 1990 CD-ROM1989 -> ? Serveur FTP1989 -> ? WWW1993 -> ? DVD > ? Université dAngers - Maîtrise de Biologie Cellulaire

14 14 Les étapes du séquençage dun génome Séquence non-terminée : contigs non-orientés et non-ordonnés, gaps Séquence non-terminée : contigs orientés et ordonnés, gaps Séquence terminée HTG HUM Université dAngers - Maîtrise de Biologie Cellulaire

15 15 Les banques de données de séquences biologiques : définition Une collection de données : structurées ; indexées (table des matières) ; périodiquement mise à jour ; contenant des références croisées avec dautres banques. Elles comportent souvent des outils associés (logiciels) nécessaires pour : laccession à la banque ; la mise à jour de la banque ; … Il existe essentiellement deux catégories de banques de données : généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, … spéciaisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage,... Université dAngers - Maîtrise de Biologie Cellulaire

16 16 Les banques de données de séquences biologiques : structure dune entrée de la banque Identification de la séquence Numéro unique daccession (Accession Number - AC) Références bibliographiques Données taxinomiques Mots-clefs Annotations Références croisées avec dautres banques de données ID IL6_HUMAN STANDARD; PRT; 212 AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence].. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB]... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Université dAngers - Maîtrise de Biologie Cellulaire

17 17 Les banques de données de séquences biologiques : structure dune entrée de la banque Annotation de la séquence Séquence FT SIGNAL 1 29 FT CHAIN INTERLEUKIN-6. FT DISULFID FT DISULFID FT CARBOHYD N-LINKED (GLCNAC...). FT VARIANT P -> S. FT /FTId=VAR_ FT VARIANT D -> V. FT /FTId=VAR_ FT MUTAGEN A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN W->R: NO LOSS OF ACTIVITY. FT MUTAGEN S->P: 13% ACTIVITY. FT MUTAGEN R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE 212 AA; MW; 1F1ED1FE1B CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Fin de lentrée >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM La séquence peut être formatée : le format FASTA Entrée de SwissProtNuméro unique daccessionInformations diverses (nom, espèce, …) Université dAngers - Maîtrise de Biologie Cellulaire

18 18 Les banques de données de séquences biologiques : laquelle choisir ? AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage, BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc... Université dAngers - Maîtrise de Biologie Cellulaire

19 19 Les banques de données de séquences biologiques : accessibilité sur Internet Banques généralistes : GenBank (Etats-Unis ) : DNA DataBank of Japan (Japon ) : EMBL (Europe ) : Banques spécialisées : ProSite : Pfam : BrookHaven Protein DataBank (PDB) : FlyBase : Université dAngers - Maîtrise de Biologie Cellulaire

20 20 Une séquence : symboles, structure et fonction Alphabet de symboles (acides aminés) : chaque symbole a une signification propre ; chaque symbole a une certaine propension à être placé à côté de tel ou tel voisin ; chaque symbole peut être décrit par un descripteur binaire (1 ou 0) : d 11 d 12 d 13 d 14 AA 1 AA 2 d 21 d 22 d 23 d 24 descripteur binaire de lacide aminé 1 descripteur binaire de lacide aminé 2 d i1 : lacide aminé i est gros d i2 : lacide aminé i est chargé positivement d i3 : lacide aminé i est aromatique d i4 : lacide aminé i est soufré Exemple : descripteur binaire de la séquence GCW G : 0000 W : 1010 C : GCW Lensemble des descripteurs binaires dune séquence contient toute linformation nécessaire à la protéine pour adopter sa structure et donc sa fonction. Université dAngers - Maîtrise de Biologie Cellulaire

21 Alignement global (Needlman & Wunsch, 1970) 21 Alignement global et alignement local Protéine A Protéine B Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990) Protéine A Protéine B domaine ARNm gène Université dAngers - Maîtrise de Biologie Cellulaire

22 Opérations élémentaires dédition : opérations permettant de « passer » dune séquence à une autre ; insertions (i) : délétions (d) : substitutions (s) : A A - B C A A * * * A A C B C A A 22 Alignement : représentation A A B C A A * * * * * A A C C A A INsertion / DELétion INDEL A A B C A A * * * * * A A - C A A Université dAngers - Maîtrise de Biologie Cellulaire

23 23 Quel est le meilleur alignement ? GTTACGA *** ** GTT-GGA GTTAC-GA *** ** GTT--GGA GTTACGA *** ** GTTG-GA 5 matches 1 délétion 1 substitution (C>G) 5 matches 1 délétion 1 substitution (A>G) 5 matches 2 délétions 1 insertion Système de score : se = score élémentaire sp = pénalité dindel Université dAngers - Maîtrise de Biologie Cellulaire

24 24 Les matrices nucléiques de substitution Unitaire et unitaire inverse : Matrices évolutives : Transitions : 1 Transversions : 0 Matches : 3 A TG C Université dAngers - Maîtrise de Biologie Cellulaire

25 25 Les matrices protéiques de substitution Matrice de substitution protéique liée au code génétique Nombre de mutations nécessaires pour passer du codon d'un acide aminé au codon d'un autre acide aminé Mutation GLU LYS d ou GAA GAG AAA AAG 1 mutation sur la première base du codon Université dAngers - Maîtrise de Biologie Cellulaire

26 26 Les matrices protéiques de substitution Les matrices liées aux propriétés physico-chimiques : hydrophobie / hydrophilie (Levitt, 1976) ; propension dun acide aminé à intégrer une structure secondaire précise (Levin, 1986). Université dAngers - Maîtrise de Biologie Cellulaire

27 27 Les matrices protéiques de substitution Les matrices liées à lévolution : matrices PAM représentent les échanges possibles et acceptables dun acide aminé par un autre lors de lévolution des protéines (Dayhoff, 1978). Principe de base : si deux séquences appartiennent au même processus évolutif, et quun acide aminé de lune a été muté pour donner lautre, alors on peut supposer que les deux acides aminés sont similaires : les mutations sont dites acceptées (Point Accepted Mutation) elles ont été conservées au cours de lévolution de part leur caractère à ne pas altérer la fonction de la protéine. Les protéines évoluent via des successions de mutations ponctuelles indépendantes les unes des autres et acceptées dans la population. Université dAngers - Maîtrise de Biologie Cellulaire

28 28 La matrice de substitution PAM250 (Dayhoff, 1978) ? ? Université dAngers - Maîtrise de Biologie Cellulaire

29 29 Les matrices de substitution PAM (Dayhoff, 1978) : construction (1/4) Fréquences déchanges de paires dacides aminés Mutation fixée durablement au cours de lévolution unité de distance évolutive 1 unité PAM = une mutation ponctuelle acceptée entre deux séquences pour 100 résidus Utilisation de 71 familles (1300 protéines) de protéines à 85% identiques Construction darbres phylogénétiques Construction des matrices pour chaques couples dacides aminés échangés A ij : nombre de mutations i j acceptées observées Université dAngers - Maîtrise de Biologie Cellulaire

30 30 Les matrices de substitution PAM (Dayhoff, 1978) : construction (2/4) Mutabilité des acides aminés (m j ) Propension dun acide aminé a être remplacé par un autre acide aminé Soit lalignement suivant : Les acides aminés en jeu sont les suivants : A, D, E, F, W et R. A D E F R E A D D W R E Université dAngers - ISSBA - Option Biotechnologie

31 Université dAngers - Maîtrise de Biologie Cellulaire 31 Les matrices de substitution PAM (Dayhoff, 1978) : construction (3/4) Matrice de probabilité de mutation Calcul de la probabilité quun acide aminé i de la matrice remplace un acide aminé j : La matrice ainsi construite est appelée 1-PAM : elle définit lunité de changement évolutif, lunité PAM. Deux séquences sont séparées par une distance évolutive de 1 PAM si il y a eu 1 changement observé et accepté au cours de l'évolution pour 100 acides aminés. Matrice « odds » Chaque élément de la matrice est divisé par la fréquence doccurrence de chaque acide aminé

32 32 Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4) Matrice « log-odds » Elle est calculée en prenant le logarithme de la matrice précedente : Cette matrice peut être utilisée pour simuler l'évolution en utilisant un générateur de nombres aléatoires afin de prédire le devenir de chaque résidu et ceci en accord avec les probabilités données dans la table. Les opérations suivantes sont équivalentes : - applications successives de 1-PAM sur une séquence ; - multiplication de la matrice 1-PAM par elle-même puis application à une séquence : - rééchelonnage des éléments de 1-PAM par une constante de proportionnalité suivi de l'application à une séquence : Université dAngers - Maîtrise de Biologie Cellulaire

33 33 Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4) Utilisation de la matrice PAM Twilight Zone Distances (en % de différences) PAM Université dAngers - Maîtrise de Biologie Cellulaire

34 34 La matrice de substitution PAM250 (Dayhoff, 1978) Les aromatiques sont peu mutables Lasparagine et lalanine sont plus mutables que les acides aminés aromatiques Université dAngers - Maîtrise de Biologie Cellulaire

35 35 Les matrices protéiques de substitution Les matrices de type BLOSUM (BLOcks Substitution Matrix) observation de blocs dacides aminés issus de protéines relativement éloignées ; chaque bloc provient dalignements multiples sans insertions / délétions de courtes régions conservées ; les blocs sont utilisés pour regrouper tous les segments de séquences ayant un pourcentage didentité minimum au sein de leur bloc ; on en déduit des fréquences de substitution pour chaque paire dacides aminés ; on calcule une matrice logarithmique de probabilité ; à chaque pourcentage didentité correspond une matrice : BLOSUM50 avec un seuil didentité de 50 % ; BLOSUM62 avec un seuil didentité de 62 %. 50% BLOSUM50 Fréquences de substitution pour chaque acide aminé Université dAngers - Maîtrise de Biologie Cellulaire

36 36 Quelle matrice de substitution choisir ? Pas de matrice idéale ; Les matrices dérivées des mutations observées donnent, pour les protéines, de meilleurs résultats que les matrices basées sur lidentité, le code génétique ou les propriétés physico-chimiques. Matrices PAM établies par M. Dayhoff (1978) : donnent un trop grand poids aux identités ; négligent trop les ressemblances structurales ; PAM250 : séquences éloignées, faible identité ; PAM125 : séquences proches, identité élevée. Matrices BLOSUM (1992) : construites à partir de plus de données ; BLOSUM62 : séquences proches, identité élevée ; BLOSUM30 : séquences éloignées, identité faible. Barton, G.J. (1996), « Protein Sequence Alignment and Database Scanning », In: Protein Structure Prediction : A Practical Approach (Ed. M.J.E. Sternberg), IRL Press at Oxford University Press. Identité PAMBLOSUM Université dAngers - Maîtrise de Biologie Cellulaire

37 37 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Soient 2 séquences A et B de longueur respective m et n ; Soient i et j 2 acides aminés quelconques de A et B. Construction dune matrice de comparaison (m,n) Matrice transformée par laddition de scores Chemin des scores maxima Université dAngers - Maîtrise de Biologie Cellulaire

38 38 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement global des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 Matrice initiale x = i+1 j

39 39 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 Matrice initialeMatrice en cours de transformation S(R,H) = se(R,H) + max S(x,y) se(R,H) = 2 S(x,y) S(D,E) = 7 S(A,E) = 2 S(F,E) = -5 S(D,A) = 2 S(D,L) = -4 Université dAngers - Maîtrise de Biologie Cellulaire

40 40 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 Matrice transformée et chemin des scores maxima Listing dédition substitution insertion dans i délétion dans j insertion dans j délétion dans i V T - E E R D A F L T S H E - - A L Université dAngers - Maîtrise de Biologie Cellulaire

41 41 Alignement global : limites Les deux séquences présentent une similarité que lalignement global ne révèle pas : G G C T G A C C A C C - T T | | | | | | | G A - T C A C T T C C A T G G G C T G A C C A C C T T | | | | | | | G A T C A C - T T C C A T G Un alignement local aurait donné le résultat suivant : Université dAngers - Maîtrise de Biologie Cellulaire

42 42 Alignement local : Smith & Waterman (1981) Nimporte quelle cellule de la matrice de comparaison peut être prise comme point de départ pour le calcul des scores sommes ; Tout score somme qui devient négatif stoppe la progression du calcul. Cette nouvelle case peut être initialisée à 0 et constituer un nouveau point de départ. Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initialeMatrice dont les scores négatifs ont été supprimés Université dAngers - Maîtrise de Biologie Cellulaire

43 43 Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initiale x = i+1 j+2

44 44 Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initialeMatrice en cours de transformation S(R,H) = se(R,H) + max S(x,y) se(R,H) = 2 P = 6 S(x,y) S(D,E) = 7 S(F,E) = -6 S(D,L) = -6 Université dAngers - Maîtrise de Biologie Cellulaire

45 45 Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice transformée et chemin des scores maxima Listing dédition substitution insertion dans i délétion dans j insertion dans j délétion dans i 3 : E E R D A F : 8 2 : T S H E A L : 7 Université dAngers - Maîtrise de Biologie Cellulaire

46 46 Alignement local : recherches de similitudes dans les banques de séquences Pourquoi ? Savoir si ma séquence ressemble à d'autres déjà connues Trouver toutes les séquences d'une même famille Rechercher toutes les séquences qui contiennent un motif donné Outils grand volume de texte à traîter programmes classiques dalignement inutilisables utilisation dheuristiques programmes BLAST et FASTA le résultat n est pas garanti comme étant le meilleur Université dAngers - Maîtrise de Biologie Cellulaire

47 47 BLAST : Basic Local Alignment Search Tool (Altschul et al, 1990) Recherche de régions sans insertions / délétions riches en similarité ; Détermination dune longueur de mot : w = 2 ou 3 acides aminés pour les protéines ; Hachage de la séquence « requête » en mot de taille w … Liste de mots voisins de longueur w ayant un score supérieur à un seuil T fixé par rapport au mot m. Séquence requête m Chaque mot similaire au mot m est comparé à chaque mot de taille w pris dans chaque séquence B i de la banque. Lorsquun mot dune séquence B i est identique à un mot de la liste de mots voisins, un hit est enregistré. Pour chaque hit, le programme effectue une extension sans gap de lalignement dans les deux sens. Lextension sarrête quand le score du mot étendu diminue de plus quun seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP). Université dAngers - Maîtrise de Biologie Cellulaire

48 48 BLAST : exemple S L A A L L N K C K T P Q G Q R L V N Q W m(w=3) P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N Liste de mots voisins Score seuil T = 13 Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W L A + + L + T P G R W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310 High Scoring Pairs (HSP) S( P, P ) = 7 S( Q, R ) = 1 S( G, G ) = 6 X T Université dAngers - Maîtrise de Biologie Cellulaire

49 49 BLAST : Approche à adopter Choix de lalgorithme ; Matrice de substitution ; Stratégie de recherche : nucléique ou protéique ; Traitement du bruit de fond. BLAST Paramètres par défaut Filtrage BLAST Adaptation des paramètres FASTA Adaptation des paramètres FASTA Paramètres par défaut Université dAngers - Maîtrise de Biologie Cellulaire

50 50 BLAST : Choix du programme SEQUENCEBANQUE Protéique Nucléique TT TT BLASTP BLASTN TBLASTX TBLASTN BLASTX Université dAngers - Maîtrise de Biologie Cellulaire

51 51 BLAST sur Internet : Requête(1/8) séquence requête choix de la base de données Université dAngers - Maîtrise de Biologie Cellulaire

52 52 BLAST sur Internet : Paramètres (2/8) Limiter la recherche à une espèce Filtre pour les séquences de faible complexité E-value limite Taille w du mot m Choix de la matrice et gestion des indels Position Specific Score Matrix PSI - BLAST Options supplémentaires Motif PHI - BLAST Université dAngers - Maîtrise de Biologie Cellulaire

53 53 BLAST sur Internet : Format de la sortie (3/8) Limiter l affichage des résultats à une espèce Limiter laffichage des résultats à une plage de valeur dE-value Pour recevoir les résultats par Université dAngers - Maîtrise de Biologie Cellulaire

54 54 BLAST sur Internet : Fichier de sortie (5/8) Séquence requête Banques de données choisies Université dAngers - Maîtrise de Biologie Cellulaire

55 55 BLAST sur Internet : Fichier de sortie (6/8) Répartition des hits en fonction du score Nombres de hits Université dAngers - Maîtrise de Biologie Cellulaire

56 56 BLAST sur Internet : Fichier de sortie (7/8) Université dAngers - Maîtrise de Biologie Cellulaire

57 57 BLAST sur Internet : Fichier de sortie (8/8) Université dAngers - Maîtrise de Biologie Cellulaire


Télécharger ppt "Université dAngers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32."

Présentations similaires


Annonces Google