La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à la Bioinformatique David Perret INSERM U564

Présentations similaires


Présentation au sujet: "Introduction à la Bioinformatique David Perret INSERM U564"— Transcription de la présentation:

1 Introduction à la Bioinformatique David Perret INSERM U564
4, rue Larrey 49033 Angers Cedex 01 Université d’Angers - Maîtrise de Biologie Cellulaire 1

2 Qu’est-ce qu’un génôme ?
Des gènes : portions d’ADN codant des protéines portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, … portions d ’ADN codant des ARN non traduits Eléments régulateurs : promoteurs, enhancers, … Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, … Séquences non fonctionnelles : séquences non codantes séquences répétées pseudogènes Université d’Angers - Maîtrise de Biologie Cellulaire 2

3 Taille des génômes ? Mycoplasma genitalium : 0,6 Mb Prokaryotes
Escherichia coli : 4,7 Mb Eukaryotes Saccharomyces. cerevisiae : 13,5 Mb C. elegans : 100 Mb Fugu rubripes : 400 Mb Homo sapiens : 3400 Mb Amphibiens : Mb Amoeba dubia : Mb Université d’Angers - Maîtrise de Biologie Cellulaire 3

4 ? Gènes et éléments fonctionnels dans les génomes E. coli H. sapiens
Taille du génôme : x1000 Nombre de gènes : x10 Gènes protéiques ARN Non codant Université d’Angers - Maîtrise de Biologie Cellulaire 4

5 Proportion d’éléments « fonctionnels » dans le génôme humain
85 % d’ADN sans fonctions connues Université d’Angers - Maîtrise de Biologie Cellulaire 5

6 Gène protéique eucaryote type
promoteur exons introns site de polyadénylation ADN TRANSCRIPTION préARNm MATURATION signaux d’épissage donneur accepteur AAAAA ARNm ATG STOP AG GT AG GT Traduction Régions non traduites (UTR) Régions traduites (CDS) point de branchement Protéine Université d’Angers - Maîtrise de Biologie Cellulaire 6

7 Structure d’un gène protéique humain
ATG polyA STOP Tailles moyennes Epissage alternatif dans 30% des gènes Université d’Angers - Maîtrise de Biologie Cellulaire 7

8 D’où provient la complexité du génôme humain ?
Rétroéléments NOYAU CELLULE ADN TRANSCRIPTION REVERSE INTEGRATION RETROVIRUS Transcriptase inverse LINE(s) : long interspersed elements (6-8 kb) SINE(s) : short interspersed elements ( bp) Rétrovirus endogènes (5-10 kb) gène élément répété crossing-over inégal mutation Pseudogènes : après la duplication d’un gène Evolution vers une nouvelle fonction Inactivation d’un gène Université d’Angers - Maîtrise de Biologie Cellulaire 8

9 D’où provient la complexité du génome humain ?
Rétropseudogènes 23000 à dans le génome humain dérivé de gènes ubiquitaires gène promoteur AAAA transcription et maturation mRNA ADN rétrotranscription et intégration DNA Université d’Angers - Maîtrise de Biologie Cellulaire 9

10 L’alignement des séquences biologiques : pourquoi ?
Identification de gènes homologues ; Recherches de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines ; Prédictions de fonctions ; Prédictions de structures d’ARN et de protéines ; Reconstitution des relations évolutives entre séquences (phylogénie) ; Choix d’amorces pour la PCR ; Université d’Angers - Maîtrise de Biologie Cellulaire 10

11 Prédiction de fonction par homologie ?
Mais … Le concept de fonction est flou : Activité biochimique identique ? Distribution tissulaire identique ? Compartimentation identique ? Protéines homologues de fonctions différentes ? Homologues ligands d’un même récepteur Homologues recrutées pour des fonctions très différentes Prot1 TKRKLCGDSSPD Prot2 AKRKSCGDSSPD SIMILARITE Prot1 Prot2 Ancêtre commun HOMOLOGIE CONSERVATION STRUCTURALE FONCTION CONSERVEE Université d’Angers - Maîtrise de Biologie Cellulaire 11

12 Séquençage de l’insuline
Histoire 1900 2000 1865 (Mendel) Théorie de l’hérédité 1944 (Avery) ADN, support de l’information génétique 1951 (Watson & &Crick) L ’ADN est une double hélice 1978(Dayhoff) Matrices PAM 1951 (Sanger) Séquençage de l’insuline 1970 Needleman & Wunsch 1970 Needleman & Wunsch 1980/1986 Création de l’EMBL (1980) ,de GenBank (1982) et de la DDBJ (1986).Création de SwissProt (1986) 2000/2001 1ier brouillon du génome humain 1990 (Altschul) BLAST 1981 (Smith & Waterman) Smith & Waterman 1990 (Henikoff) Matrices BLOSUM Université d’Angers - Maîtrise de Biologie Cellulaire 12

13 Articles et livres 1968 -> 1985
Les banques de données de séquences biologiques : accessibilité sur Internet Articles et livres > 1985 Cassettes informatiques >1992 Disquettes > 1990 CD-ROM > ? Serveur FTP > ? WWW > ? DVD > ? Université d’Angers - Maîtrise de Biologie Cellulaire 13

14 1 2 3 Les étapes du séquençage d’un génome
1 Séquence non-terminée : contigs non-orientés et non-ordonnés, gaps HTG 2 Séquence non-terminée : contigs orientés et ordonnés, gaps 3 HUM Séquence terminée Université d’Angers - Maîtrise de Biologie Cellulaire 14

15 Les banques de données de séquences biologiques : définition
Une collection de données : structurées ; indexées (table des matières) ; périodiquement mise à jour ; contenant des références croisées avec d’autres banques. Elles comportent souvent des outils associés (logiciels) nécessaires pour : l’accession à la banque ; la mise à jour de la banque ; Il existe essentiellement deux catégories de banques de données : généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, … spéciaisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage, ... Université d’Angers - Maîtrise de Biologie Cellulaire 15

16 Les banques de données de séquences biologiques : structure d’une entrée de la banque
Identification de la séquence ID IL6_HUMAN STANDARD; PRT; AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] .. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB] ... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Numéro unique d’accession (Accession Number - AC) Données taxinomiques Références bibliographiques Annotations Références croisées avec d’autres banques de données Mots-clefs Université d’Angers - Maîtrise de Biologie Cellulaire 16

17 Les banques de données de séquences biologiques : structure d’une entrée de la banque
FT SIGNAL FT CHAIN INTERLEUKIN-6. FT DISULFID FT DISULFID FT CARBOHYD N-LINKED (GLCNAC...). FT VARIANT P -> S. FT /FTId=VAR_ FT VARIANT D -> V. FT /FTId=VAR_ FT MUTAGEN A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN W->R: NO LOSS OF ACTIVITY. FT MUTAGEN S->P: 13% ACTIVITY. FT MUTAGEN R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE AA; MW; 1F1ED1FE1B CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Annotation de la séquence Séquence Fin de l’entrée La séquence peut être formatée : le format FASTA Entrée de SwissProt Numéro unique d’accession Informations diverses (nom, espèce, …) >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM Université d’Angers - Maîtrise de Biologie Cellulaire 17

18 Les banques de données de séquences biologiques : laquelle choisir ?
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage, BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc ... Université d’Angers - Maîtrise de Biologie Cellulaire 18

19 Les banques de données de séquences biologiques : accessibilité sur Internet
Banques généralistes : GenBank (Etats-Unis ) : DNA DataBank of Japan (Japon ) : EMBL (Europe ) : Banques spécialisées : ProSite : Pfam : BrookHaven Protein DataBank (PDB) : FlyBase : Université d’Angers - Maîtrise de Biologie Cellulaire 19

20 Une séquence : symboles, structure et fonction
Alphabet de symboles (acides aminés) : chaque symbole a une signification propre ; chaque symbole a une certaine propension à être placé à côté de tel ou tel voisin ; chaque symbole peut être décrit par un descripteur binaire (1 ou 0) : AA1 AA2 di1 : l’acide aminé i est gros di2 : l’acide aminé i est chargé positivement di3 : l’acide aminé i est aromatique di4 : l’acide aminé i est soufré d11 d12 d13 d14 d21 d22 d23 d24 descripteur binaire de l’acide aminé 1 descripteur binaire de l’acide aminé 2 Exemple : descripteur binaire de la séquence GCW L’ensemble des descripteurs binaires d’une séquence contient toute l’information nécessaire à la protéine pour adopter sa structure et donc sa fonction. G : 0000 G C W C : 0001 W : 1010 Université d’Angers - Maîtrise de Biologie Cellulaire 20

21 Alignement global et alignement local
Alignement global (Needlman & Wunsch, 1970) Protéine A Protéine B Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990) Protéine A Protéine B domaine ARNm gène Université d’Angers - Maîtrise de Biologie Cellulaire 21

22 Alignement : représentation
Opérations élémentaires d’édition : opérations permettant de « passer » d’une séquence à une autre ; insertions (i) : délétions (d) : substitutions (s) : A A - B C A A * * * * * * A A C B C A A INsertion / DELétion INDEL A A B C A A * * * * * A A - C A A A A B C A A * * * * * A A C C A A Université d’Angers - Maîtrise de Biologie Cellulaire 22

23 Quel est le meilleur alignement ?
GTTACGA *** ** GTT-GGA GTTACGA *** ** GTTG-GA GTTAC-GA *** ** GTT--GGA 5 matches 1 délétion 1 substitution (C>G) 5 matches 1 délétion 1 substitution (A>G) 5 matches 2 délétions 1 insertion Système de score : se = score élémentaire sp = pénalité d’indel Université d’Angers - Maîtrise de Biologie Cellulaire 23

24 A T G C Les matrices nucléiques de substitution
Unitaire et unitaire inverse : Matrices évolutives : A T G C Matches : 3 Transitions : 1 Transversions : 0 Université d’Angers - Maîtrise de Biologie Cellulaire 24

25 Les matrices protéiques de substitution
Matrice de substitution protéique liée au code génétique Nombre de mutations nécessaires pour passer du codon d'un acide aminé au codon d'un autre acide aminé Mutation GLU LYS d ’ou GAA GAG AAA AAG 1 mutation sur la première base du codon Université d’Angers - Maîtrise de Biologie Cellulaire 25

26 Les matrices protéiques de substitution
Les matrices liées aux propriétés physico-chimiques : hydrophobie / hydrophilie (Levitt, 1976) ; propension d’un acide aminé à intégrer une structure secondaire précise (Levin, 1986). Université d’Angers - Maîtrise de Biologie Cellulaire 26

27 Les matrices protéiques de substitution
Les matrices liées à l’évolution : matrices PAM représentent les échanges possibles et acceptables d’un acide aminé par un autre lors de l’évolution des protéines (Dayhoff, 1978). Principe de base : si deux séquences appartiennent au même processus évolutif, et qu’un acide aminé de l’une a été muté pour donner l’autre, alors on peut supposer que les deux acides aminés sont similaires : les mutations sont dites acceptées (Point Accepted Mutation) elles ont été conservées au cours de l’évolution de part leur caractère à ne pas altérer la fonction de la protéine. Les protéines évoluent via des successions de mutations ponctuelles indépendantes les unes des autres et acceptées dans la population. Université d’Angers - Maîtrise de Biologie Cellulaire 27

28 ? ? La matrice de substitution PAM250 (Dayhoff, 1978)
Université d’Angers - Maîtrise de Biologie Cellulaire 28

29 Les matrices de substitution PAM (Dayhoff, 1978) : construction (1/4)
Fréquences d’échanges de paires d’acides aminés Mutation fixée durablement au cours de l’évolution unité de distance évolutive 1 unité PAM = une mutation ponctuelle acceptée entre deux séquences pour 100 résidus Utilisation de 71 familles (1300 protéines) de protéines à 85% identiques Construction d’arbres phylogénétiques Construction des matrices pour chaques couples d’acides aminés échangés Aij : nombre de mutations i j acceptées observées Université d’Angers - Maîtrise de Biologie Cellulaire 29

30 Les matrices de substitution PAM (Dayhoff, 1978) : construction (2/4)
Mutabilité des acides aminés (mj) Propension d’un acide aminé a être remplacé par un autre acide aminé Soit l’alignement suivant : Les acides aminés en jeu sont les suivants : A, D, E, F, W et R. A D E F R E A D D W R E Université d’Angers - ISSBA - Option Biotechnologie 30

31 Les matrices de substitution PAM (Dayhoff, 1978) : construction (3/4)
Matrice de probabilité de mutation Calcul de la probabilité qu’un acide aminé i de la matrice remplace un acide aminé j : La matrice ainsi construite est appelée 1-PAM : elle définit l’unité de changement évolutif, l’unité PAM. Deux séquences sont séparées par une distance évolutive de 1 PAM si il y a eu 1 changement observé et accepté au cours de l'évolution pour 100 acides aminés. Matrice « odds » Chaque élément de la matrice est divisé par la fréquence d’occurrence de chaque acide aminé Université d’Angers - Maîtrise de Biologie Cellulaire 31

32 Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4)
Matrice « log-odds » Elle est calculée en prenant le logarithme de la matrice précedente : Cette matrice peut être utilisée pour simuler l'évolution en utilisant un générateur de nombres aléatoires afin de prédire le devenir de chaque résidu et ceci en accord avec les probabilités données dans la table. Les opérations suivantes sont équivalentes : - applications successives de 1-PAM sur une séquence ; - multiplication de la matrice 1-PAM par elle-même puis application à une séquence : - rééchelonnage des éléments de 1-PAM par une constante de proportionnalité suivi de l'application à une séquence : Université d’Angers - Maîtrise de Biologie Cellulaire 32

33 Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4)
Utilisation de la matrice PAM Twilight Zone Distances (en % de différences) PAM Université d’Angers - Maîtrise de Biologie Cellulaire 33

34 L’asparagine et l’alanine sont
La matrice de substitution PAM250 (Dayhoff, 1978) L’asparagine et l’alanine sont plus mutables que les acides aminés aromatiques Les aromatiques sont peu mutables Université d’Angers - Maîtrise de Biologie Cellulaire 34

35 Les matrices protéiques de substitution
Les matrices de type BLOSUM (BLOcks Substitution Matrix) observation de blocs d’acides aminés issus de protéines relativement éloignées ; chaque bloc provient d’alignements multiples sans insertions / délétions de courtes régions conservées ; les blocs sont utilisés pour regrouper tous les segments de séquences ayant un pourcentage d’identité minimum au sein de leur bloc ; on en déduit des fréquences de substitution pour chaque paire d’acides aminés ; on calcule une matrice logarithmique de probabilité ; à chaque pourcentage d’identité correspond une matrice : BLOSUM50 avec un seuil d’identité de 50 % ; BLOSUM62 avec un seuil d’identité de 62 %. 50% BLOSUM50 Fréquences de substitution pour chaque acide aminé Université d’Angers - Maîtrise de Biologie Cellulaire 35

36 Quelle matrice de substitution choisir ?
BLOSUM Identité PAM Pas de matrice idéale ; Les matrices dérivées des mutations observées donnent, pour les protéines, de meilleurs résultats que les matrices basées sur l’identité, le code génétique ou les propriétés physico-chimiques. Matrices PAM établies par M. Dayhoff (1978) : donnent un trop grand poids aux identités ; négligent trop les ressemblances structurales ; PAM250 : séquences éloignées, faible identité ; PAM125 : séquences proches, identité élevée. Matrices BLOSUM (1992) : construites à partir de plus de données ; BLOSUM62 : séquences proches, identité élevée ; BLOSUM30 : séquences éloignées, identité faible. Barton, G.J. (1996), « Protein Sequence Alignment and Database Scanning », In: Protein Structure Prediction : A Practical Approach (Ed. M.J.E. Sternberg), IRL Press at Oxford University Press. 100 90 90 80 50 70 62 60 50 50 100 40 120 30 30 20 250 10 Université d’Angers - Maîtrise de Biologie Cellulaire 36

37 matrice de comparaison
Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Soient 2 séquences A et B de longueur respective m et n ; Soient i et j 2 acides aminés quelconques de A et B. Construction d’une matrice de comparaison (m,n) Matrice transformée par l’addition de scores Chemin des scores maxima Université d’Angers - Maîtrise de Biologie Cellulaire 37

38 Alignement global et programmation dynamique : Needlemann & Wunsch (1970)
Exemple : Alignement global des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 i i<xm y = j+1 j x = i+1 j<yn Matrice initiale Transformation de la matrice initiale Université d’Angers - Maîtrise de Biologie Cellulaire 38

39 Matrice en cours de transformation
Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 S(R,H) = se(R,H) + max S(x,y) se(R,H) = 2 S(x,y)  S(D,E) = 7  S(A,E) = 2  S(F,E) = -5  S(D,A) = 2  S(D,L) = -4 Matrice initiale Matrice en cours de transformation Université d’Angers - Maîtrise de Biologie Cellulaire 39

40 et chemin des scores maxima
Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 substitution insertion dans i délétion dans j insertion dans j délétion dans i V T - E E R D A F L T S H E - - A L Matrice transformée et chemin des scores maxima Listing d’édition Université d’Angers - Maîtrise de Biologie Cellulaire 40

41 G G C T G A C C A C C - T T | | | | | | | G A - T C A C T T C C A T G
Alignement global : limites Les deux séquences présentent une similarité que l’alignement global ne révèle pas : G G C T G A C C A C C - T T | | | | | | | G A - T C A C T T C C A T G Un alignement local aurait donné le résultat suivant : G G C T G A C C A C C T T | | | | | | | G A T C A C - T T C C A T G Université d’Angers - Maîtrise de Biologie Cellulaire 41

42 Alignement local : Smith & Waterman (1981)
N’importe quelle cellule de la matrice de comparaison peut être prise comme point de départ pour le calcul des scores sommes ; Tout score somme qui devient négatif stoppe la progression du calcul. Cette nouvelle case peut être initialisée à 0 et constituer un nouveau point de départ. Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initiale Matrice dont les scores négatifs ont été supprimés Université d’Angers - Maîtrise de Biologie Cellulaire 42

43 Alignement local : Smith & Waterman (1981)
Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 i i+2<xm y = j+1 j x = i+1 j+2<yn Matrice initiale Transformation de la matrice initiale Université d’Angers - Maîtrise de Biologie Cellulaire 43

44 Matrice en cours de transformation
Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 S(R,H) = se(R,H) + max S(x,y) se(R,H) = 2 P = 6 S(x,y)  S(D,E) = 7  S(F,E) = -6  S(D,L) = -6 Matrice initiale Matrice en cours de transformation Université d’Angers - Maîtrise de Biologie Cellulaire 44

45 et chemin des scores maxima
Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 substitution insertion dans i délétion dans j insertion dans j délétion dans i 3 : E E R D A F : 8 2 : T S H E A L : 7 Matrice transformée et chemin des scores maxima Listing d’édition Université d’Angers - Maîtrise de Biologie Cellulaire 45

46 Alignement local : recherches de similitudes dans les banques de séquences
Pourquoi ? Savoir si ma séquence ressemble à d'autres déjà connues Trouver toutes les séquences d'une même famille Rechercher toutes les séquences qui contiennent un motif donné Outils grand volume de texte à traîter programmes classiques d’alignement inutilisables utilisation d’heuristiques programmes BLAST et FASTA le résultat n ’est pas garanti comme étant le meilleur Université d’Angers - Maîtrise de Biologie Cellulaire 46

47 BLAST : Basic Local Alignment Search Tool (Altschul et al, 1990)
Recherche de régions sans insertions / délétions riches en similarité ; Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ; Hachage de la séquence « requête » en mot de taille w Séquence requête m Liste de mots voisins de longueur w ayant un score supérieur à un seuil T fixé par rapport au mot m. Chaque mot similaire au mot m est comparé à chaque mot de taille w pris dans chaque séquence Bi de la banque. Lorsqu’un mot d’une séquence Bi est identique à un mot de la liste de mots voisins, un hit est enregistré. Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP). Université d’Angers - Maîtrise de Biologie Cellulaire 47

48 BLAST : exemple S(P,P) = 7 S(Q,R) = 1 S(G,G) = 6 X T m(w=3)
S L A A L L N K C K T P Q G Q R L V N Q W P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N 12 ... S(P,P) = 7 S(Q,R) = 1 S(G,G) = 6 X T Liste de mots voisins Score seuil T = 13 Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L T P G R W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310 High Scoring Pairs (HSP) Université d’Angers - Maîtrise de Biologie Cellulaire 48

49 BLAST : Approche à adopter
Choix de l’algorithme ; Matrice de substitution ; Stratégie de recherche : nucléique ou protéique ; Traitement du bruit de fond. FASTA Paramètres par défaut BLAST Paramètres par défaut Filtrage FASTA Adaptation des paramètres BLAST Adaptation des paramètres Université d’Angers - Maîtrise de Biologie Cellulaire 49

50 T T T T BLAST : Choix du programme SEQUENCE BANQUE Protéique Protéique
BLASTP Protéique Protéique BLASTX TBLASTN T T BLASTN Nucléique Nucléique T TBLASTX T Université d’Angers - Maîtrise de Biologie Cellulaire 50

51 BLAST sur Internet : Requête(1/8)
séquence requête choix de la base de données Université d’Angers - Maîtrise de Biologie Cellulaire 51

52 BLAST sur Internet : Paramètres (2/8)
Limiter la recherche à une espèce Filtre pour les séquences de faible complexité E-value limite Taille w du mot m Choix de la matrice et gestion des indels Position Specific Score Matrix PSI - BLAST Options supplémentaires Motif PHI - BLAST Université d’Angers - Maîtrise de Biologie Cellulaire 52

53 BLAST sur Internet : Format de la sortie (3/8)
Limiter l ’affichage des résultats à une espèce Limiter l’affichage des résultats à une plage de valeur d’E-value Pour recevoir les résultats par Université d’Angers - Maîtrise de Biologie Cellulaire 53

54 BLAST sur Internet : Fichier de sortie (5/8)
Séquence requête Banques de données choisies Université d’Angers - Maîtrise de Biologie Cellulaire 54

55 BLAST sur Internet : Fichier de sortie (6/8)
Nombres de hits Répartition des hits en fonction du score Université d’Angers - Maîtrise de Biologie Cellulaire 55

56 BLAST sur Internet : Fichier de sortie (7/8)
Université d’Angers - Maîtrise de Biologie Cellulaire 56

57 BLAST sur Internet : Fichier de sortie (8/8)
Université d’Angers - Maîtrise de Biologie Cellulaire 57


Télécharger ppt "Introduction à la Bioinformatique David Perret INSERM U564"

Présentations similaires


Annonces Google