Université d’Angers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey Angers Cedex 01.

Université d’Angers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey 49033 Angers Cedex 01 02.41.35.47.32 david.perret@etud.univ-angers.fr

2 Qu’est-ce qu’un génôme ? Des gènes : portions d’ADN codant des protéines portions d ’ADN codant des ARN : ARNr, ARNt, ARNsn, … portions d ’ADN codant des ARN non traduits Eléments régulateurs : promoteurs, enhancers, … Eléments requis pour la réplication des chromosomes : origines de réplication, télomères, centromères, … Séquences non fonctionnelles : séquences non codantes séquences répétées pseudogènes Université d’Angers - Maîtrise de Biologie Cellulaire

3 Taille des génômes ? Mycoplasma genitalium : 0,6 Mb Escherichia coli : 4,7 Mb Saccharomyces. cerevisiae : 13,5 Mb C. elegans : 100 Mb Amoeba dubia : 700 000 Mb Fugu rubripes : 400 Mb Homo sapiens : 3400 Mb Amphibiens : 100 000 Mb Prokaryotes Eukaryotes Université d’Angers - Maîtrise de Biologie Cellulaire

4 Gènes et éléments fonctionnels dans les génomes H. sapiens Taille du génôme : x1000 Nombre de gènes : x10 E. coli Gènes protéiques ARN Non codant ? Université d’Angers - Maîtrise de Biologie Cellulaire

5 Proportion d’éléments « fonctionnels » dans le génôme humain 85 % d’ADN sans fonctions connues Université d’Angers - Maîtrise de Biologie Cellulaire

6 Gène protéique eucaryote type promoteurexonsintronssite de polyadénylation TRANSCRIPTION MATURATION AAAAA ATGSTOP Traduction Régions non traduites (UTR) Régions traduites (CDS) AGGTAGGT point de branchement signaux d’épissage donneuraccepteur ADN préARNm ARNm Protéine Université d’Angers - Maîtrise de Biologie Cellulaire

7 Structure d’un gène protéique humain ATG polyA STOP Epissage alternatif dans 30% des gènes Tailles moyennes Université d’Angers - Maîtrise de Biologie Cellulaire

8 D’où provient la complexité du génôme humain ? NOYAU CELLULE ADN TRANSCRIPTION REVERSE TRANSCRIPTION INTEGRATION RETROVIRUS Transcriptase inverse LINE(s) : long interspersed elements (6-8 kb) SINE(s) : short interspersed elements (80-300 bp) Rétrovirus endogènes (5-10 kb) Rétroéléments Pseudogènes : après la duplication d’un gène Evolution vers une nouvelle fonction Inactivation d’un gène gène élément répété crossing-over inégal mutation Université d’Angers - Maîtrise de Biologie Cellulaire

9 D’où provient la complexité du génome humain ? Rétropseudogènes 23000 à 33000 dans le génome humain dérivé de gènes ubiquitaires gènepromoteur AAAA transcription et maturation mRNA ADN rétrotranscription et intégration AAAA DNA Université d’Angers - Maîtrise de Biologie Cellulaire

10 L’alignement des séquences biologiques : pourquoi ? Identification de gènes homologues ; Recherches de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines ; Prédictions de fonctions ; Prédictions de structures d’ARN et de protéines ; Reconstitution des relations évolutives entre séquences (phylogénie) ; Choix d’amorces pour la PCR ; Université d’Angers - Maîtrise de Biologie Cellulaire

11 Prédiction de fonction par homologie ? SIMILARITE HOMOLOGIE CONSERVATION STRUCTURALE FONCTION CONSERVEE Prot1 TKRKLCGDSSPD Prot2 AKRKSCGDSSPD Prot1Prot2 Ancêtre commun Mais … Le concept de fonction est flou : Activité biochimique identique ? Distribution tissulaire identique ? Compartimentation identique ? Protéines homologues de fonctions différentes ? Homologues ligands d’un même récepteur Homologues recrutées pour des fonctions très différentes Université d’Angers - Maîtrise de Biologie Cellulaire

12 Histoire 1900 2000 1865 (Mendel) Théorie de l’hérédité 1944 (Avery) ADN, support de l’information génétique 1951 (Sanger) Séquençage de l’insuline 1951 (Watson & &Crick) L ’ADN est une double hélice 1970 Needleman & Wunsch 1970 Needleman & Wunsch 1980/1986 Création de l’EMBL (1980),de GenBank (1982) et de la DDBJ (1986).Création de SwissProt (1986) 1990 (Altschul) BLAST 1978(Dayhoff) Matrices PAM 2000/2001 1 ier brouillon du génome humain 1990 (Henikoff) Matrices BLOSUM 1981 (Smith & Waterman) Smith & Waterman Université d’Angers - Maîtrise de Biologie Cellulaire

13 Les banques de données de séquences biologiques : accessibilité sur Internet Articles et livres1968 -> 1985 Cassettes informatiques1982 ->1992 Disquettes1984 -> 1990 CD-ROM1989 -> ? Serveur FTP1989 -> ? WWW1993 -> ? DVD 2001 -> ? Université d’Angers - Maîtrise de Biologie Cellulaire

14 Les étapes du séquençage d’un génome 0 1 2 3 Séquence non-terminée : contigs non-orientés et non-ordonnés, gaps Séquence non-terminée : contigs orientés et ordonnés, gaps Séquence terminée HTG HUM Université d’Angers - Maîtrise de Biologie Cellulaire

15 Les banques de données de séquences biologiques : définition Une collection de données : structurées ; indexées (table des matières) ; périodiquement mise à jour ; contenant des références croisées avec d’autres banques. Elles comportent souvent des outils associés (logiciels) nécessaires pour : l’accession à la banque ; la mise à jour de la banque ; … Il existe essentiellement deux catégories de banques de données : généralistes : GenBank, EMBL, DDBJ, SwissProt, PIR, … spéciaisées : PDB, ProSite, BLOCKS, Pfam, Swiss-3Dimage,... Université d’Angers - Maîtrise de Biologie Cellulaire

16 Les banques de données de séquences biologiques : structure d’une entrée de la banque Identification de la séquence Numéro unique d’accession (Accession Number - AC) Références bibliographiques Données taxinomiques Mots-clefs Annotations Références croisées avec d’autres banques de données ID IL6_HUMAN STANDARD; PRT; 212 AA. AC P05231; DT 13-AUG-1987 (Rel. 05, Created) DT 13-AUG-1987 (Rel. 05, Last sequence update) DT 01-MAR-2002 (Rel. 41, Last annotation update) DE Interleukin-6 precursor (IL-6) (B-cell stimulatory factor 2) (BSF-2) DE (Interferon beta-2) (Hybridoma growth factor). GN IL6 OR IFNB2. OS Homo sapiens (Human). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. OX NCBI_TaxID=9606; RN [1] RP SEQUENCE FROM N.A., AND PARTIAL SEQUENCE. RX MEDLINE=87065033; PubMed=3491322; [NCBI, ExPASy, EBI, Israel, Japan] RA Hirano T., Yasukawa K., Harada H., Taga T., Watanabe Y., Matsuda T., RA Kashiwamura S.-I., Nakajima K., Koyama K., Iwamatsu A., Tsunasawa S., RA Sakiyama F., Matsui H., Takahara Y., Taniguchi T., Kishimoto T.; RT "Complementary DNA for a novel human interleukin (BSF-2) that induces RT B lymphocytes to produce immunoglobulin."; RL Nature 324:73-76(1986). CC -!- FUNCTION: IL6 IS A CYTOKINE WITH A WIDE VARIETY OF BIOLOGICAL CC FUNCTIONS: IT PLAYS AN ESSENTIAL ROLE IN THE FINAL DIFFERENTIATION CC OF B-CELLS INTO IG-SECRETING CELLS, IT INDUCES MYELOMA AND CC PLASMACYTOMA GROWTH, IT INDUCES NERVE CELLS DIFFERENTIATION, IN CC HEPATOCYTES IT INDUCES ACUTE PHASE REACTANTS. CC -!- SUBCELLULAR LOCATION: Secreted. CC -!- SIMILARITY: BELONGS TO THE IL-6 SUPERFAMILY. DR EMBL; X04430; CAA28026.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR EMBL; M14584; AAA52728.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence].. DR PDB; 1IL6; 04-FEB-98. [ExPASy / RCSB] DR PDB; 2IL6; 04-FEB-98. [ExPASy / RCSB]... DR Pfam; PF00489; IL6; 1. KW Cytokine; Glycoprotein; Growth factor; Signal; Polymorphism; KW 3D-structure. Université d’Angers - Maîtrise de Biologie Cellulaire

17 Les banques de données de séquences biologiques : structure d’une entrée de la banque Annotation de la séquence Séquence FT SIGNAL 1 29 FT CHAIN 30 212 INTERLEUKIN-6. FT DISULFID 72 78 FT DISULFID 101 111 FT CARBOHYD 73 73 N-LINKED (GLCNAC...). FT VARIANT 32 32 P -> S. FT /FTId=VAR_013075. FT VARIANT 162 162 D -> V. FT /FTId=VAR_013076. FT MUTAGEN 173 173 A->V: ALMOST NO LOSS OF ACTIVITY. FT MUTAGEN 185 185 W->R: NO LOSS OF ACTIVITY. FT MUTAGEN 204 204 S->P: 13% ACTIVITY. FT MUTAGEN 210 210 R->K,E,Q,T,A,P: LOSS OF ACTIVITY. FT MUTAGEN 212 212 M->T,N,S,R: LOSS OF ACTIVITY. SQ SEQUENCE 212 AA; 23718 MW; 1F1ED1FE1B734079 CRC64; MNSFSTSAFG PVAFSLGLLL VLPAAFPAPV PPGEDSKDVA APHRQPLTSS ERIDKQIRYI LDGISALRKE TCNKSNMCES SKEALAENNL NLPKMAEKDG CFQSGFNEET CLVKIITGLL EFEVYLEYLQ NRFESSEEQA RAVQMSTKVL IQFLQKKAKN LDAITTPDPT TNASLLTKLQ AQNQWLQDMT THLILRSFKE FLQSSLRALR QM // Fin de l’entrée >sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human). MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM La séquence peut être formatée : le format FASTA Entrée de SwissProtNuméro unique d’accessionInformations diverses (nom, espèce, …) Université d’Angers - Maîtrise de Biologie Cellulaire

18 Les banques de données de séquences biologiques : laquelle choisir ? AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage, BioMagResBank, BIOMDB, BLOCKS,BovGBASE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP, ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG, CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb, Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC, ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HeXAdb, HGMD, HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB, HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat, KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB, Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5 Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB, TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE, VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc... Université d’Angers - Maîtrise de Biologie Cellulaire

19 Les banques de données de séquences biologiques : accessibilité sur Internet Banques généralistes : GenBank (Etats-Unis - 1982) : http://www.ncbi.nlm.nih.gov/GenBank/ DNA DataBank of Japan (Japon - 1986) : http://www.ddbj.nig.ac.jp EMBL (Europe - 1980) : http://www.ebi.ac.uk/embl/ Banques spécialisées : ProSite : http://www.expasy.ch/prosite/ Pfam : http://www.sanger.ac.uk/Software/Pfam/index.shtml BrookHaven Protein DataBank (PDB) : http://www.rcsb.org/pdb/ FlyBase : http://flybase.harvard.edu:7081/ Université d’Angers - Maîtrise de Biologie Cellulaire

20 Une séquence : symboles, structure et fonction Alphabet de symboles (acides aminés) : chaque symbole a une signification propre ; chaque symbole a une certaine propension à être placé à côté de tel ou tel voisin ; chaque symbole peut être décrit par un descripteur binaire (1 ou 0) : d 11 d 12 d 13 d 14 AA 1 AA 2 d 21 d 22 d 23 d 24 descripteur binaire de l’acide aminé 1 descripteur binaire de l’acide aminé 2 d i1 : l’acide aminé i est gros d i2 : l’acide aminé i est chargé positivement d i3 : l’acide aminé i est aromatique d i4 : l’acide aminé i est soufré Exemple : descripteur binaire de la séquence GCW G : 0000 W : 1010 C : 0001 0000 0001 1010 GCW L’ensemble des descripteurs binaires d’une séquence contient toute l’information nécessaire à la protéine pour adopter sa structure et donc sa fonction. Université d’Angers - Maîtrise de Biologie Cellulaire

Alignement global (Needlman & Wunsch, 1970) 21 Alignement global et alignement local Protéine A Protéine B Alignement local (Smith & Waterman, 1981 ; FASTA, 1988 ; BLAST, 1990) Protéine A Protéine B domaine ARNm gène Université d’Angers - Maîtrise de Biologie Cellulaire

Opérations élémentaires d’édition : opérations permettant de « passer » d’une séquence à une autre ; insertions (i) : délétions (d) : substitutions (s) : A A - B C A A * * * A A C B C A A 22 Alignement : représentation A A B C A A * * * * * A A C C A A INsertion / DELétion INDEL A A B C A A * * * * * A A - C A A Université d’Angers - Maîtrise de Biologie Cellulaire

23 Quel est le meilleur alignement ? GTTACGA *** ** GTT-GGA GTTAC-GA *** ** GTT--GGA GTTACGA *** ** GTTG-GA 5 matches 1 délétion 1 substitution (C>G) 5 matches 1 délétion 1 substitution (A>G) 5 matches 2 délétions 1 insertion Système de score : se = score élémentaire sp = pénalité d’indel Université d’Angers - Maîtrise de Biologie Cellulaire

24 Les matrices nucléiques de substitution Unitaire et unitaire inverse : Matrices évolutives : Transitions : 1 Transversions : 0 Matches : 3 A TG C Université d’Angers - Maîtrise de Biologie Cellulaire

25 Les matrices protéiques de substitution Matrice de substitution protéique liée au code génétique Nombre de mutations nécessaires pour passer du codon d'un acide aminé au codon d'un autre acide aminé Mutation GLU LYS d ’ou GAA GAG AAA AAG 1 mutation sur la première base du codon Université d’Angers - Maîtrise de Biologie Cellulaire

26 Les matrices protéiques de substitution Les matrices liées aux propriétés physico-chimiques : hydrophobie / hydrophilie (Levitt, 1976) ; propension d’un acide aminé à intégrer une structure secondaire précise (Levin, 1986). Université d’Angers - Maîtrise de Biologie Cellulaire

27 Les matrices protéiques de substitution Les matrices liées à l’évolution : matrices PAM représentent les échanges possibles et acceptables d’un acide aminé par un autre lors de l’évolution des protéines (Dayhoff, 1978). Principe de base : si deux séquences appartiennent au même processus évolutif, et qu’un acide aminé de l’une a été muté pour donner l’autre, alors on peut supposer que les deux acides aminés sont similaires : les mutations sont dites acceptées (Point Accepted Mutation) elles ont été conservées au cours de l’évolution de part leur caractère à ne pas altérer la fonction de la protéine. Les protéines évoluent via des successions de mutations ponctuelles indépendantes les unes des autres et acceptées dans la population. Université d’Angers - Maîtrise de Biologie Cellulaire

28 La matrice de substitution PAM250 (Dayhoff, 1978) ? ? Université d’Angers - Maîtrise de Biologie Cellulaire

29 Les matrices de substitution PAM (Dayhoff, 1978) : construction (1/4)  Fréquences d’échanges de paires d’acides aminés Mutation fixée durablement au cours de l’évolution unité de distance évolutive 1 unité PAM = une mutation ponctuelle acceptée entre deux séquences pour 100 résidus Utilisation de 71 familles (1300 protéines) de protéines à 85% identiques Construction d’arbres phylogénétiques Construction des matrices pour chaques couples d’acides aminés échangés A ij : nombre de mutations i j acceptées observées      Université d’Angers - Maîtrise de Biologie Cellulaire

30 Les matrices de substitution PAM (Dayhoff, 1978) : construction (2/4)  Mutabilité des acides aminés (m j ) Propension d’un acide aminé a être remplacé par un autre acide aminé Soit l’alignement suivant : Les acides aminés en jeu sont les suivants : A, D, E, F, W et R. A D E F R E A D D W R E      Université d’Angers - ISSBA - Option Biotechnologie

Université d’Angers - Maîtrise de Biologie Cellulaire 31 Les matrices de substitution PAM (Dayhoff, 1978) : construction (3/4)  Matrice de probabilité de mutation Calcul de la probabilité qu’un acide aminé i de la matrice remplace un acide aminé j : La matrice ainsi construite est appelée 1-PAM : elle définit l’unité de changement évolutif, l’unité PAM. Deux séquences sont séparées par une distance évolutive de 1 PAM si il y a eu 1 changement observé et accepté au cours de l'évolution pour 100 acides aminés.  Matrice « odds » Chaque élément de la matrice est divisé par la fréquence d’occurrence de chaque acide aminé     

32 Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4)  Matrice « log-odds » Elle est calculée en prenant le logarithme de la matrice précedente : Cette matrice peut être utilisée pour simuler l'évolution en utilisant un générateur de nombres aléatoires afin de prédire le devenir de chaque résidu et ceci en accord avec les probabilités données dans la table. Les opérations suivantes sont équivalentes : - applications successives de 1-PAM sur une séquence ; - multiplication de la matrice 1-PAM par elle-même puis application à une séquence : - rééchelonnage des éléments de 1-PAM par une constante de proportionnalité suivi de l'application à une séquence :      Université d’Angers - Maîtrise de Biologie Cellulaire

33 Les matrices de substitution PAM (Dayhoff, 1978) : construction (4/4) Utilisation de la matrice PAM Twilight Zone Distances (en % de différences) PAM Université d’Angers - Maîtrise de Biologie Cellulaire

34 La matrice de substitution PAM250 (Dayhoff, 1978) Les aromatiques sont peu mutables L’asparagine et l’alanine sont plus mutables que les acides aminés aromatiques Université d’Angers - Maîtrise de Biologie Cellulaire

35 Les matrices protéiques de substitution Les matrices de type BLOSUM (BLOcks Substitution Matrix) observation de blocs d’acides aminés issus de protéines relativement éloignées ; chaque bloc provient d’alignements multiples sans insertions / délétions de courtes régions conservées ; les blocs sont utilisés pour regrouper tous les segments de séquences ayant un pourcentage d’identité minimum au sein de leur bloc ; on en déduit des fréquences de substitution pour chaque paire d’acides aminés ; on calcule une matrice logarithmique de probabilité ; à chaque pourcentage d’identité correspond une matrice : BLOSUM50 avec un seuil d’identité de 50 % ; BLOSUM62 avec un seuil d’identité de 62 %. 50% BLOSUM50 Fréquences de substitution pour chaque acide aminé Université d’Angers - Maîtrise de Biologie Cellulaire

36 Quelle matrice de substitution choisir ? Pas de matrice idéale ; Les matrices dérivées des mutations observées donnent, pour les protéines, de meilleurs résultats que les matrices basées sur l’identité, le code génétique ou les propriétés physico-chimiques. Matrices PAM établies par M. Dayhoff (1978) : donnent un trop grand poids aux identités ; négligent trop les ressemblances structurales ; PAM250 : séquences éloignées, faible identité ; PAM125 : séquences proches, identité élevée. Matrices BLOSUM (1992) : construites à partir de plus de données ; BLOSUM62 : séquences proches, identité élevée ; BLOSUM30 : séquences éloignées, identité faible. Barton, G.J. (1996), « Protein Sequence Alignment and Database Scanning », In: Protein Structure Prediction : A Practical Approach (Ed. M.J.E. Sternberg), IRL Press at Oxford University Press. http://barton.ebi.ac.uk/papers/rev93_1/rev93_1.html Identité 100 0 PAMBLOSUM 30 40 20 90 50 10 80 70 60 90 62 50 30 50 100 120 250 Université d’Angers - Maîtrise de Biologie Cellulaire

37 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Soient 2 séquences A et B de longueur respective m et n ; Soient i et j 2 acides aminés quelconques de A et B. Construction d’une matrice de comparaison (m,n) Matrice transformée par l’addition de scores Chemin des scores maxima Université d’Angers - Maîtrise de Biologie Cellulaire

38 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement global des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 Matrice initiale x = i+1 j<y  n i<x  m y = j+1 Transformation de la matrice initiale i j Université d’Angers - Maîtrise de Biologie Cellulaire

39 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 Matrice initialeMatrice en cours de transformation S(R,H) = se(R,H) + max S(x,y) se(R,H) = 2 S(x,y)  S(D,E) = 7  S(A,E) = 2  S(F,E) = -5  S(D,A) = 2  S(D,L) = -4 Université d’Angers - Maîtrise de Biologie Cellulaire

40 Alignement global et programmation dynamique : Needlemann & Wunsch (1970) Exemple : Alignement des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 Matrice transformée et chemin des scores maxima Listing d’édition substitution insertion dans i délétion dans j insertion dans j délétion dans i V T - E E R D A F L T S H E - - A L Université d’Angers - Maîtrise de Biologie Cellulaire

41 Alignement global : limites Les deux séquences présentent une similarité que l’alignement global ne révèle pas : G G C T G A C C A C C - T T | | | | | | | G A - T C A C T T C C A T G G G C T G A C C A C C T T | | | | | | | G A T C A C - T T C C A T G Un alignement local aurait donné le résultat suivant : Université d’Angers - Maîtrise de Biologie Cellulaire

42 Alignement local : Smith & Waterman (1981) N’importe quelle cellule de la matrice de comparaison peut être prise comme point de départ pour le calcul des scores sommes ; Tout score somme qui devient négatif stoppe la progression du calcul. Cette nouvelle case peut être initialisée à 0 et constituer un nouveau point de départ. Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initialeMatrice dont les scores négatifs ont été supprimés Université d’Angers - Maîtrise de Biologie Cellulaire

43 Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initiale x = i+1 j+2<y  n i+2<x  m y = j+1 Transformation de la matrice initiale i j Université d’Angers - Maîtrise de Biologie Cellulaire

44 Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice initialeMatrice en cours de transformation S(R,H) = se(R,H) + max S(x,y) se(R,H) = 2 P = 6 S(x,y)  S(D,E) = 7  S(F,E) = -6  S(D,L) = -6 Université d’Angers - Maîtrise de Biologie Cellulaire

45 Alignement local : Smith & Waterman (1981) Exemple : Alignement local des séquences VTEERDAF et LTSHEAL avec la matrice PAM250 et P = 6 Matrice transformée et chemin des scores maxima Listing d’édition substitution insertion dans i délétion dans j insertion dans j délétion dans i 3 : E E R D A F : 8 2 : T S H E A L : 7 Université d’Angers - Maîtrise de Biologie Cellulaire

46 Alignement local : recherches de similitudes dans les banques de séquences  Pourquoi ?  Savoir si ma séquence ressemble à d'autres déjà connues  Trouver toutes les séquences d'une même famille  Rechercher toutes les séquences qui contiennent un motif donné  Outils  grand volume de texte à traîter  programmes classiques d’alignement inutilisables  utilisation d’heuristiques  programmes BLAST et FASTA  le résultat n ’est pas garanti comme étant le meilleur Université d’Angers - Maîtrise de Biologie Cellulaire

47 BLAST : Basic Local Alignment Search Tool (Altschul et al, 1990) Recherche de régions sans insertions / délétions riches en similarité ; Détermination d’une longueur de mot : w = 2 ou 3 acides aminés pour les protéines ; Hachage de la séquence « requête » en mot de taille w … Liste de mots voisins de longueur w ayant un score supérieur à un seuil T fixé par rapport au mot m. Séquence requête m Chaque mot similaire au mot m est comparé à chaque mot de taille w pris dans chaque séquence B i de la banque. Lorsqu’un mot d’une séquence B i est identique à un mot de la liste de mots voisins, un hit est enregistré. Pour chaque hit, le programme effectue une extension sans gap de l’alignement dans les deux sens. L’extension s’arrête quand le score du mot étendu diminue de plus qu’un seuil X fixé. Les segments ayant un score de similarité supérieur à un score S seuil fixé sont retenus (High Scoring Pairs = HSP). Université d’Angers - Maîtrise de Biologie Cellulaire

48 BLAST : exemple S L A A L L N K C K T P Q G Q R L V N Q W m(w=3) P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N 12... Liste de mots voisins Score seuil T = 13 Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L + T P G R + + + W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310 High Scoring Pairs (HSP) S( P, P ) = 7 S( Q, R ) = 1 S( G, G ) = 6 X T Université d’Angers - Maîtrise de Biologie Cellulaire

49 BLAST : Approche à adopter Choix de l’algorithme ; Matrice de substitution ; Stratégie de recherche : nucléique ou protéique ; Traitement du bruit de fond. BLAST Paramètres par défaut Filtrage BLAST Adaptation des paramètres FASTA Adaptation des paramètres FASTA Paramètres par défaut Université d’Angers - Maîtrise de Biologie Cellulaire

50 BLAST : Choix du programme SEQUENCEBANQUE Protéique Nucléique TT TT BLASTP BLASTN TBLASTX TBLASTN BLASTX Université d’Angers - Maîtrise de Biologie Cellulaire

51 BLAST sur Internet : Requête(1/8) http://www.ncbi.nlm.nih.gov/blast/ séquence requête choix de la base de données Université d’Angers - Maîtrise de Biologie Cellulaire

52 BLAST sur Internet : Paramètres (2/8) Limiter la recherche à une espèce Filtre pour les séquences de faible complexité E-value limite Taille w du mot m Choix de la matrice et gestion des indels Position Specific Score Matrix PSI - BLAST Options supplémentaires Motif PHI - BLAST http://www.ncbi.nlm.nih.gov/blast/ Université d’Angers - Maîtrise de Biologie Cellulaire

53 BLAST sur Internet : Format de la sortie (3/8) Limiter l ’affichage des résultats à une espèce Limiter l’affichage des résultats à une plage de valeur d’E-value Pour recevoir les résultats par e-mail http://www.ncbi.nlm.nih.gov/blast/ Université d’Angers - Maîtrise de Biologie Cellulaire

54 BLAST sur Internet : Fichier de sortie (5/8) Séquence requête Banques de données choisies http://www.ncbi.nlm.nih.gov/blast/ Université d’Angers - Maîtrise de Biologie Cellulaire

55 BLAST sur Internet : Fichier de sortie (6/8) http://www.ncbi.nlm.nih.gov/blast/ Répartition des hits en fonction du score Nombres de hits Université d’Angers - Maîtrise de Biologie Cellulaire

56 BLAST sur Internet : Fichier de sortie (7/8) http://www.ncbi.nlm.nih.gov/blast/ Université d’Angers - Maîtrise de Biologie Cellulaire

57 BLAST sur Internet : Fichier de sortie (8/8) http://www.ncbi.nlm.nih.gov/blast/ Université d’Angers - Maîtrise de Biologie Cellulaire

Université d’Angers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey Angers Cedex 01.

Présentations similaires

Présentation au sujet: "Université d’Angers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey Angers Cedex 01."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Université d’Angers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey Angers Cedex 01.

Présentations similaires

Présentation au sujet: "Université d’Angers - Maîtrise de Biologie Cellulaire 1 Introduction à la Bioinformatique David Perret INSERM U564 4, rue Larrey Angers Cedex 01."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back