La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Chapitre 3.

Présentations similaires


Présentation au sujet: "Chapitre 3."— Transcription de la présentation:

1 Chapitre 3

2 Alignement « pairwise »
► identité, similarité ► scores à partir de matrices de substitution PAM ou BLOSSUM ► Local ou global ? Tester alignement contre toutes les séquences connues dans une base de données ►

3 Accessibilité sur le WEB
Pourquoi BLAST* Rapidité Précision relative Accessibilité sur le WEB * On a aussi vu FASTA … pas le format, le programme

4 Utilité de BLAST Établir la relation entre une séquence requête (query) et des séquences connues de protéines ou d’ADN orthologues, paralogues, nouveaux gènes ou nouvelles protéines, EST, structures et fonctions

5 Recherche BLAST 1,2,3,4,5 Choisir sa séquence
Choisir le programme BLAST Choisir la banque Choisir les paramètres optionnels … et attendre un peu

6 séquence Domaines conservés Banque non redondante GO

7 Séquence AC, FASTA ou text

8

9 Choisir un programme BLAST

10 Choisir un programme BLAST
blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST)

11 blastp protéine protéines 6 blastx DNA protéines tblastn protéine DNA
Programme Entrée Banque 1 blastn DNA DNA blastp protéine protéines 6 blastx DNA protéines tblastn protéine DNA 36 tblastx DNA DNA

12 … un ADN peut, potentiellement, coder 6 protéines
5’ CAT CAA 5’ ATC AAC 5’ TCA ACT 5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’ 5’ GTG GGT 5’ TGG GTA 5’ GGG TAG

13 (most general database) dbest = database of expressed sequence tags
Choix de la banque nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence

14 OPTIONS Chercher des domaines conservés

15 OPTIONS Entrez! Filter Expect Word size organisme Scoring matrix

16 OPTIONS RBP4 vs RBP4 avec option FILTRE

17 Filtre ON

18 Filtre OFF

19 program query database taxonomy

20 taxonomy

21 Cut-off: .05? 10-10?

22

23 Alignment view

24 Alignment view

25 MEUH !

26 BLAST: le background “The central idea of the BLAST
algorithm is to confine attention to segment pairs that contain a word pair of length w with a score of at least T.” Altschul et al. (1990)

27 1: établir une liste de word pairs (w=3)
Originellement, 1,2,3. 1: établir une liste de word pairs (w=3) au dessus d’un seuil critique (threshold) T Expl: human RBP query …FSGTWYA… (query word en rouge) Liste possible (w=3) : FSG SGT GTW TWY WYA YSG TGT ATW SWY WFA FTG SVT GSW TWF WYS

28 Liste de words (w=3) GSW 6,1,11 =18 ATW 0,5,11 =16
GTW 6,5,11 =22 GSW 6,1,11 =18 ATW 0,5,11 =16 > threshold NTW 0,5,11 =16 GTY 6,5,2 =13 GNW =10 < threshold GAW =9 (T=11)

29 Origine des scores: matrice choisie
(BLOSUM62)

30 Originellement, 1,2,3. 2: Scan de la base à la recherche de mots qui “matchent” la liste compilée. (étape rapide)

31 3: si un hit est trouvé (i.e. match parfait)
Originellement, 1,2,3. 3: si un hit est trouvé (i.e. match parfait) On étend l’alignement en continuant d’accumuler le score. L’alignement s’arrête quand le score tombe Sous un valeur ptéalablement établie KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit) extend extend Hit!

32 La version contemporaine de BLAST nécessite au moins 2 hits indépendants séparés par une distance limite de résidus (A ≤40 )

33 Plusieurs paramètres modifiables … du moins chez NCBI
Expl: options other advanced de BLAST permettent de changer des seuils. Le seuil de match par défaut est 11. On peut l’ajuster à 16 ou 5. (la commande est –f16 ou –f5 avec f équivalent de T)

34 Changement de seuil pour blastp nr de RBP
Expect 10 (T=11) 1 10,000 (T=5) (T=16) (BL45) (PAM70) #hits to db 129m 112m 386m #sequences 1,043,455 1.0m 907,000 #extensions 5.2m 508m 4.5m 73,788 30.2m 19.5m #successful extensions 8,367 11,484 7,288 1,147 9,088 13,873 better than E 142 86 6,439 125 124 88 110 82 #HSPs>E (nogapping) 53 46 6,099 48 60 66 #HSPs gapped 145 6,609 127 126 90 113 99 16 (7.4 bits) 38 (14.6 bits) 64 (24.7 bits) 16 38 64 22 51 85 15 35 59

35 + grand w haut T - Sensibilité Vitesse + _ petit w bas T

36

37 Interprétation E (expect value)
Pour les alignements locaux, les scores suivent invariablement une distribution EVD (extreme value distribution)

38 Distribution normale vs valeur extrême
0.40 Distribution de valeur extrême Distribution normale 0.35 0.30 0.25 probabilité 0.20 0.15 0.10 u=0 l=1 0.05 -5 -4 -3 -2 -1 1 2 3 4 5 x

39 Distribution des Scores Pour RBP4 vs ddbj
S E * Distribution des Scores Pour RBP4 vs ddbj Valeur de E normalisée à une fonction de distribution de valeur extrême *

40 Probabilité d’un alignement dû au hasard
m= longueur de la séquence et n= longueur de la banque

41 Espace de recherche effectif
Longueur moyenne d’un alignement On soustrait L parce que les fins de séquence risquent fort de ne pas produire un alignement qui atteint la valeur moyenne L. # séquences ds banque

42 Dans BLAST l’espérance E d’obtenir, par hasard, un HSP dont le score S ou mieux est:
C’est un estimé du nombre de faux positifs

43 Propriétés de E Décroit de façon exponentielle qund S augmente. Si E►0, la probabilité d’obtenir cet alignement « par chance » ►0 La valeur de S pour des alignements fortuits devrait être négative. Autrement de longs segments de séquences pourraient accumuler de grandes valeurs positives et être considérés comme homologues

44 La taille de la banque dans laquelle on fouille et la taille de la séquence influencent la valeur de E. Le résultat d’un BLAST avec E=1 aurait donné E=2 si la banque était 2x plus vaste. Cette analyse statistique (Altschul & Gish, 1996) vaut pour des séquences alignées sans gap. En présence de gaps, K et λ ne sont que des estimés. H= entropie

45 Scores bruts vs bit scores
Le score brut (S) est le résultat de la somme des scores individuels et dépend donc, entre autres, de la matrice de substitution utilisée. Le bit score (S’) est un score normalisé qui permet de comparer des recherches effectuées dans des banques différentes avec des matrices différentes.

46 E vs une probabilité La probabilité P de trouver un alignement de score comparable (ou meilleur) par hasard peut se calculer en reliant le score observé avec le score qu’on attendrait pour des HSP aléatoires. E P

47 Où sont les résultats de ces calculs ?

48 Pénalité de gap E = 10.0 seuil = 11 paramètres EVD matrice paramètres
de cut-off

49 Changements de E, T & matrice dans un blastp nr de RBP
Expect 10 (T=11) 1 10,000 (T=5) (T=16) (BL45) (PAM70) #hits to db 129m 112m 386m #sequences 1,043,455 1.0m 907,000 #extensions 5.2m 508m 4.5m 73,788 30.2m 19.5m #successful extensions 8,367 11,484 7,288 1,147 9,088 13,873 better than E 142 86 6,439 125 124 88 110 82 #HSPs>E (no gapping) 53 46 6,099 48 60 66 #HSPs gapped 145 6,609 127 126 90 113 99 X1, X2, X3 16 (7.4 bits) 38 (14.6 bits) 64 (24.7 bits) 16 38 64 22 51 85 15 35 59

50 … laissez vous aider

51 E w Matrice 10 11 1000 7 10 3 BLOSUM62 20000 2 PAM30

52


Télécharger ppt "Chapitre 3."

Présentations similaires


Annonces Google