Chapitre 3
Alignement « pairwise » ► identité, similarité ► scores à partir de matrices de substitution PAM ou BLOSSUM ► Local ou global ? Tester alignement contre toutes les séquences connues dans une base de données ►
Accessibilité sur le WEB Pourquoi BLAST* Rapidité Précision relative Accessibilité sur le WEB * On a aussi vu FASTA … pas le format, le programme
Utilité de BLAST Établir la relation entre une séquence requête (query) et des séquences connues de protéines ou d’ADN orthologues, paralogues, nouveaux gènes ou nouvelles protéines, EST, structures et fonctions
Recherche BLAST 1,2,3,4,5 Choisir sa séquence Choisir le programme BLAST Choisir la banque Choisir les paramètres optionnels … et attendre un peu
séquence Domaines conservés Banque non redondante GO
Séquence AC, FASTA ou text
Choisir un programme BLAST
Choisir un programme BLAST blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST)
blastp protéine protéines 6 blastx DNA protéines tblastn protéine DNA Programme Entrée Banque 1 blastn DNA DNA blastp protéine protéines 6 blastx DNA protéines tblastn protéine DNA 36 tblastx DNA DNA
… un ADN peut, potentiellement, coder 6 protéines 5’ CAT CAA 5’ ATC AAC 5’ TCA ACT 5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’ 5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
(most general database) dbest = database of expressed sequence tags Choix de la banque nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
OPTIONS Chercher des domaines conservés
OPTIONS Entrez! Filter Expect Word size organisme Scoring matrix
OPTIONS RBP4 vs RBP4 avec option FILTRE
Filtre ON
Filtre OFF
program query database taxonomy
taxonomy
Cut-off: .05? 10-10?
Alignment view
Alignment view
MEUH !
BLAST: le background “The central idea of the BLAST algorithm is to confine attention to segment pairs that contain a word pair of length w with a score of at least T.” Altschul et al. (1990)
1: établir une liste de word pairs (w=3) Originellement, 1,2,3. 1: établir une liste de word pairs (w=3) au dessus d’un seuil critique (threshold) T Expl: human RBP query …FSGTWYA… (query word en rouge) Liste possible (w=3) : FSG SGT GTW TWY WYA YSG TGT ATW SWY WFA FTG SVT GSW TWF WYS
Liste de words (w=3) GSW 6,1,11 =18 ATW 0,5,11 =16 GTW 6,5,11 =22 GSW 6,1,11 =18 ATW 0,5,11 =16 > threshold NTW 0,5,11 =16 GTY 6,5,2 =13 GNW =10 < threshold GAW =9 (T=11)
Origine des scores: matrice choisie (BLOSUM62)
Originellement, 1,2,3. 2: Scan de la base à la recherche de mots qui “matchent” la liste compilée. (étape rapide)
3: si un hit est trouvé (i.e. match parfait) Originellement, 1,2,3. 3: si un hit est trouvé (i.e. match parfait) On étend l’alignement en continuant d’accumuler le score. L’alignement s’arrête quand le score tombe Sous un valeur ptéalablement établie KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit) extend extend Hit!
La version contemporaine de BLAST nécessite au moins 2 hits indépendants séparés par une distance limite de résidus (A ≤40 )
Plusieurs paramètres modifiables … du moins chez NCBI Expl: options other advanced de BLAST permettent de changer des seuils. Le seuil de match par défaut est 11. On peut l’ajuster à 16 ou 5. (la commande est –f16 ou –f5 avec f équivalent de T)
Changement de seuil pour blastp nr de RBP Expect 10 (T=11) 1 10,000 (T=5) (T=16) (BL45) (PAM70) #hits to db 129m 112m 386m #sequences 1,043,455 1.0m 907,000 #extensions 5.2m 508m 4.5m 73,788 30.2m 19.5m #successful extensions 8,367 11,484 7,288 1,147 9,088 13,873 better than E 142 86 6,439 125 124 88 110 82 #HSPs>E (nogapping) 53 46 6,099 48 60 66 #HSPs gapped 145 6,609 127 126 90 113 99 16 (7.4 bits) 38 (14.6 bits) 64 (24.7 bits) 16 38 64 22 51 85 15 35 59
+ grand w haut T - Sensibilité Vitesse + _ petit w bas T
Interprétation E (expect value) Pour les alignements locaux, les scores suivent invariablement une distribution EVD (extreme value distribution)
Distribution normale vs valeur extrême 0.40 Distribution de valeur extrême Distribution normale 0.35 0.30 0.25 probabilité 0.20 0.15 0.10 u=0 l=1 0.05 -5 -4 -3 -2 -1 1 2 3 4 5 x
Distribution des Scores Pour RBP4 vs ddbj S E * Distribution des Scores Pour RBP4 vs ddbj Valeur de E normalisée à une fonction de distribution de valeur extrême *
Probabilité d’un alignement dû au hasard m= longueur de la séquence et n= longueur de la banque
Espace de recherche effectif Longueur moyenne d’un alignement On soustrait L parce que les fins de séquence risquent fort de ne pas produire un alignement qui atteint la valeur moyenne L. # séquences ds banque
Dans BLAST l’espérance E d’obtenir, par hasard, un HSP dont le score S ou mieux est: C’est un estimé du nombre de faux positifs
Propriétés de E Décroit de façon exponentielle qund S augmente. Si E►0, la probabilité d’obtenir cet alignement « par chance » ►0 La valeur de S pour des alignements fortuits devrait être négative. Autrement de longs segments de séquences pourraient accumuler de grandes valeurs positives et être considérés comme homologues
La taille de la banque dans laquelle on fouille et la taille de la séquence influencent la valeur de E. Le résultat d’un BLAST avec E=1 aurait donné E=2 si la banque était 2x plus vaste. Cette analyse statistique (Altschul & Gish, 1996) vaut pour des séquences alignées sans gap. En présence de gaps, K et λ ne sont que des estimés. H= entropie
Scores bruts vs bit scores Le score brut (S) est le résultat de la somme des scores individuels et dépend donc, entre autres, de la matrice de substitution utilisée. Le bit score (S’) est un score normalisé qui permet de comparer des recherches effectuées dans des banques différentes avec des matrices différentes.
E vs une probabilité La probabilité P de trouver un alignement de score comparable (ou meilleur) par hasard peut se calculer en reliant le score observé avec le score qu’on attendrait pour des HSP aléatoires. E P 10 0.99995460 5 0.99326205 2 0.86466472 1 0.63212056 0.1 0.09516258 0.05 0.04877058 0.001 0.00099950 0.0001 0.0001000
Où sont les résultats de ces calculs ?
Pénalité de gap E = 10.0 seuil = 11 paramètres EVD matrice paramètres de cut-off
Changements de E, T & matrice dans un blastp nr de RBP Expect 10 (T=11) 1 10,000 (T=5) (T=16) (BL45) (PAM70) #hits to db 129m 112m 386m #sequences 1,043,455 1.0m 907,000 #extensions 5.2m 508m 4.5m 73,788 30.2m 19.5m #successful extensions 8,367 11,484 7,288 1,147 9,088 13,873 better than E 142 86 6,439 125 124 88 110 82 #HSPs>E (no gapping) 53 46 6,099 48 60 66 #HSPs gapped 145 6,609 127 126 90 113 99 X1, X2, X3 16 (7.4 bits) 38 (14.6 bits) 64 (24.7 bits) 16 38 64 22 51 85 15 35 59
… laissez vous aider
E w Matrice 10 11 1000 7 10 3 BLOSUM62 20000 2 PAM30