Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parClairene Guyot Modifié depuis plus de 9 années
1
Alignement des séquences Banques de données: Indicateurs d’évolution
et de spéciation Alignement des séquences
2
Alignements vers 1960 b-corticotropine (ovine)
Corticotropine A (porcine) ala gly glu asp asp glu asp gly ala glu asp glu CYIQNCPLG CYFQNCPRG Oxytocine Vasopressine
3
Alignement de séquences Opération la plus fondamentale
Savoir si 2 protéines ou 2 gènes sont reliés structuralement ou fonctionnellement. Identifier des domaines ou des motifs récurrents. À la base des recherches en « blast ». Analyse du génome.
4
Alignement de protéines vs ADN
Une protéine contient plus d’information (20 vs 4). De plus plusieurs aa sont équivalents. Les codons sont dégénérés (souvent, chgmt position 3 code le même aa). Les séquences aa procurent une vision + longue. Séquences ADN peuvent être traduites avant un alignement.
5
Séquence protéine + informative que séquence de DNA
le DNA peut être traduit selon 6 cadres de lecture 5’ CAT CAA 5’ ATC AAC 5’ TCA ACT 5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’ 5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
6
… mais aligner des séq. ADN peut permettre de
Confirmer identité d’un cDNA Étudier les séquences non codantes Étudier le polymorphisme Vous comparer à l’h. de cromagnon Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 Sbjct: catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247
7
Il y a des pièges retinol-binding protein (NP_006735) b-lactoglobulin
2 lipocalines issues de la duplication d’un gène. Structures 3D très semblables mais peu d’identités d’aa dans la séquence.
8
Alignement séq. (pairwise)
Étalement de 2 ou plusieurs séquences afin d’achever le maximum d’identité (et de conservation dans le cas des aa) en vue d’établir leur degré de similarité et leur homologie.
9
Définitions Homologie : Similarité attribuée à la descendance d’un ancêtre commun Identité: Degré d’invariance d’une séquence de nucléotides ou aa RBP: RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 84 + K GTW++ MA L A V T L+ W+ glycodelin: QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEI V LHRWEN 81
10
2 types d’homologie Orthologues: séquences homologues dans des espèces différentes issues d’un gène ancestral commun au cours de la spéciation. Peuvent avoir la même fonction. Paralogues: séquences homologues chez une même espèce, issues de la duplication d’un gène.
11
Orthologues de la RBP common carp zebrafish rainbow trout teleost
(rét. binding prot.) African clawed frog chicken human mouse horse rat 10 chgmts pig cow rabbit
12
Membres de la même famille de protéines chez Hs.
apolipoprotein D retinol-binding protein 4 Paralogues: Membres de la même famille de protéines chez Hs. Complement component 8 Alpha-1 Microglobulin /bikunin prostaglandin D2 synthase progestagen- associated endometrial protein neutrophil gelatinase- associated lipocalin Odorant-binding protein 2A 10 chgmts Lipocalin 1
14
Alignement global 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | | | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV QYSC 136 RBP || || | :.|||| | | 94 IPAVFKIDALNENKVL VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI lactoglobulin
15
Définitions Similarité: degré de relation de 2 séquences (identité + conservation) Identité: degré d’invariance Conservation: changement qui conserve la propriété physicochimique (aa seulement)
16
RBP vs Lactoglob. Simil. +/- Similarité Identité Gap
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | | | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV QYSC 136 RBP || || | :.|||| | | 94 IPAVFKIDALNENKVL VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI lactoglobulin Simil. +/- Identité Similarité Gap Interne ou terminal
17
GAPS Position où une lettre n’est appariée à rien
On lui donne généralement un score négatif Comme une mutation peut donner une insertion ou une délétion de plus d’un résidu, la présence d’un gap est plus importante que sa longueur
18
Gaps révélateurs 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | | | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV QYSC 136 RBP || || | :.|||| | | 94 IPAVFKIDALNENKVL VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI lactoglobulin
19
RBP vs RBP (Hs vs O. mykiss truite arc-en-ciel)
1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 48 :: || || || .||.||. .| :|||:.|:.| |||.||||| 1 MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP 47 49 EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED 98 |||| ||:||:|||||.|.|.||| ||| :||||:.||.| ||| || | 48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFEDTPD 97 99 PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS 148 ||||||:||| ||:|| ||||||::||||| ||: |||| ..||||| | 98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCREVDLDGTCLDG 147 149 YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL 199 |||:||| | || || |||| :..|:| .|| : | |:|: 148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGKYRRVGHTGFCESS
20
Alignement ► évolution
Origine De la vie +vieux fossiles Origine des eucaryotes Eucaryotes/ archaea Plantes Animaux insectes Milliards d’années 4 3 2 1
21
glyceraldehyde 3-phosphate déshydrogenases
Mouche GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA Humain GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA Plante GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA Bacterie GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA Levure GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA Archo b. GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA
22
Famille des lipocalines Séquences paralogues chez Hs
~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM lipocalin 1 LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF odorant-binding protein 2a TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR progestagen-assoc. endo. VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV apolipoprotein D VKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF retinol-binding protein LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF neutrophil gelatinase-ass. VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL prostaglandin D2 synthase VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW alpha-1-microglobulin PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD complement component 8 motif ► GXW
23
Approche générale Choisir les séquences Sélectionner un algorithme
Permettre ou pas les gaps Choisir un alignement global ou local Estimer la probabilité que alignement survienne par hasard.
24
Calcul d’un score d’alignement
25
L’analyse de Margaret Dayhoff sur 34 familles de protéines
Protéine Mutations / 100 millions années Ig kappa chain 37 Kappa casein 33 Lactalbumin 27 Hemoglobin a 12 Myoglobin Insulin Histone H Ubiquitin
26
Fréquence des remplacements 1572 cas (les valeurs sont x10)
28
Occurrence des aa Gly 8.9% Arg 4.1% Ala 8.7% Asn 4.0%
Leu 8.5% Phe 4.0% Lys 8.1% Gln 3.8% Ser 7.0% Ile 3.7% Val 6.5% His 3.4% Thr 5.8% Cys 3.3% Pro 5.1% Tyr 3.0% Glu 5.0% Met 1.5% Asp 4.7% Trp 1.0% bleu=6 codons; rouge=1 codon
29
“Mutabilité” relative des aa
# mut / fréq. occurr. Asn His 66 Ser Arg 65 Asp Lys 56 Glu Pro 56 Ala Gly 49 Thr 97 Tyr 41 Ile 96 Phe 41 Met 94 Leu 40 Gln 93 Cys 20 Val 74 Trp 18
30
Probabilité de mutation si on accepte 1% de changement
Point accepted mutation = 1% ► PAM1 Acide aminé original Acide aminé de remplacement
31
Les valeurs dans cette matrice réflètent la probabilité de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.
32
Matrice de substitution (PAM & BLOSSUM)
Contient des valeurs proportionnelles à la probabilité qu’un aa i subisse une mutation en aa j (pour chaque paire aa alignés) Les matrices sont construites empiriquement à partir de séquences connues Elles devraient réfléter la véritable probabilité de mutation sur une période de temps donnée
33
Matrices PAM Basées sur l’alignement global de protéines très reliées (>85% identité aa) PAM 1 est obtenue par comparaison de séquences qui divergent de 1% ou moins Les autres matrices PAM sont extrapolées à partir de PAM 1
35
PAM 2000 PAM A Ala R Arg N Asn D Asp C Cys Q Gln E Glu G Gly 8.7%
4.1% N 4.0% D 4.7% C 3.3% Q 3.8% E 5.0% G 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9%
36
Comment extrapoler à partir de PAM1 ?
probabilité x probabilité
37
PAM250 Somme des colonnes = 100 ou 101
38
Matrice de probabilité de mutation ► Matrice de pointage
Donner un pointage (score) à un alignement: ratio de vraisemblance Score Pourquoi le log ? Plus facile d’additionner que de multiplier.
39
PAM250 Matrice de vraisemblance (log odds)
40
Pourquoi établir une matrice logarithmique de vraisemblance
Sous forme d’un log, il ne reste qu’à additionner les scores pour chaque paire d’aa au lieu de les multiplier
41
Expl. pour 2 tryptophanes alignés S(W/W)=10 log(0,55/0,010) = 17,4
Un score de +17 pour l’alignement de 2 W signifie que cet alignement est 50 fois plus vraisemblable qu’un alignement simplement du au hasard.
42
Signification de ces chiffres
Score =+2 indique que ce remplacement survient 1.6 fois plus souvent que le voudrait le hasard Score =0 ne dit rien (neutre) Score =-10 indique que la possibilité que l’alignement de ces 2 aa représente correctement une homologie est 10 fois moins probable qu’un alignement par chance des ces 2 aa.
43
PAM 250
44
PAM10
45
PAM250 PAM40 vs 60% identité score=23 hsrbp, 136 CRLLNLDGTC
btlact, 3 CLLLALALTC * ** * ** PAM40 vs 24.7% identity in 81 residues overlap; Score: 77.0; Gap frequency: 3.7% hsrbp, 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDV btlact, 21 QTMKGLDIQKVAGTWYSLAMAASD-ISLLDAQSAPLRVYVEELKPTPEGDLEILLQKWEN * **** * * * * ** * hsrbp, CADMVGTFTDTEDPAKFKM btlact, 80 GECAQKKIIAEKTKIPAVFKI ** * ** ** PAM250
46
Quelle matrice choisir ?
Rat vs souris Rat vs bactérie PAM vs BLOSSUM
47
BLOSUM Matrices Basées sur des alignements locaux
BLOSUM : blocks substitution matrix. Expl: BLOSUM62 est obtenu en groupant les séquences qui ont 62% identité ou plus.
48
BLOSUM Matrices 100 100 100 collapse collapse 62 62 62 collapse
Percent amino acid identity 30 30 30 BLOSUM80 BLOSUM62 BLOSUM30
49
BLOSUM Matrices Toutes les matrices BLOSSUM sont basées sur des
alignements observés; Aucune n’est extrapolée La banque BLOCKS database contient des milliers d’alignements BLOSUM62 est souvent la matrice de défaut dans BLAST
50
BLOSSUM62 Les scores sont plus faibles ► 2 x logbase2(ratio vraisemblance)
51
Limites de fiabilité Pourcent identité
Differences par 100 residus (PAM) À 15% identité, un ne reconnaît plus d’homologie
52
à PAM1, 2 protéines sont identiques à 99%
PAM10.7 : 10 differences par 100 residus PAM80 : 50 différences PAM250 : 80 differences 2 protéines avec 50% d’identité peuvent avoir subi 80 changements par 100 résidus. N’importe quelle Mutation peut être réversible
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.