Alignement des séquences Banques de données: Indicateurs d’évolution

Alignement des séquences Banques de données: Indicateurs d’évolution
et de spéciation Alignement des séquences

Alignements vers 1960 b-corticotropine (ovine)
Corticotropine A (porcine) ala gly glu asp asp glu asp gly ala glu asp glu CYIQNCPLG CYFQNCPRG Oxytocine Vasopressine

Alignement de séquences Opération la plus fondamentale
Savoir si 2 protéines ou 2 gènes sont reliés structuralement ou fonctionnellement. Identifier des domaines ou des motifs récurrents. À la base des recherches en « blast ». Analyse du génome.

Alignement de protéines vs ADN
Une protéine contient plus d’information (20 vs 4). De plus plusieurs aa sont équivalents. Les codons sont dégénérés (souvent, chgmt position 3 code le même aa). Les séquences aa procurent une vision + longue. Séquences ADN peuvent être traduites avant un alignement.

Séquence protéine + informative que séquence de DNA
le DNA peut être traduit selon 6 cadres de lecture 5’ CAT CAA 5’ ATC AAC 5’ TCA ACT 5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’ 5’ GTG GGT 5’ TGG GTA 5’ GGG TAG

… mais aligner des séq. ADN peut permettre de
Confirmer identité d’un cDNA Étudier les séquences non codantes Étudier le polymorphisme Vous comparer à l’h. de cromagnon Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 Sbjct: catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247

Il y a des pièges retinol-binding protein (NP_006735) b-lactoglobulin
2 lipocalines issues de la duplication d’un gène. Structures 3D très semblables mais peu d’identités d’aa dans la séquence.

Alignement séq. (pairwise)
Étalement de 2 ou plusieurs séquences afin d’achever le maximum d’identité (et de conservation dans le cas des aa) en vue d’établir leur degré de similarité et leur homologie.

Définitions Homologie : Similarité attribuée à la descendance d’un ancêtre commun Identité: Degré d’invariance d’une séquence de nucléotides ou aa RBP: RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 84 + K GTW++ MA L A V T L+ W+ glycodelin: QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEI V LHRWEN 81

2 types d’homologie Orthologues: séquences homologues dans des espèces différentes issues d’un gène ancestral commun au cours de la spéciation. Peuvent avoir la même fonction. Paralogues: séquences homologues chez une même espèce, issues de la duplication d’un gène.

Orthologues de la RBP common carp zebrafish rainbow trout teleost
(rét. binding prot.) African clawed frog chicken human mouse horse rat 10 chgmts pig cow rabbit

Membres de la même famille de protéines chez Hs.
apolipoprotein D retinol-binding protein 4 Paralogues: Membres de la même famille de protéines chez Hs. Complement component 8 Alpha-1 Microglobulin /bikunin prostaglandin D2 synthase progestagen- associated endometrial protein neutrophil gelatinase- associated lipocalin Odorant-binding protein 2A 10 chgmts Lipocalin 1

Alignement global 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | | | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV QYSC 136 RBP || || | :.|||| | | 94 IPAVFKIDALNENKVL VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI lactoglobulin

Définitions Similarité: degré de relation de 2 séquences (identité + conservation) Identité: degré d’invariance Conservation: changement qui conserve la propriété physicochimique (aa seulement)

RBP vs Lactoglob. Simil. +/- Similarité Identité Gap
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | | | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV QYSC 136 RBP || || | :.|||| | | 94 IPAVFKIDALNENKVL VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI lactoglobulin Simil. +/- Identité Similarité Gap Interne ou terminal

GAPS Position où une lettre n’est appariée à rien
On lui donne généralement un score négatif Comme une mutation peut donner une insertion ou une délétion de plus d’un résidu, la présence d’un gap est plus importante que sa longueur

Gaps révélateurs 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | | | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV QYSC 136 RBP || || | :.|||| | | 94 IPAVFKIDALNENKVL VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI lactoglobulin

RBP vs RBP (Hs vs O. mykiss truite arc-en-ciel)
1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 48 :: || || || .||.||. .| :|||:.|:.| |||.||||| 1 MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP 47 49 EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED 98 |||| ||:||:|||||.|.|.||| ||| :||||:.||.| ||| || | 48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFEDTPD 97 99 PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS 148 ||||||:||| ||:|| ||||||::||||| ||: |||| ..||||| | 98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCREVDLDGTCLDG 147 149 YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL 199 |||:||| | || || |||| :..|:| .|| : | |:|: 148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGKYRRVGHTGFCESS

Alignement ► évolution
Origine De la vie +vieux fossiles Origine des eucaryotes Eucaryotes/ archaea Plantes Animaux insectes Milliards d’années 4 3 2 1

glyceraldehyde 3-phosphate déshydrogenases
Mouche GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA Humain GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA Plante GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA Bacterie GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA Levure GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA Archo b. GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA

Famille des lipocalines Séquences paralogues chez Hs
~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM lipocalin 1 LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF odorant-binding protein 2a TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR progestagen-assoc. endo. VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV apolipoprotein D VKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF retinol-binding protein LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF neutrophil gelatinase-ass. VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL prostaglandin D2 synthase VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW alpha-1-microglobulin PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD complement component 8 motif ► GXW

Approche générale Choisir les séquences Sélectionner un algorithme
Permettre ou pas les gaps Choisir un alignement global ou local Estimer la probabilité que alignement survienne par hasard.

Calcul d’un score d’alignement

L’analyse de Margaret Dayhoff sur 34 familles de protéines
Protéine Mutations / 100 millions années Ig kappa chain 37 Kappa casein 33 Lactalbumin 27 Hemoglobin a 12 Myoglobin Insulin Histone H Ubiquitin

Fréquence des remplacements 1572 cas (les valeurs sont x10)

Occurrence des aa Gly 8.9% Arg 4.1% Ala 8.7% Asn 4.0%
Leu 8.5% Phe 4.0% Lys 8.1% Gln 3.8% Ser 7.0% Ile 3.7% Val 6.5% His 3.4% Thr 5.8% Cys 3.3% Pro 5.1% Tyr 3.0% Glu 5.0% Met 1.5% Asp 4.7% Trp 1.0% bleu=6 codons; rouge=1 codon

“Mutabilité” relative des aa
# mut / fréq. occurr. Asn His 66 Ser Arg 65 Asp Lys 56 Glu Pro 56 Ala Gly 49 Thr 97 Tyr 41 Ile 96 Phe 41 Met 94 Leu 40 Gln 93 Cys 20 Val 74 Trp 18

Probabilité de mutation si on accepte 1% de changement
Point accepted mutation = 1% ► PAM1 Acide aminé original Acide aminé de remplacement

Les valeurs dans cette matrice réflètent la probabilité de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.

Matrice de substitution (PAM & BLOSSUM)
Contient des valeurs proportionnelles à la probabilité qu’un aa i subisse une mutation en aa j (pour chaque paire aa alignés) Les matrices sont construites empiriquement à partir de séquences connues Elles devraient réfléter la véritable probabilité de mutation sur une période de temps donnée

Matrices PAM Basées sur l’alignement global de protéines très reliées (>85% identité aa) PAM 1 est obtenue par comparaison de séquences qui divergent de 1% ou moins Les autres matrices PAM sont extrapolées à partir de PAM 1

PAM 2000 PAM A Ala R Arg N Asn D Asp C Cys Q Gln E Glu G Gly 8.7%
4.1% N 4.0% D 4.7% C 3.3% Q 3.8% E 5.0% G 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9%

Comment extrapoler à partir de PAM1 ?
probabilité x probabilité

PAM250 Somme des colonnes = 100 ou 101

Matrice de probabilité de mutation ► Matrice de pointage
Donner un pointage (score) à un alignement: ratio de vraisemblance Score Pourquoi le log ? Plus facile d’additionner que de multiplier.

PAM250 Matrice de vraisemblance (log odds)

Pourquoi établir une matrice logarithmique de vraisemblance
Sous forme d’un log, il ne reste qu’à additionner les scores pour chaque paire d’aa au lieu de les multiplier

Expl. pour 2 tryptophanes alignés S(W/W)=10 log(0,55/0,010) = 17,4
Un score de +17 pour l’alignement de 2 W signifie que cet alignement est 50 fois plus vraisemblable qu’un alignement simplement du au hasard.

Signification de ces chiffres
Score =+2 indique que ce remplacement survient 1.6 fois plus souvent que le voudrait le hasard Score =0 ne dit rien (neutre) Score =-10 indique que la possibilité que l’alignement de ces 2 aa représente correctement une homologie est 10 fois moins probable qu’un alignement par chance des ces 2 aa.

PAM 250

PAM250 PAM40 vs 60% identité score=23 hsrbp, 136 CRLLNLDGTC
btlact, 3 CLLLALALTC * ** * ** PAM40 vs 24.7% identity in 81 residues overlap; Score: 77.0; Gap frequency: 3.7% hsrbp, 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDV btlact, 21 QTMKGLDIQKVAGTWYSLAMAASD-ISLLDAQSAPLRVYVEELKPTPEGDLEILLQKWEN * **** * * * * ** * hsrbp, CADMVGTFTDTEDPAKFKM btlact, 80 GECAQKKIIAEKTKIPAVFKI ** * ** ** PAM250

Quelle matrice choisir ?
Rat vs souris Rat vs bactérie PAM vs BLOSSUM

BLOSUM Matrices Basées sur des alignements locaux
BLOSUM : blocks substitution matrix. Expl: BLOSUM62 est obtenu en groupant les séquences qui ont 62% identité ou plus.

BLOSUM Matrices 100 100 100 collapse collapse 62 62 62 collapse
Percent amino acid identity 30 30 30 BLOSUM80 BLOSUM62 BLOSUM30

BLOSUM Matrices Toutes les matrices BLOSSUM sont basées sur des
alignements observés; Aucune n’est extrapolée La banque BLOCKS database contient des milliers d’alignements BLOSUM62 est souvent la matrice de défaut dans BLAST

BLOSSUM62 Les scores sont plus faibles ► 2 x logbase2(ratio vraisemblance)

Limites de fiabilité Pourcent identité
Differences par 100 residus (PAM) À 15% identité, un ne reconnaît plus d’homologie

à PAM1, 2 protéines sont identiques à 99%
PAM10.7 : 10 differences par 100 residus PAM80 : 50 différences PAM250 : 80 differences 2 protéines avec 50% d’identité peuvent avoir subi 80 changements par 100 résidus. N’importe quelle Mutation peut être réversible

Alignement des séquences Banques de données: Indicateurs d’évolution

Présentations similaires

Présentation au sujet: "Alignement des séquences Banques de données: Indicateurs d’évolution"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Alignement des séquences Banques de données: Indicateurs d’évolution

Présentations similaires

Présentation au sujet: "Alignement des séquences Banques de données: Indicateurs d’évolution"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back