Alignement des séquences Banques de données: Indicateurs d’évolution

Slides:



Advertisements
Présentations similaires
Stabilité et Variabilité des génomes et Evolution
Advertisements

Éléments de correction du devoir novembre 2011
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
La génétique bactérienne cours 5
Innovations génétiques
Traduction de l’information génétique
Variabilité nucléotidique du gène de l'acétyl coenzyme A carboxylase et Signature de sélection par un herbicide chez la plante Alopecurus myosuroides (Huds.)
1. L’ADN et l’information génétique
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Bioinformatique et Perl
Colloque Traitement et Analyse de séquences : compte-rendu
TP2, Apparition de nouveaux gènes : les familles multigéniques
Activité n°4 : l’universalité du code génétique permet la transgenèse
L'information génétique
Qu’ont en commun… ? Les modifications génétiques La fibrose kystique
Les acides aminés et les protéines
ADN.
Alignement multiple Nadia El-Mabrouk.
Modélisation markovienne en phylogénie :
Erratum suite à mon retard
LA SYNTHÈSE DES PROTÉINES
Bio-informatique appliquée Concepts et matrices des substitutions
La synthèse des protéines
1. L’ADN et l’information génétique
X Blast y pour tous. Recherche BLAST 1,2,3,4,5 1.Choisir sa séquence 2.Choisir le programme BLAST 3.Choisir la banque 4.Choisir les paramètres optionnels.
Structure, classification, propriétés chimiques et utilisation.
Matrices de substitution
1. Information génétique et protéines
Prédiction de la structure 3-D des protéines
CHAPITRE 19 - La génétique des populations
L’arbre du vivant.
L'information génétique
Les bactéries Gram négatives possèdent plusieurs systèmes pour transférer le matériel génétique. L’un de ces mécanismes est le système de conjugaison.
Rappels- introduction Le vivant =
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
La structure des protéines
Le Code Génétique 1952 : Dounce Premier concept vrai
ANNEE PACES Mme NEMORIN
Professeur Jeremías GONZÁLEZ
Alignements de séquences par paires
High genomic deleterious mutation rates in hominids Eyre-Walker & P. D. Keightley Letters to Nature, Jan. 99.
Chapitre 3.
Peptides Structure et propriétés générales
4.4 – Synthèse des protéines
Introduction Matériels et méthodes Résultats
Formation Bio-informatique IRD
Analyses phylogénétiques
serveurs spécialisés, programmes et BLAST …amélioré, Y-BLAST F-BLAST
Introduction à la Pathologie Moléculaire du Gène
Familles de gènes Nadia El-Mabrouk.
Alignement de séquences biologiques
Recherche par automates finis
Protéine.
Codage et expression de l’information génétique
Introduction à la Bio-Informatique
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.
Recherche heuristique dans les bases de données L’algorithme BLAST
CHMI 4206 Bioinformatique appliquée
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
Thème 5.4 La cladistique Idée Essentielle: l’ascendance de groupes d’espèces peut être déduite en comparant leurs séquences de bases ou d’acides aminés.
Les molécules organiques. Les chaines carbonées Les hydrocarbures.
L’EXPRESSION DU PROGRAMME GENETIQUE
Bio-Informatique Analyse de séquences nucléotidiques
Analyse et comparaison des séquences biologiques
Raffiner le concept de « protéines de précision » pour améliorer l’efficacité d’utilisation de l’azote par le porcelet Jaap van Milgen, Nathalie Le Floc’h,
ADN : Acide désoxyribonucléique Santatra Ratsitohara RAZAFINDRASATA Interne des hôpitaux en Neurologie 1 er semestre – USFR Neurologie CHU/JRB FACULTE.
Programmation Raymond Ripp.
Transcription de la présentation:

Alignement des séquences Banques de données: Indicateurs d’évolution et de spéciation Alignement des séquences

Alignements vers 1960 b-corticotropine (ovine) Corticotropine A (porcine) ala gly glu asp asp glu asp gly ala glu asp glu CYIQNCPLG CYFQNCPRG Oxytocine Vasopressine

Alignement de séquences Opération la plus fondamentale Savoir si 2 protéines ou 2 gènes sont reliés structuralement ou fonctionnellement. Identifier des domaines ou des motifs récurrents. À la base des recherches en « blast ». Analyse du génome.

Alignement de protéines vs ADN Une protéine contient plus d’information (20 vs 4). De plus plusieurs aa sont équivalents. Les codons sont dégénérés (souvent, chgmt position 3 code le même aa). Les séquences aa procurent une vision + longue. Séquences ADN peuvent être traduites avant un alignement.

Séquence protéine + informative que séquence de DNA le DNA peut être traduit selon 6 cadres de lecture 5’ CAT CAA 5’ ATC AAC 5’ TCA ACT 5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’ 5’ GTG GGT 5’ TGG GTA 5’ GGG TAG

… mais aligner des séq. ADN peut permettre de Confirmer identité d’un cDNA Étudier les séquences non codantes Étudier le polymorphisme Vous comparer à l’h. de cromagnon Query: 181 catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac 240 Sbjct: 189 catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac 247

Il y a des pièges retinol-binding protein (NP_006735) b-lactoglobulin 2 lipocalines issues de la duplication d’un gène. Structures 3D très semblables mais peu d’identités d’aa dans la séquence.

Alignement séq. (pairwise) Étalement de 2 ou plusieurs séquences afin d’achever le maximum d’identité (et de conservation dans le cas des aa) en vue d’établir leur degré de similarité et leur homologie.

Définitions Homologie : Similarité attribuée à la descendance d’un ancêtre commun Identité: Degré d’invariance d’une séquence de nucléotides ou aa RBP: 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 84 + K ++ + + + GTW++ MA + L + A V T + +L+ W+ glycodelin: 23 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEI V LHRWEN 81

2 types d’homologie Orthologues: séquences homologues dans des espèces différentes issues d’un gène ancestral commun au cours de la spéciation. Peuvent avoir la même fonction. Paralogues: séquences homologues chez une même espèce, issues de la duplication d’un gène.

Orthologues de la RBP common carp zebrafish rainbow trout teleost (rét. binding prot.) African clawed frog chicken human mouse horse rat 10 chgmts pig cow rabbit

Membres de la même famille de protéines chez Hs. apolipoprotein D retinol-binding protein 4 Paralogues: Membres de la même famille de protéines chez Hs. Complement component 8 Alpha-1 Microglobulin /bikunin prostaglandin D2 synthase progestagen- associated endometrial protein neutrophil gelatinase- associated lipocalin Odorant-binding protein 2A 10 chgmts Lipocalin 1

Alignement global 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin

Définitions Similarité: degré de relation de 2 séquences (identité + conservation) Identité: degré d’invariance Conservation: changement qui conserve la propriété physicochimique (aa seulement)

RBP vs Lactoglob. Simil. +/- Similarité Identité Gap 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin Simil. +/- Identité Similarité Gap Interne ou terminal

GAPS Position où une lettre n’est appariée à rien On lui donne généralement un score négatif Comme une mutation peut donner une insertion ou une délétion de plus d’un résidu, la présence d’un gap est plus importante que sa longueur

Gaps révélateurs 1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP . ||| | . |. . . | : .||||.:| : 1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin 51 LFLQDNIVAEFSVDETGQMSATAKGRVR.LLNNWD..VCADMVGTFTDTE 97 RBP : | | | | :: | .| . || |: || |. 45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin 98 DPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAV...........QYSC 136 RBP || ||. | :.|||| | . .| 94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin 137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP . | | | : || . | || | 136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin

RBP vs RBP (Hs vs O. mykiss truite arc-en-ciel) 1 .MKWVWALLLLA.AWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP 48 :: || || || .||.||. .| :|||:.|:.| |||.||||| 1 MLRICVALCALATCWA...QDCQVSNIQVMQNFDRSRYTGRWYAVAKKDP 47 . . . . . 49 EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED 98 |||| ||:||:|||||.|.|.||| ||| :||||:.||.| ||| || | 48 VGLFLLDNVVAQFSVDESGKMTATAHGRVIILNNWEMCANMFGTFEDTPD 97 99 PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS 148 ||||||:||| ||:|| ||||||::||||| ||: |||| ..||||| | 98 PAKFKMRYWGAASYLQTGNDDHWVIDTDYDNYAIHYSCREVDLDGTCLDG 147 149 YSFVFSRDPNGLPPEAQKIVRQRQEELCLARQYRLIVHNGYCDGRSERNLL 199 |||:||| | || || |||| :..|:| .|| : | |:|: 148 YSFIFSRHPTGLRPEDQKIVTDKKKEICFLGKYRRVGHTGFCESS...... 192

Alignement ► évolution Origine De la vie +vieux fossiles Origine des eucaryotes Eucaryotes/ archaea Plantes Animaux insectes Milliards d’années 4 3 2 1

glyceraldehyde 3-phosphate déshydrogenases Mouche GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA Humain GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA Plante GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA Bacterie GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA Levure GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA Archo b. GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA

Famille des lipocalines Séquences paralogues chez Hs ~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM lipocalin 1 LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF odorant-binding protein 2a TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR progestagen-assoc. endo. VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV apolipoprotein D VKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF retinol-binding protein LQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF neutrophil gelatinase-ass. VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL prostaglandin D2 synthase VQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW alpha-1-microglobulin PKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD... complement component 8 motif ► GXW

Approche générale Choisir les séquences Sélectionner un algorithme Permettre ou pas les gaps Choisir un alignement global ou local Estimer la probabilité que alignement survienne par hasard.

Calcul d’un score d’alignement

L’analyse de Margaret Dayhoff sur 34 familles de protéines Protéine Mutations / 100 millions années Ig kappa chain 37 Kappa casein 33 Lactalbumin 27 Hemoglobin a 12 Myoglobin 8.9 Insulin 4.4 Histone H4 0.10 Ubiquitin 0.00

Fréquence des remplacements 1572 cas (les valeurs sont x10)

Occurrence des aa Gly 8.9% Arg 4.1% Ala 8.7% Asn 4.0% Leu 8.5% Phe 4.0% Lys 8.1% Gln 3.8% Ser 7.0% Ile 3.7% Val 6.5% His 3.4% Thr 5.8% Cys 3.3% Pro 5.1% Tyr 3.0% Glu 5.0% Met 1.5% Asp 4.7% Trp 1.0% bleu=6 codons; rouge=1 codon

“Mutabilité” relative des aa # mut / fréq. occurr. Asn 134 His 66 Ser 120 Arg 65 Asp 106 Lys 56 Glu 102 Pro 56 Ala 100 Gly 49 Thr 97 Tyr 41 Ile 96 Phe 41 Met 94 Leu 40 Gln 93 Cys 20 Val 74 Trp 18

Probabilité de mutation si on accepte 1% de changement Point accepted mutation = 1% ► PAM1 Acide aminé original Acide aminé de remplacement

Les valeurs dans cette matrice réflètent la probabilité de substitution de l’aa original (rangée du haut) par un autre (colonne de gauche.

Matrice de substitution (PAM & BLOSSUM) Contient des valeurs proportionnelles à la probabilité qu’un aa i subisse une mutation en aa j (pour chaque paire aa alignés) Les matrices sont construites empiriquement à partir de séquences connues Elles devraient réfléter la véritable probabilité de mutation sur une période de temps donnée

Matrices PAM Basées sur l’alignement global de protéines très reliées (>85% identité aa) PAM 1 est obtenue par comparaison de séquences qui divergent de 1% ou moins Les autres matrices PAM sont extrapolées à partir de PAM 1

PAM 2000 PAM A Ala R Arg N Asn D Asp C Cys Q Gln E Glu G Gly 8.7% 4.1% N 4.0% D 4.7% C 3.3% Q 3.8% E 5.0% G 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9% 8.9%

Comment extrapoler à partir de PAM1 ? probabilité x probabilité

PAM250 Somme des colonnes = 100 ou 101

Matrice de probabilité de mutation ► Matrice de pointage Donner un pointage (score) à un alignement: ratio de vraisemblance Score Pourquoi le log ? Plus facile d’additionner que de multiplier.

PAM250 Matrice de vraisemblance (log odds)

Pourquoi établir une matrice logarithmique de vraisemblance Sous forme d’un log, il ne reste qu’à additionner les scores pour chaque paire d’aa au lieu de les multiplier

Expl. pour 2 tryptophanes alignés S(W/W)=10 log(0,55/0,010) = 17,4 Un score de +17 pour l’alignement de 2 W signifie que cet alignement est 50 fois plus vraisemblable qu’un alignement simplement du au hasard.

Signification de ces chiffres Score =+2 indique que ce remplacement survient 1.6 fois plus souvent que le voudrait le hasard Score =0 ne dit rien (neutre) Score =-10 indique que la possibilité que l’alignement de ces 2 aa représente correctement une homologie est 10 fois moins probable qu’un alignement par chance des ces 2 aa.

PAM 250

PAM10

PAM250 PAM40 vs 60% identité score=23 hsrbp, 136 CRLLNLDGTC btlact, 3 CLLLALALTC * ** * ** PAM40 vs 24.7% identity in 81 residues overlap; Score: 77.0; Gap frequency: 3.7% hsrbp, 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDV btlact, 21 QTMKGLDIQKVAGTWYSLAMAASD-ISLLDAQSAPLRVYVEELKPTPEGDLEILLQKWEN * **** * * * * ** * hsrbp, 86 --CADMVGTFTDTEDPAKFKM btlact, 80 GECAQKKIIAEKTKIPAVFKI ** * ** ** PAM250

Quelle matrice choisir ? Rat vs souris Rat vs bactérie PAM vs BLOSSUM

BLOSUM Matrices Basées sur des alignements locaux BLOSUM : blocks substitution matrix. Expl: BLOSUM62 est obtenu en groupant les séquences qui ont 62% identité ou plus.

BLOSUM Matrices 100 100 100 collapse collapse 62 62 62 collapse Percent amino acid identity 30 30 30 BLOSUM80 BLOSUM62 BLOSUM30

BLOSUM Matrices Toutes les matrices BLOSSUM sont basées sur des alignements observés; Aucune n’est extrapolée La banque BLOCKS database contient des milliers d’alignements BLOSUM62 est souvent la matrice de défaut dans BLAST

BLOSSUM62 Les scores sont plus faibles ► 2 x logbase2(ratio vraisemblance)

Limites de fiabilité Pourcent identité Differences par 100 residus (PAM) À 15% identité, un ne reconnaît plus d’homologie

à PAM1, 2 protéines sont identiques à 99% PAM10.7 : 10 differences par 100 residus PAM80 : 50 différences PAM250 : 80 differences 2 protéines avec 50% d’identité peuvent avoir subi 80 changements par 100 résidus. N’importe quelle Mutation peut être réversible