Bio-informatique appliquée Concepts et matrices des substitutions

Slides:



Advertisements
Présentations similaires
Introduction à l’analyse
Advertisements

Les carrés et les racines carrées
Cladogramme.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Regroupement (clustering)
Test statistique : principe
Raisonnement et logique
La génétique bactérienne cours 5
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
Génétique Médicale L3 Hérédité mendélienne
Phylogénie et distances génétique
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Estimation de la survie comparaison des courbes de survie FRT C3.
Le remplacement moléculaire
Un nouveau regard sur les données moléculaires
Qu’ont en commun… ? Les modifications génétiques La fibrose kystique
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Etienne Bertaud du Chazaud
Christelle Scharff IFI 2004
Chapitre 2 : Matrice de répartition (S)
Septième étape : travailler avec des graphes probabilistes
Les liens entre les variables et les tests d’hypothèse
Application des algorithmes génétiques
LES BASES MOLÉCULAIRES DE L’HÉRÉDITÉ DU GÈNE À LA PROTÉINE
YASS : Recherche de similarités dans les séquences d'ADN
Alignement de séquences multiples
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Matrices de substitution
Responsables P. Maury & R. Babilé
Alignement de séquences multiples
La phylogénie Définition :
Prédiction de la structure 3-D des protéines
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]
Recombination and the Nature of Bacterial Speciation
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
Résolution des problèmes du chapitre: Génétique des bactéries et de leurs virus Partie I.
Résolution des problèmes du chapitre: Génétique des bactéries et de leurs virus Partie II.
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Les familles de fonctions
Programmation dynamique
Aire d’une figure par encadrement
Rappels- introduction Le vivant =
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Mise en forme en Mathématiques
Présentation de la méthode des Eléments Finis
Etienne Danchin & Amandine Campan Présentation interne, pôle Santé des Plantes, Sophia - Antipolis Mercredi 21 avril 2010 Grille PACA ProActive : retour.
Alignements de séquences par paires
High genomic deleterious mutation rates in hominids Eyre-Walker & P. D. Keightley Letters to Nature, Jan. 99.
Formation Bio-informatique IRD
Analyses phylogénétiques
Familles de gènes Nadia El-Mabrouk.
Alignement de séquences biologiques
Recherche de motifs par projections aléatoires
Introduction à la Bio-Informatique
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.
Recherche heuristique dans les bases de données L’algorithme BLAST
La phylogenèse Définition :
Les banques de séquences nucléiques
Thème 5.4 La cladistique Idée Essentielle: l’ascendance de groupes d’espèces peut être déduite en comparant leurs séquences de bases ou d’acides aminés.
Classification évolutive Travaux pratiques et cas de la lignée verte Cours du 10/03/2016 Présentation: Hugo FONTES Conception : Hugo FONTES et Pierre CELLIER.
Transcription de la présentation:

Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours de Jacques van Helden: http://jacques.van-helden.perso.luminy.univmed.fr/bioinformatics_introductory_course/web_course/BI4U2/ Cours basé sur les cours de Céline Brochier-Armanet et Jacques van Helden

Contenu du cours Modèles évolutifs Alignements de paires de séquences Mutations, duplications, divergence Homologie, orthologie, paralogie, etc … Alignements de paires de séquences Matrices de substitutions Dot plots (dottup, dotmatcher) Alignement par glissement Alignement avec indels Global (Needleman-Wunsch) Local (Smith-Waterman) Recherche de similarités dans les bases de données (Fasta, BLAST) Alignements multiples (ClustalX) Identification de motifs dans les séquences

Similarité % Identité « identities »: Proportion des aa identiques entre les séquences % Similarité « positives »: Proportion des aa similaires entre les séquences Identities = 14/26 (54%), Positives = 15/26 (58%), VCGMWLDGDIAAVDMFTHVEIGDDEV V G W+ GDI MFTH DD EV VAGIWVAGDIRGGPMFTHTAYDDFEV

Similarité % Identité ou similarité maximale: 100% % Identité entre deux séquences nucléiques aléatoires ?

Similarité % Identité ou similarité maximale: 100% % Identité entre deux séquences nucléiques aléatoires ? 4 bases => % Identité attendu entre séquences aléatoires: ¼

Similarité % Identité ou similarité maximale: 100% % Identité entre deux séquences protéiques aléatoires ?

Similarité % Identité ou similarité maximale: 100% % Identité entre deux séquences protéiques aléatoires ? 20 aa => % Identité attendu entre séquences aléatoires: 1/20

Similarité, homologie, analogie La similarité entre deux séquences peut s’interpréter par deux hypothèses alternatives: Homologie: la ressemblance s’explique par le fait que les deux séquences divergent d’un ancêtre commun. Evolution convergente (analogie): les similarités sont apparues dans les deux séquences de façon indépendante, mais ont été sélectionnées pour la même raison.

Homologie Deux séquences sont dites homologues si elles possèdent un ancêtre commun L’existence d’un ancêtre commun est inférée à partir de la similarité Événement évolutif (spéciation, duplication) séquence1 séquence2 Ancêtre commun

Homologie ≠ Similarité L’homologie n’est pas quantifiable Deux séquences sont homologues (possèdent des caractères communs parce qu’elles dérivent d’un ancêtre commun) ou elles ne le sont pas. Raisonnement binaire La similarité est quantifiable On peut dire de deux séquences qu’elles sont similaires à 50% ou 75% 30 % d’identité sur une longueur de 100 AA homologie est probable entre les séquences

Duplication et spéciation Deux séquences qui descendent d’un ancêtre commun divergent. La divergence peut résulter d’une duplication ou d’une spéciation. Evénements de mutations: substitutions, délétions, insertions. a1 a2 divergence now time a duplication ancestral sequence b c divergence now time a speciation ancestral species

Homologie Inférence Avant d’affirmer que deux séquences sont homologues, nous devrions pouvoir retracer leur histoire jusqu’à leur ancêtre commun. Nous ne pouvons malheureusement pas disposer des séquences des espèces disparues. Il est donc impossible de démontrer formellement l’homologie. Cependant, nous pouvons appuyer l’hypothèse d’homologie sur une analyse de la vraisemblance d’un scénario évolutif (taux de mutations, niveaux de similarités). L’inférence d’homologie est toujours attachée à un certain risque de faux positifs.

Homologie ≠ Similarité La formulation correcte : on observe un certain niveau de similarité entre deux séquences (% identité, % similarité). Sur cette base, on évalue des scénarios évolutifs: cette similarité peut provenir d’une évolution convergente (analogie) d’une évolution divergente à partir d’un ancêtre commun (homologie) Similarité due au hasard Si la deuxième hypothèse est la plus vraisemblable, on infère que les séquences sont homologues.

Similarité sans homologie Convergence ou simple hasard pour de courtes séquences (quelques résidus) Score = 32.0 bits (68), Expect = 9.5 Identities = 14/26 (54%), Positives = 14/26 (54%), Gaps = 7/26 (26%) Query 2 VCGMWRDGDI---EMFTH---DD-EV 20 V G W GDI MFTH DD EV Sbjct 304 VAGIWVAGDIRGGPMFTHTAYDDFEV 329

Similarité sans homologie Existence de régions de faible complexité (régions riches en quelques aa., Cas de la fibroïne [GSGAGA]n) …

Homologie sans Similarité Globine gamma humaine vs myoglobine humaine GENE ID: 4151 MB | myoglobin [Homo sapiens] (Over 10 PubMed links) Score = 48.5 bits (114), Expect = 6e-06, Identities = 31/121 (26%), Positives = 53/121 (44%), Gaps = 0/121 (0%) Query 26 GETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIKHLDDLKGT 85 GE L RL +P T FD F +L S + + +K HG VLT+LG +K + Sbjct 9 GEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAE 68 Query 86 FAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTGVASALSSR 145 L++ H K + + + + ++ VL +F + Q + K + ++S Sbjct 69 IKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASN 128 Query 146 Y 146 Y Sbjct 129 Y 129

Homologie sans Similarité Wajcmana et Kiger, 2002

Homologie/analogie Analogie: relation entre deux caractères qui se sont développés de manière convergente à partir d’ancêtres différents. Homologie: L'homologie est la relation entre les deux caractères qui sont descendus, le plus souvent avec une divergence, d'un caractère ancestral commun. Cenancestor: l'ancêtre commun le plus récent des taxons d’intérêt. MRCA (Most Recent Common Ancestor) Fitch, W. M. (2000). Homology a personal view on some of the problems. Trends Genet 16, 227-31.

Les catégories d’homologies Orthologie: paire de gènes homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de spéciation La fonction est souvent conservée au cours de l’évolution des orthologues A, B et C sont orthologues SeqA SeqB SeqC Chat Souris Rat Myoglobines Spéciations

Les catégories d’homologies Paralogie: paire de gènes homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de duplication génique Les fonctions d’un ou de plusieurs paralogues peuvent changer au cours de l’évolution (spécialisation, nouvelle fonction) B et C sont paralogues A et C, A et B sont orthologues Spéciation Duplication SeqA SeqB SeqC Insuline Insuline I Insuline II Chat Souris

Les catégories d’homologies Xénologie: relation entre les deux gènes homologues dont l'histoire, depuis leur ancêtre commun, implique le transfert du matériel génétique interspécifiques (horizontal) Ancêtre de B Ancêtre de A Espèce A Espèce B

Exercise Définissez le type d’homologie/analogies entre chaque paire des gènes. P paralogue O orthologue X xénologue A analogue Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

Exercise Définissez le type d’homologie/analogie entre chaque paire des gènes. P paralogue O orthologue X xénologue A analogue Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

Exercise Définissez le type d’homologie/analogie entre chaque paire des gènes. P paralogue O orthologue X xénologue A analogue Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

Exercise Orthologie peut être une relation 1 à N A1 [orthologue]-> B1 A1 [orthologue]-> B2 L’orthologie est réciproque. A1 <-[orthologue]-> B1 L’orthologie n’est pas transitive A1 <-[orthologue]-> B2 B1 <-[paralogue]-> B2

Exercise A, B, C représentent les espèces 2, 3, 3 les copies des gènes A1 AB1 B1 C1 B2 C2 C3 A, B, C représentent les espèces 2, 3, 3 les copies des gènes Spéciation Duplication

Exercise A, B, C représentent les espèces A1 AB1 B1 C1 B2 C2 C3 A1 C3 C2 B2 C1 AB1 B1 A, B, C représentent les espèces 1, 2, 3 les copies des gènes Les deux arbres sont identiques Spéciation Duplication

Exercise Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entre Seq1 et Seq2 Seq1 et Seq3 Seq1 et Seq4 Seq2 et Seq3 Seq2 et Seq4 Seq3 et Seq4 Seq1 Seq2 Seq3 Seq4 Espèce A Espèce B

Exercise Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entre Seq1 et Seq2 paralogues Seq1 et Seq3 orthologues Seq1 et Seq4 orthologues Seq2 et Seq3 orthologues Seq2 et Seq4 orthologues Seq3 et Seq4 paralogues Spéciation Duplications Seq1 Seq2 Seq3 Seq4 Espèce A Espèce B

Exercise Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entre Seq1 et Seq2 Seq1 et Seq3 Seq1 et Seq4 Seq2 et Seq3 Seq2 et Seq4 Seq3 et Seq4 Seq1 Seq2 Seq3 Seq4 Espèce A Espèce B Espèce A Espèce B

Exercise Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entre Seq1 et Seq2 orthologues Seq1 et Seq3 paralogues Seq1 et Seq4 paralogues Seq2 et Seq3 paralogues Seq2 et Seq4 paralogues Seq3 et Seq4 orthologues Duplication Spéciations Seq1 Seq2 Seq3 Seq4 Espèce A Espèce B Espèce A Espèce B

Alignement Alignez les séquences suivantes: Seq1 GTTACGA Seq2 GTTGGA

Alignement Seq1 GTTACGA Seq2 GTTGGA Seq2 GTT-GGA *** ** Seq2 GTTG-GA Alignement 1 Alignement 2

Alignement des séquences Identification des positions homologues dans les séquences nucléotidique ou protéiques maximiser leurs similarités Alignement de 2 séquences Alignement par paire: Alignement multiple: AACTGCATTGTA AA-TGCAT-GTA AACTCCATTGTA AA-TGAATT-TA ** * ** ** AACTGCATTGTA AA-TGCAT-GTA ** ***** ***

Alignement global et local A1 B1 A’1 C1 A2 C2 A’2 B2 Seq1 Seq2

Alignement global et local A1 B1 A’1 C1 A2 C2 A’2 B2 Seq1 Seq2 Alignement global A1 B1 A’1 C1 Seq1 Seq2 A2 C2 A’2 B2

Alignement global et local A1 B1 A’1 C1 A2 C2 A’2 B2 Seq1 Seq2 Alignement global Alignement local A1 B1 A’1 C1 A1 A2 B1 B2 A’1 A’2 C1 C2 Seq1 A’1 A2 Seq2 A2 C2 A’2 B2 A1 A’2

Matrices des substitutions (matrice des scores) Score: valeur numérique de chaque événement A T C G X Y Score de substitution (Y): 0 Score d’identité (X): 1 Pénalité de gap : -1

Matrices des substitutions G 1 Pénalité de gap : -1 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq2 GTTG-GA Calculez les scores !

Matrices des substitutions G 1 Pénalité de gap : -1 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq2 GTTG-GA Score: 5 -1 = 4

Matrices des substitutions G 5 -4 Pénalité de gap : -10 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq2 GTTG-GA Calculez les scores !

Matrices des substitutions Le valeur de score de l’alignement dépend de matrice de score utilisé A T C G 5 -4 Pénalité de gap : -10 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq2 GTTG-GA Score: (5 x 5) – (1 x 4) –(1 x 10) = 11

Matrices des substitutions G 5 -4 Pénalité de gap : -10 Seq1 GTTACGAGTTACGA Seq2 GTT-GGAGTT-GGA *** ***** ** Seq1 GTTACGA Seq2 GTT-GGA *** ** Calculez les scores et les identités !

Matrices des substitutions Le valeur de score de l’alignement dépend de longueur de l’alignement A T C G 5 -4 Pénalité de gap : -10 Seq1 GTTACGAGTTACGA Seq2 GTT-GGAGTT-GGA *** ***** ** Seq1 GTTACGA Seq2 GTT-GGA *** ** Score: (10 x 5) – (2 x 4) –(2 x 10) = 22 Identité : 5/7 Score: (5 x 5) – (1 x 4) –(1 x 10) = 11

Matrices des substitutions Le score de l’alignement dépend Des matrices de substitutions => impossible de comparer des alignements faits avec des matrices différentes Longueur de l’alignement Les scores servent à optimiser un alignement, une matrice de scores et une pénalité des gaps donnés

Modèle d’évolution Kimura à deux paramètres Modèle d’évolution: intégration des paramètres venant des observations biologiques A T C G X Z Y Score d’identité (X): 1 Score de transition (Y): 0,5 Score de transversion (Z) : 0 Pénalité de gap : -1 Purines A G C T Transition (Y) Transversion (Z) Pyrimidines

Modèle d’évolution; Kimura à deux paramètres C G 1 0,5 A G C T Pénalité de gap : -1 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq2 GTTG-GA Calculez les scores !

Modèle d’évolution A G C T Pénalité de gap : -1 A T C G 1 0,5 0,5 A G C T Pénalité de gap : -1 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq2 GTTG-GA Score: 5 - 1+ 0 = 4 Score: 5 - 1+ 0,5 = 4,5

Pénalité des indels Seq1 GTTGAGGCGTGGAAA Seq2 GTTGCGTGGAAA Alignez les séquences suivantes et calculez les scores: Seq1 GTTGAGGCGTGGAAA Seq2 GTTGCGTGGAAA A T C G 1 0,5 Pénalité de gap : -1

Pénalité des indels Alignement 1 Alignement 2 Alignement 3 Seq1 GTTGAGGCGTGGAAA Seq2 GTT---GCGTGGAAA *** ********* Seq2 GTT--G-CGTGGAAA *** * ******** Seq2 GTTG---CGTGGAAA **** ******** Alignement 1 (12 x 1) – (3 x 1) = 9 Alignement 2 (12 x 1) – (3 x 1) = 9 Alignement 3 (12 x 1) – (3 x 1) = 9 A T C G 1 0,5 Pénalité de gap : -1

Pénalité des indels Calculez les scores ! Seq1 GTTGAGGCGTGGAAA Seq2 GTT---GCGTGGAAA *** ********* Seq2 GTT--G-CGTGGAAA *** * ******** Calculez les scores ! A T C G 1 0,5 Pénalité d’ouverture de gap : -3 Pénalité d’extension de gap :-1

Pénalité des indels Alignement 1 (12x1) – 3 – (3x1) = 6 Alignement 2 Seq1 GTTGAGGCGTGGAAA Seq2 GTT---GCGTGGAAA *** ********* Seq2 GTT--G-CGTGGAAA *** * ******** Alignement 1 (12x1) – 3 – (3x1) = 6 Alignement 2 (12x1) – (2x3) – (3x1) = 3 A T C G 1 0,5 Pénalité d’ouverture de gap : -3 Pénalité d’extension de gap :-1

Alignement Les mutations sont rares Choisir l’hypothèse qui implique le moins de changements évolutifs ET Les changements les plus probables

Fréquence des mutations observés Généralités: f (mutations) > f (mutations observées) f (substitutions) > f (indel) (contre exemple: microsatellites) f (transitions) > f (transversion) Un évènement d’insertion/délétion peut impliquer plusieurs résidus

Évolution des séquences protéiques (1) Plus difficile à modéliser que celui des nucléotides: Un acide aminé peut être remplacé par un autre de différentes façons (code génétique). Phe (UUU, UUC) => Leu(UUA, UUG, CUU, CUC, CUA, CUG) Le nombre de substitutions requises pour passer d’un acide aminé à un autre diffère. Asn (AAU, AAC) => Trp (UGG) 3 mutations; Phe => Leu 1ou 2 mutations La probabilité des substitutions au niveau nucléotidique diffère P(AAU,Asn|GAU,Asp) > P(AAU,Asn|CAU,His) P(Transition) > P(Transversion)

Évolution des séquences protéiques (2) Certaines substitutions peuvent avoir plus ou moins d’effet sur la fonction des protéines. Acide aminés polaires, apolaires, basique, acide, STOP Petit N Q D E K R H Y W F M T S C A G I L V OH Polaire P Hydrophile Aliphatique Hydrophobe NH2 Aromatique Chargé Positif Négatif

Modèles d’évolution des séquence protéiques Mesure des fréquences de substitution dans des alignements de protéines homologues : Matrices basées sur des arbres construits en utilisant le maximum de parcimonie : PAM (Dayhoff et al., 1978). JTT (Jones et al., 1992). Matrices basées sur des arbres construits en utilisant le maximum de vraisemblance : WAG (Whelan et Goldman, 2001). Matrices basées sur des comparaisons par paires utilisant des alignements locaux : BLOSUM (Henikoff et Henikoff, 1992).

Construction d’une matrice de substitution VCGM VGVM Aligner des séquences Compter des occurrences de chaque paire d’aa dans les alignements (y compris les identités) Changer les nombres des occurrences en fréquences V C G M… 1 V C G M… 0,25

Construction d’une matrice de substitution VCGM VGVM Calculer la fréquence de chaque aa. fV= 0,375, fC= 0,125, fG= 0,25, fM= 0,25 Transformer les fréquences en lod- scores (lod-score = "log-odds" = "log des chances" V C G M… 0,25 V C G M… 0,8 NA 1,4 3 2

Matrice PAM Chaque case représente la probabilité de voir ces deux résidus remplacés l'un par l'autre dans un alignement. (matrice lod-score, de "log-odds" ou "log des chances") Valeurs négatives => On observe le remplacement moins souvent qu’on pourrait l’attendre par hasard. Valeurs positives => On observe le remplacement plus souvent qu’on pourrait l’attendre par hasard. fij est la fréquence de remplacement du résidu i par j fi et fj sont les fréquences respectives des résidus i et j

Matrice de PAM (exemple fictif) fG = 0,072 et fA = 0,078 Fréquence de paire Ala-Gly dans les séquences aléatoires: 0,072 x 0,078 = 0,0056 fij = fAG la fréquence de remplacement A-G = 0,008 S = log (fij / (fi x fj)) = log2(0,008/0,0056)=0,5

Matrices PAM et JTT PAM (Point Accepted Mutation) : 71 familles de gènes nucléaires correspondant à 1300 séquences : Séquences peu divergentes entre elles (identité ≥ 85 % entre chaque paire possible dans une famille). Alignements globaux JTT (Jones, Taylor and Thornton) : Construites à partir de 59 190 mutations ponctuelles observées dans 16 300 protéines. Alignements globaux.

Matrice de PAM La table est valable pour une certaine distance évolutive, car les fréquences des substitutions dépendent de taux de divergence entre les séquences. Margaret Dayhoff a calculé une série de matrices; chacune correspondant à un taux de divergence différent PAM001 1% substitution per position en moyenne PAM050 50 % substitution per position en moyenne PAM250 250% substitution per position en moyenne (note: une position peut muter plusieurs fois) La matrice de substitution devrait être choisie en fonction des divergences entre les séquences

Matrice de PAM250 S tryptophane/cystéine = -8 S tyrosine/phénylalanine = 7 S tryptophane/tryptophane = 17

Matrice de PAM250 S tryptophane/cystéine = -8 S tyrosine/phénylalanine = 7 S tryptophane/tryptophane = 17

Matrice de PAM250 (Hinton diagram) Carré jaunes => valeurs positives (mutations acceptés) Carrés rouges=> valeurs négatives (mutations rares). Les tailles de carrés sont proportionnelles aux valeurs absolues des scores

Matrice de BLOSUM BLOSUM (Blocks Substitution Matrices) : Utilisation de ~2000 domaines conservés provenant de 500 familles de protéines. Comparaisons effectuées dans les domaines alignés (banque BLOCKS). Matrices créées à partir de domaines comprenant des séquences ± divergentes : Toutes les paires ayant servi a construire une matrice BLOSUMk ont une identité ≥ à k %. Matrices plus adaptées pour des protéines distantes du point de vue évolutif.

Matrice de BLOSUM62

Choix d’une matrice Pas de matrice idéale. BLOSUM globalement meilleures que PAM. Degré de similarité des séquences. Il est recommandé d’expérimenter !

Score d’un alignement Go : Pénalité d’ouverture de gap (-10) Ge: Pénalité d’extension de gap (-1) i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 R L A S V E T D M P - - - - - L T L R Q H . | . | : : | . : . go ge ge ge ge . . | . . | T L T S L Q T T L K N L K E M A H L G T H S -1 +4 +0 +4 +1 +2 +5 -1 +2 -1 -10 -1 -1 -1 -1 -1 -2 +4 -2 -1 +8 = 7

Références clés pour les matrices de substitutions PAM series Dayhoff, M. O., Schwartz, R. M. & Orcutt, B. (1978). A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure 5, 345--352. BLOSUM substitution matrices Henikoff, S. & Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 89, 10915-9. Gonnet matrices, built by an iterative procedure Gonnet, G. H., Cohen, M. A. & Benner, S. A. (1992). Exhaustive matching of the entire protein sequence database. Science 256, 1443-5. 1.

Bibliographie Tagu et Riesler: Bio-informatique. Principes d’utilisation des outils, 2010, Editions Quae (Code BU: 570.11 BIO) W. Mount. Bioinformatics: Sequence and Genome Analysis. (2004) pp. 692. http://www.bioinformaticsonline.org/ (Code BU: 572.86 MOU) Perrière et Brochier-Armanet: Concepts et méthodes en phylogénie moléculaire, 2010, Springer (BU:570.11 PER) Cours basée sur les cours de Céline Brochier-Armanet et Jacques van Helden