La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours.

Présentations similaires


Présentation au sujet: "Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours."— Transcription de la présentation:

1 Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours de Jacques van Helden: helden.perso.luminy.univmed.fr/bioinformatics_introductory_c ourse/web_course/BI4U2/ Cours basé sur les cours de Céline Brochier-Armanet et Jacques van Helden

2 Modèles évolutifs –Mutations, duplications, divergence –Homologie, orthologie, paralogie, etc … Alignements de paires de séquences –Matrices de substitutions –Dot plots (dottup, dotmatcher) –Alignement par glissement –Alignement avec indels Global (Needleman-Wunsch) Local (Smith-Waterman) –Recherche de similarités dans les bases de données (Fasta, BLAST) Alignements multiples (ClustalX) Identification de motifs dans les séquences Contenu du cours

3 % Identité « identities »: Proportion des aa identiques entre les séquences % Similarité « positives »: Proportion des aa similaires entre les séquences Similarité Identities = 14/26 (54%), Positives = 15/26 (58%), VCGMWLDGDIAAVDMFTHVEIGDDEV V G W+ GDI MFTH DD EV VAGIWVAGDIRGGPMFTHTAYDDFEV

4 % Identité ou similarité maximale:100% % Identité entre deux séquences nucléiques aléatoires ? Similarité

5 % Identité ou similarité maximale: 100% % Identité entre deux séquences nucléiques aléatoires ? 4 bases => % Identité attendu entre séquences aléatoires: ¼ Similarité

6 % Identité ou similarité maximale:100% % Identité entre deux séquences protéiques aléatoires ? Similarité

7 % Identité ou similarité maximale: 100% % Identité entre deux séquences protéiques aléatoires ? 20 aa => % Identité attendu entre séquences aléatoires: 1/20 Similarité

8 La similarité entre deux séquences peut sinterpréter par deux hypothèses alternatives: –Homologie: la ressemblance sexplique par le fait que les deux séquences divergent dun ancêtre commun. –Evolution convergente (analogie): les similarités sont apparues dans les deux séquences de façon indépendante, mais ont été sélectionnées pour la même raison. Similarité, homologie, analogie

9 Deux séquences sont dites homologues si elles possèdent un ancêtre commun Lexistence dun ancêtre commun est inférée à partir de la similarité Événement évolutif (spéciation, duplication) séquence1 séquence2 Ancêtre commun Homologie

10 Lhomologie nest pas quantifiable –Deux séquences sont homologues (possèdent des caractères communs parce quelles dérivent dun ancêtre commun) ou elles ne le sont pas. –Raisonnement binaire La similarité est quantifiable –On peut dire de deux séquences quelles sont similaires à 50% ou 75% 30 % didentité sur une longueur de 100 AA homologie est probable entre les séquences Homologie Similarité

11 Deux séquences qui descendent dun ancêtre commun divergent. La divergence peut résulter dune duplication ou dune spéciation. Evénements de mutations: substitutions, délétions, insertions. Duplication et spéciation a1a2 divergence now time a duplication ancestral sequence bc divergence now time a speciation ancestral species

12 Inférence –Avant daffirmer que deux séquences sont homologues, nous devrions pouvoir retracer leur histoire jusquà leur ancêtre commun. –Nous ne pouvons malheureusement pas disposer des séquences des espèces disparues. Il est donc impossible de démontrer formellement lhomologie. –Cependant, nous pouvons appuyer lhypothèse dhomologie sur une analyse de la vraisemblance dun scénario évolutif (taux de mutations, niveaux de similarités). –Linférence dhomologie est toujours attachée à un certain risque de faux positifs. Homologie

13 La formulation correcte : on observe un certain niveau de similarité entre deux séquences (% identité, % similarité). Sur cette base, on évalue des scénarios évolutifs: cette similarité peut provenir –dune évolution convergente (analogie) –dune évolution divergente à partir dun ancêtre commun (homologie) –Similarité due au hasard Si la deuxième hypothèse est la plus vraisemblable, on infère que les séquences sont homologues. Homologie Similarité

14 Convergence ou simple hasard pour de courtes séquences (quelques résidus) Score = 32.0 bits (68), Expect = 9.5 Identities = 14/26 (54%), Positives = 14/26 (54%), Gaps = 7/26 (26%) Query 2 VCGMWRDGDI---EMFTH---DD-EV 20 V G W GDI MFTH DD EV Sbjct 304 VAGIWVAGDIRGGPMFTHTAYDDFEV 329 Similarité sans homologie

15 Existence de régions de faible complexité (régions riches en quelques aa., Cas de la fibroïne [GSGAGA]n) … Similarité sans homologie

16 Globine gamma humaine vs myoglobine humaine GENE ID: 4151 MBGENE ID: 4151 MB | myoglobin [Homo sapiens] (Over 10 PubMed links) Score = 48.5 bits (114), Expect = 6e-06, Identities = 31/121 (26%), Positives = 53/121 (44%), Gaps = 0/121 (0%) Query 26 GETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIKHLDDLKGT 85 GE L RL +P T FD F +L S + + +K HG VLT+LG +K + Sbjct 9 GEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAE 68 Query 86 FAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTGVASALSSR 145 L++ H K VL +F + Q + K + ++S Sbjct 69 IKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASN 128 Query 146 Y 146 Y Sbjct 129 Y 129 Homologie sans Similarité

17 Wajcmana et Kiger, 2002 Homologie sans Similarité

18 Analogie: relation entre deux caractères qui se sont développés de manière convergente à partir dancêtres différents. Homologie: L'homologie est la relation entre les deux caractères qui sont descendus, le plus souvent avec une divergence, d'un caractère ancestral commun. Cenancestor: l'ancêtre commun le plus récent des taxons dintérêt. MRCA (Most Recent Common Ancestor) Homologie/analogie Fitch, W. M. (2000). Homology a personal view on some of the problems. Trends Genet 16,

19 Orthologie : paire de gènes homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de spéciation La fonction est souvent conservée au cours de lévolution des orthologues A, B et C sont orthologues Les catégories dhomologies SeqA SeqB SeqC Chat Souris Rat Myoglobines Spéciations

20 Paralogie: paire de gènes homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de duplication génique Les fonctions dun ou de plusieurs paralogues peuvent changer au cours de lévolution (spécialisation, nouvelle fonction) B et C sont paralogues A et C, A et B sont orthologues SeqA SeqB SeqC Insuline Insuline I Insuline II Chat Souris Spéciation Duplication Les catégories dhomologies

21 Xénologie: relation entre les deux gènes homologues dont l'histoire, depuis leur ancêtre commun, implique le transfert du matériel génétique interspécifiques (horizontal) Espèce AEspèce B Ancêtre de B Ancêtre de A Les catégories dhomologies

22 Exercise Définissez le type dhomologie/analogies entre chaque paire des gènes. –Pparalogue –Oorthologue –Xxénologue –Aanalogue Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

23 Exercise Définissez le type dhomologie/analogie entre chaque paire des gènes. –Pparalogue –Oorthologue –Xxénologue –Aanalogue Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal

24 Exercise Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal Définissez le type dhomologie/analogie entre chaque paire des gènes. –Pparalogue –Oorthologue –Xxénologue –Aanalogue

25 Exercise Orthologie peut être une relation 1 à N A1 [orthologue]-> B1 A1 [orthologue]-> B2 Lorthologie est réciproque. A1 B1 Lorthologie nest pas transitive A1 B1 A1 B2 B1 B2

26 Exercise A1 AB1 B1 C1 B2 C2 C3 A, B, C représentent les espèces 2, 3, 3 les copies des gènes Spéciation Duplication

27 Exercise A, B, C représentent les espèces 1, 2, 3 les copies des gènes A1 AB1 B1 C1 B2 C2 C3 Spéciation Duplication A1 C3 C2 B2 C1 AB1 B1 Les deux arbres sont identiques

28 Espèce A Espèce B Seq1 Seq2 Seq3 Seq4 Marquez les spéciations et les duplications sur larbre et déterminez le type dhomologie entre Seq1 et Seq2 Seq1 et Seq3 Seq1 et Seq4 Seq2 et Seq3 Seq2 et Seq4 Seq3 et Seq4 Exercise

29 Espèce A Espèce B Seq1 Seq2 Seq3 Seq4 Marquez les spéciations et les duplications sur larbre et déterminez le type dhomologie entre Seq1 et Seq2paralogues Seq1 et Seq3orthologues Seq1 et Seq4orthologues Seq2 et Seq3orthologues Seq2 et Seq4orthologues Seq3 et Seq4paralogues Spéciation Duplications Exercise

30 Espèce A Espèce B Seq1 Seq2 Seq3 Seq4 Marquez les spéciations et les duplications sur larbre et déterminez le type dhomologie entre Seq1 et Seq2 Seq1 et Seq3 Seq1 et Seq4 Seq2 et Seq3 Seq2 et Seq4 Seq3 et Seq4 Exercise

31 Espèce A Espèce B Seq1 Seq2 Seq3 Seq4 Marquez les spéciations et les duplications sur larbre et déterminez le type dhomologie entre Seq1 et Seq2 orthologues Seq1 et Seq3 paralogues Seq1 et Seq4 paralogues Seq2 et Seq3 paralogues Seq2 et Seq4 paralogues Seq3 et Seq4 orthologues Spéciations Duplication Exercise

32 Alignez les séquences suivantes: Seq1 GTTACGA Seq2 GTTGGA Alignement

33 Seq1 GTTACGA Seq2 GTTGGA Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Alignement 1 Alignement 2 Alignement

34 Identification des positions homologues dans les séquences nucléotidique ou protéiques maximiser leurs similarités AACTGCATTGTA AA-TGCAT-GTA ** ***** *** Alignement de 2 séquences Alignement par paire : Alignement multiple : AACTGCATTGTA AA-TGCAT-GTA AACTCCATTGTA AA-TGAATT-TA ** * ** ** Alignement des séquences

35 A1 B1 A1 C1 A2 C2 A2 B2 Seq1 Seq2 Alignement global et local

36 A1 B1 A1 C1 A2 C2 A2 B2 Seq1 Seq2 Alignement global A1 B1 A1 C1 A2 C2 A2 B2 Seq2 Seq1 Alignement global et local

37 A1 B1 A1 C1 A2 C2 A2 B2 Seq1 Seq2 Alignement global Alignement local A1 B1 A1 C1 A2 C2 A2 B2 Seq2 Seq1 A1 A2 B1 B2 A1 A2 C1 C2 A1 A2 A1 A2 Alignement global et local

38 Score: valeur numérique de chaque événement Score de substitution (Y): 0 Score didentité (X):1 Pénalité de gap : -1 ATCG AXYYY TYXYY CYYXY GYYYX Matrices des substitutions (matrice des scores)

39 ATCG A1000 T0100 C0010 G0001 Pénalité de gap : -1 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Calculez les scores ! Matrices des substitutions

40 ATCG A1000 T0100 C0010 G0001 Pénalité de gap : -1 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Score: 5 -1 = 4 Matrices des substitutions

41 ATCG A5-4 T 5 C 5 G 5 Pénalité de gap : -10 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Calculez les scores ! Matrices des substitutions

42 ATCG A5-4 T 5 C 5 G 5 Pénalité de gap : -10 Score: (5 x 5) – (1 x 4) –(1 x 10) = 11 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Matrices des substitutions Le valeur de score de lalignement dépend de matrice de score utilisé

43 ATCG A5-4 T 5 C 5 G 5 Pénalité de gap : -10 Seq1 GTTACGAGTTACGA Seq2 GTT-GGAGTT-GGA *** ***** ** Seq1 GTTACGA Seq2 GTT-GGA *** ** Calculez les scores et les identités ! Matrices des substitutions

44 ATCG A5-4 T 5 C 5 G 5 Pénalité de gap : -10 Seq1 GTTACGAGTTACGA Seq2 GTT-GGAGTT-GGA *** ***** ** Seq1 GTTACGA Seq2 GTT-GGA *** ** Score: (10 x 5) – (2 x 4) –(2 x 10) = 22 Identité : 5/7 Score: (5 x 5) – (1 x 4) –(1 x 10) = 11 Identité : 5/7 Matrices des substitutions Le valeur de score de lalignement dépend de longueur de lalignement

45 Le score de lalignement dépend –Des matrices de substitutions => impossible de comparer des alignements faits avec des matrices différentes –Longueur de lalignement Les scores servent à optimiser un alignement, une matrice de scores et une pénalité des gaps donnés Matrices des substitutions

46 A G C T ATCG AXZZY TZXYZ CZYXZ GYZZX Score didentité (X):1 Score de transition (Y):0,5 Score de transversion (Z) :0 Pénalité de gap : -1 Modèle dévolution: intégration des paramètres venant des observations biologiques Purines Pyrimidines Modèle dévolution Kimura à deux paramètres Transition (Y) Transversion (Z)

47 A G C T ATCG A1000,5 T01 0 C0 10 G 001 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Pénalité de gap : -1 Calculez les scores ! Modèle dévolution; Kimura à deux paramètres

48 A G C T ATCG A1000,5 T01 0 C0 10 G 001 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Score: = 4 Score: ,5 = 4,5 Pénalité de gap : -1 Modèle dévolution

49 Alignez les séquences suivantes et calculez les scores: Seq1 GTTGAGGCGTGGAAA Seq2 GTTGCGTGGAAA ATCG A1000,5 T01 0 C0 10 G 001 Pénalité de gap : -1 Pénalité des indels

50 Seq1 GTTGAGGCGTGGAAA Seq2 GTT---GCGTGGAAA *** ********* Seq1 GTTGAGGCGTGGAAA Seq2 GTT--G-CGTGGAAA *** * ******** Seq1 GTTGAGGCGTGGAAA Seq2 GTTG---CGTGGAAA **** ******** Alignement 1 (12 x 1) – (3 x 1) = 9 ATCG A1000,5 T01 0 C0 10 G 001 Pénalité de gap : -1 Alignement 2 (12 x 1) – (3 x 1) = 9 Pénalité des indels Alignement 3 (12 x 1) – (3 x 1) = 9

51 ATCG A1000,5 T01 0 C0 10 G 001 Pénalité douverture de gap : -3 Pénalité dextension de gap :-1 Calculez les scores ! Pénalité des indels Seq1 GTTGAGGCGTGGAAA Seq2 GTT---GCGTGGAAA *** ********* Seq1 GTTGAGGCGTGGAAA Seq2 GTT--G-CGTGGAAA *** * ********

52 Alignement 1 (12x1) – 3 – (3x1) = 6 ATCG A1000,5 T01 0 C0 10 G 001 Pénalité douverture de gap : -3 Pénalité dextension de gap :-1 Alignement 2 (12x1) – (2x3) – (3x1) = 3 Pénalité des indels Seq1 GTTGAGGCGTGGAAA Seq2 GTT---GCGTGGAAA *** ********* Seq1 GTTGAGGCGTGGAAA Seq2 GTT--G-CGTGGAAA *** * ********

53 Les mutations sont rares Choisir lhypothèse qui implique le moins de changements évolutifs ET Les changements les plus probables Alignement

54 Généralités: –f (mutations) > f (mutations observées) –f (substitutions) > f (indel) (contre exemple: microsatellites) –f (transitions) > f (transversion) –Un évènement dinsertion/délétion peut impliquer plusieurs résidus Fréquence des mutations observés

55 Plus difficile à modéliser que celui des nucléotides : –Un acide aminé peut être remplacé par un autre de différentes façons (code génétique). Phe (UUU, UUC) => Leu(UUA, UUG, CUU, CUC, CUA, CUG) –Le nombre de substitutions requises pour passer dun acide aminé à un autre diffère. Asn (AAU, AAC) => Trp (UGG) 3 mutations; Phe => Leu 1ou 2 mutations –La probabilité des substitutions au niveau nucléotidique diffère P(AAU, Asn |GAU, Asp ) > P(AAU, Asn |CAU, His ) P(Transition) > P(Transversion) Évolution des séquences protéiques (1)

56 –Certaines substitutions peuvent avoir plus ou moins deffet sur la fonction des protéines. Acide aminés polaires, apolaires, basique, acide, STOP NQNQ DEDE KRKR H Y W F M T S C A G I L V P Petit OH Polaire Hydrophile NH2 Chargé Négatif Positif Aromatique Hydrophobe Aliphatique Évolution des séquences protéiques (2)

57 Mesure des fréquences de substitution dans des alignements de protéines homologues : –Matrices basées sur des arbres construits en utilisant le maximum de parcimonie : PAM (Dayhoff et al., 1978). JTT (Jones et al., 1992). –Matrices basées sur des arbres construits en utilisant le maximum de vraisemblance : WAG (Whelan et Goldman, 2001). –Matrices basées sur des comparaisons par paires utilisant des alignements locaux : BLOSUM (Henikoff et Henikoff, 1992). Modèles dévolution des séquence protéiques

58 Construction dune matrice de substitution Aligner des séquences Compter des occurrences de chaque paire daa dans les alignements (y compris les identités) Changer les nombres des occurrences en fréquences VCGM VGVM VCGM…M… V 0,25 C 00 G 0 M…M… 000 VCGM…M… V 1 C 00 G 110 M…M… 0001

59 Construction dune matrice de substitution Calculer la fréquence de chaque aa. f V = 0,375, f C = 0,125, f G = 0,25, f M = 0,25 Transformer les fréquences en lod- scores (lod-score = "log-odds" = "log des chances" VCGM VGVM VCGM…M… V 0,8 C NA G 1,43 NA M…M… 2 VCGM…M… V 0,25 C 00 G 0 M…M… 000

60 Matrice PAM Chaque case représente la probabilité de voir ces deux résidus remplacés l'un par l'autre dans un alignement. (matrice lod- score, de "log-odds" ou "log des chances") Valeurs négatives => On observe le remplacement moins souvent quon pourrait lattendre par hasard. Valeurs positives => On observe le remplacement plus souvent quon pourrait lattendre par hasard. f ij est la fréquence de remplacement du résidu i par j f i et f j sont les fréquences respectives des résidus i et j

61 –f G = 0,072 et f A = 0,078 –Fréquence de paire Ala-Gly dans les séquences aléatoires: 0,072 x 0,078 = 0,0056 –f ij = f AG la fréquence de remplacement A-G = 0,008 –S = log (f ij / (f i x f j )) = log 2 (0,008/0,0056)=0,5 Matrice de PAM (exemple fictif)

62 PAM (Point Accepted Mutation) : –71 familles de gènes nucléaires correspondant à 1300 séquences : Séquences peu divergentes entre elles (identité 85 % entre chaque paire possible dans une famille). –Alignements globaux JTT (Jones, Taylor and Thornton) : –Construites à partir de mutations ponctuelles observées dans protéines. –Alignements globaux. Matrices PAM et JTT

63 La table est valable pour une certaine distance évolutive, car les fréquences des substitutions dépendent de taux de divergence entre les séquences. Margaret Dayhoff a calculé une série de matrices; chacune correspondant à un taux de divergence différent PAM0011% substitution per position en moyenne PAM05050 % substitution per position en moyenne PAM250250% substitution per position en moyenne (note: une position peut muter plusieurs fois) La matrice de substitution devrait être choisie en fonction des divergences entre les séquences Matrice de PAM

64 S tryptophane/cystéine = -8 S tyrosine/phénylalanine = 7 S tryptophane/tryptophane = 17 Matrice de PAM250

65 S tryptophane/cystéine = -8 S tyrosine/phénylalanine = 7 S tryptophane/tryptophane = 17

66 Matrice de PAM250 (Hinton diagram) Carré jaunes => valeurs positives (mutations acceptés) Carrés rouges=> valeurs négatives (mutations rares). Les tailles de carrés sont proportionnelles aux valeurs absolues des scores

67 BLOSUM (Blocks Substitution Matrices) : –Utilisation de ~2000 domaines conservés provenant de 500 familles de protéines. –Comparaisons effectuées dans les domaines alignés (banque BLOCKS). –Matrices créées à partir de domaines comprenant des séquences ± divergentes : Toutes les paires ayant servi a construire une matrice BLOSUMk ont une identité à k %. Matrices plus adaptées pour des protéines distantes du point de vue évolutif. Matrice de BLOSUM

68 Matrice de BLOSUM62

69 Pas de matrice idéale. –BLOSUM globalement meilleures que PAM. Degré de similarité des séquences. Il est recommandé dexpérimenter ! Choix dune matrice

70 Score dun alignement i R L A S V E T D M P L T L R Q H. |. | : : |. :. go ge ge ge ge.. |.. | T L T S L Q T T L K N L K E M A H L G T H S = 7 Go : Pénalité douverture de gap (-10) Ge: Pénalité dextension de gap (-1)

71 Matrices de substitution –PAM series Dayhoff, M. O., Schwartz, R. M. & Orcutt, B. (1978). A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure 5, –BLOSUM substitution matrices Henikoff, S. & Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 89, –Gonnet matrices, built by an iterative procedure Gonnet, G. H., Cohen, M. A. & Benner, S. A. (1992). Exhaustive matching of the entire protein sequence database. Science 256, Références clés pour les matrices de substitutions

72 Bibliographie Tagu et Riesler: Bio-informatique. Principes dutilisation des outils, 2010, Editions Quae ( Code BU: BIO ) W. Mount. Bioinformatics: Sequence and Genome Analysis. (2004) pp ( Code BU: MOU )http://www.bioinformaticsonline.org/ Perrière et Brochier-Armanet: Concepts et méthodes en phylogénie moléculaire, 2010, Springer (BU: PER) Cours basée sur les cours de Céline Brochier-Armanet et Jacques van Helden


Télécharger ppt "Bio-informatique appliquée Concepts et matrices des substitutions Emese Meglécz Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours."

Présentations similaires


Annonces Google