Matrices de substitution

Slides:



Advertisements
Présentations similaires
Direct and Indirect Object Pronouns in French
Advertisements

Les Cases Cachées 3 2 Les Verbes ER Tu/ manger Je/ parler Elles/
Objectif Trouver les facteurs dun nombre. Objective Find the factors of a number.
RAPPORT et TAUX Objectif.
Discussion sur / Discussion on Chapitre 13: Nomenclatures des branches dactivités et des produits et taille des TRE Chapter 13:Classification of Industries.
1 La bibliométrie pour l'évaluation stratégique des institutions de recherche : usages et limites Indicators for strategic positioning of the research.
Mercredi le 28 novembre. Warm-up Ask in 3 different ways the following statements: John et Sophie sont à lécole.
Direct and Indirect Object Pronouns in French
Time with minutes French II Le 30 Octobre.
French 3 & 4 October 17, When I was teaching in France, most of my students had all of their classes with the same group of people. How would this.
1 Initiatives involving the social partners in Europe on climate change and employment policies Denmark : The experience of the Lindoe Offshore Renewable.
Comparaison de deux proportions indépendantes
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
What is todays date and when is your birthday Ask someone what star sign they are and answer Say and ask for the time Say what you do for your birthday.
Révision (p. 130, texte) Nombres (1-100).
Université Des Sciences Et De La Technologie DOran Mohamed Boudiaf USTO République Algérienne Démocratique et Populaire Département de linformatique Projet.
Second part Album Keet.
What does en mean? The object pronoun en usually means some or of them.
French This presentation has been made to help Year 7s with their French It has been made by Sameer Agrawal and Oliver Coates Now Get Learning Please.
Le niveau de vie des étudiants en Europe The standard of living of the students in Europe Observatoire de la vie étudiante / France Padoue Ronan.
Bonjour!!!!!! WEATHER IN COLORADO + SWITZERLAND By AW A-2.
Une Amie Un Ami Français I.
Quelle heure est-il? What time is it?.
____________________ Pourquoi? L/O: To be able to justify your opinion about school subjects STARTER: Trouve les paires Match the French to the English:
1 Encombrement maximum du logotype depuis le bord inférieur droit de la page (logo placé à 1/3X du bord; X = logotype) CapVol Method Mémoire soutenu en.
European Program C OMENIUS Survey – Questionnaire Survey – Questionnaire Renewable energy in its regional context, ways out of the energy crisis Energie.
Assessment and the new secondary curriculum S. Barfoot.
How to solve biological problems with math Mars 2012.
1 of of 40 UPDATE UPDATE ON TV ANTENNAS SINCE LAST BOARD MEETING SINCE LAST BOARD MEETING HELD ON FEBRUARY 25, 2010, YOUR BOARD HAS MADE MORE PROGRESS.
Discussion, Youth Engagement, and Appreciation of Diversity Kelly Campbell 1, Linda Rose-Krasnor 1, Michael Busseri 1, Mark Pancer 2 and the Centre of.
Alignement de séquences multiples
Proposition for a new policy for MAPMT Gain Control Sylvie Dagoret-Campagne LAL EUSO-BALLOON 8th Progress meeting1.
1 La promotion de la santé ancrée dans la loi Le mandat de Promotion Santé Suisse est ancré dans la loi fédérale du 18 mars 1994 sur lassurance maladie.
Alignement de séquences multiples
Techniques de leau et calcul des réseaux séance 2a Michel Verbanck 2012.
Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.
Introduction à la génomique structurelle
Protein data bank (PDB) : structures (oct 2007) SCOP (Structural Classification Of Proteins): 971 folds (major structural similarity) 1586 super-families.
QU’EST-CE QUE TU FAIS?.
CLS algorithm Step 1: If all instances in C are positive, then create YES node and halt. If all instances in C are negative, create a NO node and halt.
Imparfait v. Passé Composé
Les normes: Communication 1.2 Comparisons 4.2 La question essentielle: What is the formula for conjugating -RE verbs and what are some of these verbs?
Thematic Alignment of Static Documents with Meeting Dialogs Dalila Mekhaldi Diva Group Department of Computer Science University of Fribourg.
Donnez l’heure “Time”… it’s a ticking!.
Les nombres.
Français II H – Leçon 1B Structures
Title of topic © 2011 wheresjenny.com Each and Every when to use ?
Vocabulaire 4.2 Français II.
Mon émission préférée Lesson Objectives: In this lesson you will learn how to say what time your favourite programme is on, and on which channel.
Différencier: NOMBRE PREMIER vs. NOMBRE COMPOSÉ
1 Modèle pédagogique d’un système d’apprentissage (SA)
Leçon 4: L’heure Mlle Muhr French 1. The Hour There are 60 minutes in every hour. Each hour can be divided into 4 parts: 15/60 or 1/
Study & revise the numbers carefully.
Quelle heure est-il? What time is it ?.
Formatting of Game © Candace R. Black, Al rights reserved. Révisions!
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
Reprise Rappel 3, Part A Revised 9/10/12.

Orbitales “s” Figure:
Belgian Breast Meeting Senator F. Roelants du Vivier 13th october.
USAM BRIDGE H O W E L L -CLASSIQUE
ANSWERS. What is Verb Conjugation? For one thing, conjugating a verb is simply putting a verb in an orderly arrangement. We will use a chart. To create.
Ministère de l’Éducation, du Loisir et du Sport Responsables des programmes FLS et ELA: Diane Alain et Michele Luchs Animateurs: Diane Alain et Michael.
9 paires séries de 3 étuis ( n° 1 à 27 )
Journal – mardi, le onze nov. Look at your vocab list. Choose 5 words you are still having trouble with and either use them in complete sentences or draw.
Répondons 1 2 vends 2 3 L e s C a s e s C a c h é e s Je/ perdre Elles/ entendre Nous/ répondre Tu/ vendre Les Verbes RE.
To practice: Quantities Un, une, des, de Du, de la, de l’, de Le, la, l’, les.
Transcription de la présentation:

Matrices de substitution Introduction à la bioinformatique Matrices de substitution Jacques van Helden Jacques.van-Helden@univ-amu.fr Université d’Aix-Marseille, France Lab. Technological Advances for Genomics and Clinics (TAGC, INSERM Unit U1090) http://tagc.univ-mrs.fr/

Matrices de substitutions Une matrice de substitution associe un score à chaque paire de résidus qu'on peut trouver dans un alignement. Chaque ligne et chaque colonne représente l'un des résidus (20 acide aminés, 4 nucléotides). La diagonale correspond aux identités. Le triangle inférieur correspond à des substitutions. Le triangle supérieur est symétrique au triangle inférieur, il n'est pas nécessaire d'indiquer les nombres. Les scores négatifs sont considérés comme des pénalités associées à certaines substitutions. Les algorithmes d'alignements tenteront donc d'éviter ces substitutions. Les scores positifs indiquent qu'une substitution est considérée comme "acceptée" dans un alignement, car on la suppose moins dommageable que d'autres substitutions.

Matrices de substitutions nucléotidiques Pour les séquences nucléotidiques, on utilise généralement une pénalité identique pour toute les substitutions. Cependant, on pourrait décider d'assigner un coût plus faible à certaines substitutions (par exemple A<—>T) si l'on considère qu'elles ont plus de chance d'être observées dans des alignements (dans certains génomes, les résidus A et T sont deux fois plus fréquents que les C et G). Exemple: la matrice ci-jointe représente des scores définis de façon arbitraire Identité +2 Substitution A-T -1 Autres substit. -2

Utilisation d'une matrice de substitution pour calculer le score d'un alignement Les matrices de substitution sont utilisées pour calculer le score d'un alignement. Ce score est la somme, pour toutes les positions de l'alignement (i de 1 à L) , des scores des paires de résidus (r1,I et r2,I). Les "gaps" sont traités par une règle spécifique reposant sur deux paramètres de pénalité: Pénalité d'ouverture de gap (go) Valeurs typiques: entre -10 et -15 Pénalité d'extension de gap (ge) Valeurs typiques: entre -0.5 et -2 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 R L A S V E T D M P - - - - - L T L R Q H T L T S L Q T T L K N L K E M A H L G T H S

Utilisation d'une matrice de substitution pour calculer le score d'un alignement Les matrices de substitution sont utilisées pour calculer le score d'un alignement. Ce score est la somme, pour toutes les positions de l'alignement (i de 1 à L) , des scores des paires de résidus (r1,I et r2,I). Les "gaps" sont traités par une règle spécifique reposant sur deux paramètres de pénalité: Pénalité d'ouverture de gap (go) Valeurs typiques: entre -10 et -15 Pénalité d'extension de gap (ge) Valeurs typiques: entre -0.5 et -2 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 R L A S V E T D M P - - - - - L T L R Q H . | . | : : | . : . go ge ge ge ge . . | . . | T L T S L Q T T L K N L K E M A H L G T H S -1 +4 +0 +4 +1 +2 +5 -1 +2 -1 -10 -1 -1 -1 -1 -1 -2 +4 -2 -1 +8 = 7

Construction d'une matrice d'alignement à partir d'une matrice de substitutions Revenons à l'exemple précédent. Haut: une matrice de scores (arbitraires) de substitution pour séquences d'ADN (un score pour chaque paire de nucléotides). Bas: matrice d'alignement pour deux petites séquences d'ADN. Dans chaque cellule de la matrice d'alignement, on insère le score de la paire de résidus correspondants, extrait de la matrice de substitutions. Matrice d'alignement

Occurrences de substitutions dans 71 groupes de protéines alignées (Dayhoff, 1978) Voici les nombres d'occurrences utilisés par Margret Dayhoff, en 1978, pour estimer les paramètres de la série "historique" de matrices PAM ("point accepted mutations").

Substitution matrices for proteins Margaret Dayhoff (1978) a mesuré les taux de substitutions entre chaque paire d'acides aminés, dans une collection de 71 alignements de paires de protéines. A partir des comptages bruts, elle dérive un score de log-odds fi, fj: fréquences des résidus i et j, resp. fi,j: fréquence de la substitution i <-> j Les valeurs positives indiquent des substitutions fréquentes ("acceptées"), càd des substitutions observées plus fréquemment que ce à quoi l'on s'attendrait par hasard. Les valeurs négatives indiquent les mutations rares, càd celles qu'on observe moins fréquemment que ce à quoi l'on s'attendrait par hasard. Ce taux inférieur est interprété comme un indice du contre-sélection, suggérant que ces mutations sont généralement défavorables pour la fonction de la protéine. La diagonale reflète le taux de conservation des résidus. Notons que certains résidus rares ont un score de conservation très important: le score de conservation n'est pas proportionnel à la fréquence. Reference: Dayhoff et al. (1978). A model of evolutionary change in proteins. In Atlas of Protein Sequence and Structure, vol. 5, suppl. 3, 345–352. National Biomedical Research Foundation, Silver Spring, MD, 1978.

PAM scoring matrices The alignments used by Dayhoff had ~85% identity However, frequencies of substitutions are expected to depend on the rate of divergence between sequences: the number of substitutions increases with time. In order to take into account the divergence rate, Margaret Dayhoff calculated a series of scoring matrices, each reflecting a certain level of divergence PAM001 rates of substitutions between amino-acid pairs expected for proteins with an average of 1% substitution per position PAM050 rates of substitutions between amino-acid pairs expected for proteins with an average of 50% substitution per position PAM250 250% mutations/position (note: a position could mutate several times) The substitution matrix must this be chosen according to the relatedness of the sequences to be aligned Reference: Dayhoff et al. (1978). A model of evolutionary change in proteins. In Atlas of Protein Sequence and Structure, vol. 5, suppl. 3, 345–352. National Biomedical Research Foundation, Silver Spring, MD, 1978.

Extrapolation of the PAM series from PAM001 Mi,3=P(X|Arg) M17,j=P(Thr|X) Ala 0.0009 0.0022 0.0001 Arg 0.0002 Asn 0.9822 Asn 0.0013 0.0042 Asp 0.0004 0.0000 Cys 0.0001 0.0004 Gln 0.0003 ... ... ... 0.0013 Thr 0.9871 0.0000 Trp 0.0000 Thr 0.0003 Tyr 0.0002 Val 0.0001 0.0009 P(Asn -> Thr)= P(Asn -> Ala -> Thr) + P(Asn -> Arg -> Thr) + ... + P(Asn -> Val -> Thr) = (0.0009)(0.0001) + (0.0001)(0.0002) + ... + (0.0001)(0.009)

PAM250 matrix

Hinton diagram of the PAM250 matrix Yellow boxes indicate positive values (accepted mutations) Red boxes indicate negative values (avoided mutations). The area of each box is proportional to the absolute value of the log-odds score.

BLOSUM scoring matrices Henikoff and Henikoff (1992) analyzed substitution rates on the basis of aligned regions (blocks) They calculated scoring matrices from blocks with different percentages of protein divergence Example: BLOSUM62 calculated from blocks with >=62% identity BLOSUM80 calculated from blocks with >=80% identity When these substitution matrices are used to score sequence alignments, one should always choose the matrix appropriate to the expected percentage of similarity. How to choose the appropriate matrix ? First alignment with an average matrix (BLOSUM62). Observation of the %identity in this alignment -> choice of a matrix with corresponding index. Re-alignment if required. Examples: Alignment has 65.2% identity -> the first alignment with BLOSUM62 was correct Alignment has 28.4% identity -> redo the alignment with BLOSUM30 Alignment has 81.5% -> redo alignment with BLOSUM80. Reference: Henikoff, S. and Henikoff, J.G. (1992). Amino acid substitution matrices from protein blocks. PNAS 89:10915-10919.

BLOSUM30

BLOSUM62

BLOSUM80

BLOSUM62 – Amino acid properties

BLOSUM62 - substitutions between acidic residues

BLOSUM62- substitutions between basic residues

BLOSUM62 - substitutions between aromatic residues

BLOSUM62 - substitutions between polar residues

BLOSUM62 - substitutions between hydrophobic residues

Substitution matrices - summary Different substitution scoring matrices have been established Residue categories (Phylip) PAM (Dayhoff, 1979). PAM means “Percent Accepted Mutations” BLOSUM (Henikoff & Henikoff, 1992). BLOSUM means “Block sum”. Substitution matrices allow to detect similarities between more distant proteins than what would be detected with the simple identity of residues. The matrix must be chosen carefully, depending on the expected rate of conservation between the sequences to be aligned. Beware With PAM matrices the score indicates the percentage of substitution per position -> higher numbers are appropriate for more distant proteins With BLOSUM matrices the score indicates the percentage of conservation -> higher numbers are appropriate for more conserved proteins

Bibliography Substitution matrices PAM series Dayhoff, M. O., Schwartz, R. M. & Orcutt, B. (1978). A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure 5, 345--352. BLOSUM substitution matrices Henikoff, S. & Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 89, 10915-9. Gonnet matrices, built by an iterative procedure Gonnet, G. H., Cohen, M. A. & Benner, S. A. (1992). Exhaustive matching of the entire protein sequence database. Science 256, 1443-5. 1.