Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parEdith Larrivée Modifié depuis plus de 9 années
1
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo
2
2 Plan 1.Présentation 2.Etude comparative des codages des acides aminés 3.Alignement de séquences
3
3 Présentation CRIL = Apprentissage symbolique Bioinformatique: E. MEPHU NGUIFO H. FU H. DELALIN Projets: Génopole Lille
4
Etude comparative des codages des acides aminés Huaiguo FU Encadrement: E. MEPHU NGUIFO
5
5 Codage des Acides Aminés Idée: Stocker des informations en plus du caractère. Ex: Alanine = A = 65 (ASCII)= 01000001 But: Comparer 4 méthodes de représentation binaire des acides aminés afin de trouver la meilleure représentation possible. Huaiguo FU [ Poster, ECCB’02 ] HydChaPolSmaAliAro Ala100100
6
6 2 codages basés sur les propriétés physico-chimiques des AAs: - Dickerson & Geis (1969) - Sallantin, Marlière & Saurin (1984) 2 codages obtenus par des méthodes d’intelligence artificielle (IA): - Gracy & Mephu - De la Maza (1994) Codage des Acides Aminés Huaiguo FU [ Poster, ECCB’02 ]
7
7 Méthode de comparaison: Clusterisation de chaque représentation (algorithme « Ward ») Analyse manuelle de chaque cluster. Validation grâce à l’algorithme C4.5 Codage des Acides Aminés Huaiguo FU [ Poster, ECCB’02 ]
8
8 Résultats: - Les codages obtenus par apprentissage automatique peuvent refléter une certaine réalité biologique. - Ce n’est pas forcément les codages basés sur les propriétés des AA qui les représentent le mieux. Utilisation possible dans différentes applications Codage des Acides Aminés Huaiguo FU [ Poster, ECCB’02 ]
9
Alignement de séquences Hugues DELALIN Encadrement: E. MEPHU NGUIFO
10
10 Alignement de séquences. L’objectif de tels algorithmes est de révéler des régions proches. Nécessité de mettre en œuvre des procédures de calcul et des modèles biologiques afin de quantifier la notion de ressemblance entre séquences. On se base sur le principe de parcimonie.
11
11 Calcul d’un score. Score peut mesurer rapprochement ou éloignement. Attribution d’un score élémentaire pour chaque position. ATGC A1000 T0100 G0010 C0001 Exemple: A T T G C C : : : Score = 3 T T G C C C A T T G C C : Score = 1 T T G C C C A T T G C C : : : : : Score = 5 T T G C C C
12
12 Gestion des gaps. Fixe : chaque insertion d’une base a le même coût. Affine : définition d’un coût de création de gap et d’un coût d’extension. Variable en fonction de l’endroit où on se trouve dans la séquence. (Argos et Vingron, 1990)
13
13 Remarques: Le score d’un alignement dépend de la longueur de la zone de similitude que l’on considère. On peut nuancer le calcul du score en donnant plus ou moins d’importance aux pénalités et aux associations possibles entre résidus.
14
14 Matrices de substitution. Séquences d’ADN: - coût d’un « match » > 0. - coût d’un « mismatch » < 0. Séquences protéiques: - matrices liées à l’évolution. (Dayhoff et al., 1978) (PAM) (Jones et al., 1992) - matrices liées aux caractéristiques physico- chimiques. (Henikoff et Henikoff, 1992) (BLOSUM)
15
15 Needleman & Wunsh (1970). VTEERDAF L2-2-3 -4-22 T030001-3 S100001-3 H-21121 -2 E 04430-5 A0100-202-4 L2-2-3 -4-22
16
16 Needleman & Wunsh (1970). VTEERDAF L2-2-3 -4-22 T030001-3 S100001-3 H-211251-2 E 04472-5 A0100-224-4 L2-2-3 -4-22
17
17 Needleman & Wunsh (1970). VTEERDAF L2-2-3 -4-22 T030001-3 S100701-3 H-211251-2 E 04472-5 A0100-224-4 L2-2-3 -4-22
18
18 Needleman & Wunsh (1970). VTEERDAF L147664402 T101299643-3 S81099743-3 H6798951-2 E2488372-5 A2322024-4 L2-2-3 -4-22
19
19 Needleman & Wunsh (1970). VTEERDAF L147664402 T101299643-3 S81099743-3 H6798951-2 E2488372-5 A2322024-4 L2-2-3 -4-22 Résultat: VT-EERDAF LTSHE--AL
20
20 Utilisation des représentations binaires. On utilise les algorithmes classiques. Les scores élémentaires ne sont plus obtenus grâce à une matrice de substitution. Une opération booléenne entre les représentations des 2 acides aminés que l’on compare sert de base au calcul des scores élémentaires.
21
21 Choix de l’opérateur booléen. ET logique si on ne s’intéresse qu’à la présence des attributs. XOR: le OU exclusif si on s’intéresse autant à l’absence qu’à la présence des attributs. Exemple: A → 0001 ; L → 0011 A ET L→ 0001 A ¬XOR L → 1101
22
22 Exemple de résultat: Algorithme de Smith et Waterman (1981) (b) BINALIGN (Gracy & Mephu, 12 attributs) Identité:54/221 (24.4%) Gaps:42/221 (19.0%) d1qqp1_ 1 TTSAGESADPVT_T__TVENY__GGETQ_IQRRQHTDVSFIM_DRFVKVT 43 |||...|...||. |.|.. |..|....|......|....|..|| d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQAERFFKTHLFDWVT 71 (a) EMBOSS (BLOSUM62) Identité:34/173 (19.7%) Gaps:55/173 (31,8%) d1qqp1_ 1 TTSAGESADPVT---TTVENY------- GGETQIQRRQHTDVSFIMDRFV 40 |||..:|:..||.|.|:: |.||::.:.:||. d1qqp2_ 22 TTSTTQSSVGVTYGYATAEDFVSGPNTSGLETRVVQ------ ---AERFF 62
23
23 Perspectives Coût en temps d’exécution et espace mémoire. Mesure de la qualité des alignements obtenus à partir de : - bases connues (CASA, SCOP) - alignements corrigés manuellement. Alignement de structures (DSSP).
24
24 Références Hubbard TJ, Ailey B, Brenner SE, Murzin AG, Chothia C. SCOP: a structural classification of proteins database. Nucleic Acids Res. 1999 27:254-256. http://scop.mrc-lmb.cam.ac.uk/scop/ http://scop.mrc-lmb.cam.ac.uk/scop/ Kabsch W. & Sander C. Dictionary of protein secondary structure: Pattern recognition of hydrogen-bonded and geometrical features, Biopolymers. 1983 22:2577-2637. http://www.sander.ebi.ac.uk/dssp/ http://www.sander.ebi.ac.uk/dssp/ Kahsay R, Dongre N, Guang G, Wang G, Dunbrack RL Jr. CASA: A Server for The Critical Assessment of Sequence Alignment Accuracy, Bioinformatics. Submitted. http://capb.dbi.udel.edu/casa/ http://capb.dbi.udel.edu/casa/
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.