Calcul de la structure de guidage 21/11/2018
Contexte Géraldine Polaillon Jean-Christophe Aude Jean-Loup Risler Département Informatique Jean-Christophe Aude DBJC, SBGM Jean-Loup Risler Laboratoire Statistique & Génome Exposé volontairement didactique et peu théorique. Je ferai certains raccourcis mais je souhaite m’adresser au plus grand nombre. 21/11/2018
L’alignement multiple de séquences Caractériser une famille de séquences Déterminer la séquence consensus de plusieurs séquences alignées Aider à prédire les structures secondaires et tertiaires de nouvelles séquences Etude préliminaire d’une étude phylogénétique Seq1 VTISCTGSSSNIGAG-NHVKWYQQLPG Seq2 VTISCTGTSSNIGS--ITVNWYQQLPG Seq3 LRLSCSSSGFIFSS--YAMYWVRQAPG Seq4 LSLTCTVSGTSFDD--YYSTWVRQPPG Seq5 PEVTCVVVDVSHEDPQVKFNWYVDG-- Seq6 ATLVCLISDFYPGA--VTVAWKADS-- Seq7 AALGCLVKDYFPEP--VTVSWNSG--- Seq8 VSLTCLVKGFYPSD--IAVEWWSNG-- 21/11/2018
Evènements et modélisation Substitution Séq1 VTI SCTG S SSNIGA G NHVKWYQQ --- Séq2 --- SCTG T SSNIGS – ITVNWYQQ LPG Insertion ou délétion Substitutions : Matrice de score Insertion ou délétion : Pénalités d’ouverture et d’extension de gaps Généralisation de l’algorithme de programmation dynamique d’alignement de 2 séquences est impossible 21/11/2018
Les différents approches Progressif Itératif Local Global dialign Clustalw Mafft Muscle Probcons POA T-Coffee prrp Multal MultiAlign MLpima SBpima HmmT Saga DC-mixed M-Align PileUp8 21/11/2018
Exemple concret : les tRNA synthétases HIGH KMSKS SYI_ECOLI HLGH KMSKS SYL_ECOLI + SYM_ECOLI et SYV_ECOLI ClustalW : alignement erroné DiAlign : alignement correct Nouvelles méthodes (Mafft, Probcons, Muscle) : alignement corrects 21/11/2018
Alignement multiple progressif 21/11/2018
Algorithme de type progressif Composé de 3 étapes Permet d’aligner un grand nombre de séquences Alignements par paire Calcul d’un arbre de guidage Alignement progressif 21/11/2018
Alignement par paires A B C D 4 séquences A,B,C,D Utilisation d’alphabet réduit Transformée rapide de Fourier … Matrice de similarité A B C D 10 5 7 2 - 4 9 Alignement de toutes les paires de séquences 21/11/2018
Arbre de guidage B D A C Matrice de similarité A B C D 10 5 7 2 - 4 9 Neighbor Joining UPGMA Combinaison du lien simple et de la moyenne … Arbre de guidage B D Construction de l’arbre A C similarité 21/11/2018
Alignement multiple [1/3] Arbre de guidage B D A C Alignement B Alignement des paires les plus similaires D gaps pour optimiser l’alignement 21/11/2018
Alignement multiple [2/3] Arbre de guidage B D A C Alignement des paires les plus similaires Alignement A C 21/11/2018
Alignement multiple [3/3] Alignement final B D A C Nouveau gap pour optimiser l’alignement de (BD) avec (AC) 21/11/2018
Influence de la structure de guidage 21/11/2018
Méthodes de construction d’arbre Implémentées dans ClustalW : Neighbor-Joining BioNJ La classification hiérarchique ascendante Lien simple, lien complet, moyenne (UPGMA), Ward A B C D 10 5 7 2 - 4 9 B D A C 21/11/2018
Les méthodes de distance Les deux étapes les différenciant : Déterminer la paire d’objets à fusionner pour créer un nouveau nœud Réduire la matrice en calculant les distances entre ce nouveau nœud et tous les autres A B 1 C 3 8 D 5 2 6 A B 1 C 3 8 D 5 2 6 A B 1 C 3 8 D 5 2 6 A B 1 C 3 8 D 5 2 6 Y C ? D 6 Y = A U B 21/11/2018
Bases d’alignements de référence Ces bases sont nombreuses, en général, créées manuellement à partir d’alignements structuraux Balibase [Thompson, 99] SabMark [Van Walle,] Prefab [Edgar, 04 ] OxBench [Raghava, 03] Pali [Balaji, 01] … 21/11/2018
Sensibilité et spécificité [Carillo, 88] Sensibilité (ou sum-of-pairs ou FDevelopper) Nombre de résidus correctement alignés Longueur de l’alignement de référence Spécificité (ou reverse sum-of-pairs ou FModeler) Longueur de l’alignement test Autres scores existants : Cline score [Cline, 02], Circular Sum [Gonnet, 00] 21/11/2018
Balibase. Résultats La meilleure méthode dépend du problème traité The data are divided into four areas of equal frequency. The length of the grey box represents the interquartile range of the data (50%). The median is represented as a vertical line inside the box. The mean is plotted as a point. * indicates the aggregation criteria of the AHC. La meilleure méthode dépend du problème traité 21/11/2018
Propriétés des séquences La meilleure méthode dépend des propriétés des séquences 21/11/2018
Influence de la structure de guidage Balibase SABmark Ref 1 Ref 2 Ref 3 Ref 4 Ref 5 Twilight zone Superfamilies NJ + de benchmarks BioNJ CAHs CAHc CAHm CAHw PyrH Weighbor + de méthodes BME BMEb BMEf GME GMEb GMEf 21/11/2018
Conclusion L’étape de calcul de l’arbre de guidage est critique pour les méthodes progressives Aucune méthode n’est la meilleure dans tous les cas La meilleure méthode dépend des propriétés des séquences En cours : Proposer des modèles de décision en fonction des séquences à aligner Un meilleur arbre permet-il de réduire le nombre d’itération de l’étape d’amélioration ? 21/11/2018