La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Calcul de la structure de guidage

Présentations similaires


Présentation au sujet: "Calcul de la structure de guidage"— Transcription de la présentation:

1 Calcul de la structure de guidage
21/11/2018

2 Contexte Géraldine Polaillon Jean-Christophe Aude Jean-Loup Risler
Département Informatique Jean-Christophe Aude DBJC, SBGM Jean-Loup Risler Laboratoire Statistique & Génome Exposé volontairement didactique et peu théorique. Je ferai certains raccourcis mais je souhaite m’adresser au plus grand nombre. 21/11/2018

3 L’alignement multiple de séquences
Caractériser une famille de séquences Déterminer la séquence consensus de plusieurs séquences alignées Aider à prédire les structures secondaires et tertiaires de nouvelles séquences Etude préliminaire d’une étude phylogénétique Seq1 VTISCTGSSSNIGAG-NHVKWYQQLPG Seq2 VTISCTGTSSNIGS--ITVNWYQQLPG Seq3 LRLSCSSSGFIFSS--YAMYWVRQAPG Seq4 LSLTCTVSGTSFDD--YYSTWVRQPPG Seq5 PEVTCVVVDVSHEDPQVKFNWYVDG-- Seq6 ATLVCLISDFYPGA--VTVAWKADS-- Seq7 AALGCLVKDYFPEP--VTVSWNSG--- Seq8 VSLTCLVKGFYPSD--IAVEWWSNG-- 21/11/2018

4 Evènements et modélisation
Substitution Séq1 VTI SCTG S SSNIGA G NHVKWYQQ --- Séq SCTG T SSNIGS – ITVNWYQQ LPG Insertion ou délétion Substitutions : Matrice de score Insertion ou délétion : Pénalités d’ouverture et d’extension de gaps Généralisation de l’algorithme de programmation dynamique d’alignement de 2 séquences est impossible 21/11/2018

5 Les différents approches
Progressif Itératif Local Global dialign Clustalw Mafft Muscle Probcons POA T-Coffee prrp Multal MultiAlign MLpima SBpima HmmT Saga DC-mixed M-Align PileUp8 21/11/2018

6 Exemple concret : les tRNA synthétases
HIGH KMSKS SYI_ECOLI HLGH KMSKS SYL_ECOLI + SYM_ECOLI et SYV_ECOLI ClustalW : alignement erroné DiAlign : alignement correct Nouvelles méthodes (Mafft, Probcons, Muscle) : alignement corrects 21/11/2018

7 Alignement multiple progressif
21/11/2018

8 Algorithme de type progressif
Composé de 3 étapes Permet d’aligner un grand nombre de séquences Alignements par paire Calcul d’un arbre de guidage Alignement progressif 21/11/2018

9 Alignement par paires A B C D 4 séquences A,B,C,D
Utilisation d’alphabet réduit Transformée rapide de Fourier Matrice de similarité A B C D 10 5 7 2 - 4 9 Alignement de toutes les paires de séquences 21/11/2018

10 Arbre de guidage B D A C Matrice de similarité A B C D 10 5 7 2 - 4 9
Neighbor Joining UPGMA Combinaison du lien simple et de la moyenne Arbre de guidage B D Construction de l’arbre A C similarité 21/11/2018

11 Alignement multiple [1/3]
Arbre de guidage B D A C Alignement B Alignement des paires les plus similaires D gaps pour optimiser l’alignement 21/11/2018

12 Alignement multiple [2/3]
Arbre de guidage B D A C Alignement des paires les plus similaires Alignement A C 21/11/2018

13 Alignement multiple [3/3]
Alignement final B D A C Nouveau gap pour optimiser l’alignement de (BD) avec (AC) 21/11/2018

14 Influence de la structure de guidage
21/11/2018

15 Méthodes de construction d’arbre
Implémentées dans ClustalW : Neighbor-Joining BioNJ La classification hiérarchique ascendante Lien simple, lien complet, moyenne (UPGMA), Ward A B C D 10 5 7 2 - 4 9 B D A C 21/11/2018

16 Les méthodes de distance
Les deux étapes les différenciant : Déterminer la paire d’objets à fusionner pour créer un nouveau nœud Réduire la matrice en calculant les distances entre ce nouveau nœud et tous les autres A B 1 C 3 8 D 5 2 6 A B 1 C 3 8 D 5 2 6 A B 1 C 3 8 D 5 2 6 A B 1 C 3 8 D 5 2 6 Y C ? D 6 Y = A U B 21/11/2018

17 Bases d’alignements de référence
Ces bases sont nombreuses, en général, créées manuellement à partir d’alignements structuraux Balibase [Thompson, 99] SabMark [Van Walle,] Prefab [Edgar, 04 ] OxBench [Raghava, 03] Pali [Balaji, 01] 21/11/2018

18 Sensibilité et spécificité [Carillo, 88]
Sensibilité (ou sum-of-pairs ou FDevelopper) Nombre de résidus correctement alignés Longueur de l’alignement de référence Spécificité (ou reverse sum-of-pairs ou FModeler) Longueur de l’alignement test Autres scores existants : Cline score [Cline, 02], Circular Sum [Gonnet, 00] 21/11/2018

19 Balibase. Résultats La meilleure méthode dépend du problème traité
The data are divided into four areas of equal frequency. The length of the grey box represents the interquartile range of the data (50%). The median is represented as a vertical line inside the box. The mean is plotted as a point. * indicates the aggregation criteria of the AHC. La meilleure méthode dépend du problème traité 21/11/2018

20 Propriétés des séquences
La meilleure méthode dépend des propriétés des séquences 21/11/2018

21 Influence de la structure de guidage
Balibase SABmark Ref 1 Ref 2 Ref 3 Ref 4 Ref 5 Twilight zone Superfamilies NJ + de benchmarks BioNJ CAHs CAHc CAHm CAHw PyrH Weighbor + de méthodes BME BMEb BMEf GME GMEb GMEf 21/11/2018

22 Conclusion L’étape de calcul de l’arbre de guidage est critique pour les méthodes progressives Aucune méthode n’est la meilleure dans tous les cas La meilleure méthode dépend des propriétés des séquences En cours : Proposer des modèles de décision en fonction des séquences à aligner Un meilleur arbre permet-il de réduire le nombre d’itération de l’étape d’amélioration ? 21/11/2018


Télécharger ppt "Calcul de la structure de guidage"

Présentations similaires


Annonces Google