Calcul de la structure de guidage

Slides:



Advertisements
Présentations similaires
Phylogenetik Conception, développement et tests d’un logiciel en java
Advertisements

1 L’INFORMATION STATISTIQUE INFRA ANNUELLE, UNE COMPOSANTE ESSENTIELLE DE L’ANALYSE DE LA CONJONCTURE Ali EL AKKAOUI Rabat, le 21 octobre 2010.
L’ÉTUDE DE CAS, OU COMMENT NE PAS ÊTRE À CÔTÉ DE LA PLAQUE AVEC L’INDUCTION.

Enseigner l’arithmétique en série L Réflexions sur les contenus et les exigences.
Inter académiques Orléans 2007 Analyse d'activités pouvant donner lieu à développement dans et hors la classe. Durée : 1h30 ● Problématique ● Présentation.
Anomalies génétiques Dr Fanomezantsoa Ravelosaona Interne des Hôpitaux 6 ème semestre USFR Neurologie HUJRB FACULTE DE MEDECINE UNIVERSITE D’ANTANANARIVO.
Plans Intempéries -- Analyse de l'existant Éléments de méthode Réunion des correspondants PGT 26 mai 2009.
M. Aharrouche page 1 PAF 2007 Mesure de l’asymétrie avant-arrière dans les événements Z  e+e- Mohamed Aharrouche* (LAPP-Annecy ) Introduction Mesure de.
Refonte du portail eaufrance Présentation du cadre de référence pour avis GCIB – 14/10/2014 – Anne Macaire.
Plan Présentation de 2TUP 2TUP, un processus UP 2TUP et UML Les apports de 2TUP 2TUP en détail 2TUP dans la pratique.
Enseigner autrement les mathématiques au travers du socle commun et des nouveaux programmes Un collège réformé, adapté et contextualisé.
Acquisition Rapide Multivoies
Maciej ORKISZ Jean-Christophe RICHARD
La ProbabilitÉ.
METHODE REALISER UNE ETUDE DES FLUX CLIENTS
La Politique Qualité 1.
MOT Éditeur de modèles de connaissances par objets typés
Anne-Charlotte Vaissière, Adeline Bierry, Fabien Quétier
Présentation générale de la réforme
Couche limite atmosphérique
Plan de la séance 2.
Activités algorithmiques
Master Réseaux et Systèmes Distribués (RSD) Algorithmique des systèmes
La Conclusion.
Plans d’expériences: Plans factoriels
Technologies de l’intelligence d’affaires Séance 14
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
TRACES NUMÉRIQUES DE MOBILITÉ : COMMENT SUIVRE LA PISTE ?
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Techniques du Data Mining
INTELLIGENCE ARTIFICIELLE
ANFH - La Réunion – 16 novembre 2017
D3 – Produire, traiter, exploiter et diffuser des documents numériques
Les hélices des protéines transmembranaires
Les diagrammes de quartiles
Stabilité des porteurs horizontaux (Poutres)
Introduction aux statistiques Intervalles de confiance
Détecteurs et descripteurs
Nouveaux programmes de sciences et de technologie : comment décliner l’enseignement au cours du cycle 3 ? Après les programmes, leur contenu… leur déclinaison…
Techniques du Data Mining
Diagrammes UML 420-KE2-LG.
Les fondamentaux de la Data Science Théorie
La politique publique, les universitaires, et les practitiens
Programme financé par l’Union européenne
Production neuve résidentielle de villes moyennes et stratégies de promoteurs : Les cas de Niort et La Rochelle CLEMENT Maxime Directeur de recherche:
May 4th – 5th 2009, Rabat, Morocco
Base de donnée de support
Programme financé par l’Union européenne
Université de la méditerranée
Professeur LISA Galina PhD. en Economie
LA SYNTHESE EN CHIMIE ORGANIQUE
Mesures de Position Dispersion et Forme
FORMATION POWERPOINT 2007/2010
BIO1130 LAB 4 MICROÉVOLUTION.
Le code de Huffman: est une méthode de compression statistique de données qui permet de réduire la longueur du codage d'un alphabet. Le code de Huffman.
JDepend - Analyse de la qualité du code Java -
Un Mécanisme d‘Adaptation Guidé par le Contexte en Utilisant une Représentation par Objets Manuele Kirsch Pinheiro Laboratoire LSR – IMAG, Équipe SIGMA.
Chapitre 8 : Organisation et gestion de données
Reconnaissance de formes: lettres/chiffres
Présenté par: Souleymane MOUSSA Encadré par: M’hammed SAHNOUN
Opérateurs et fonctions arithmétiques Opérateurs de relation Opérateurs logiques Cours 02.
L’analyse de la valeur des projets informatiques
Arbre binaire.
I. Aouichak, I. Elfeki, Y. Raingeaud, J.-C. Le Bunetel
MOT Éditeur de modèles de connaissances par objets typés
Projet de Fin d'Études SEGUIN Pauline et SIMON Raphaëlle
Niveau : Seconde Partie du programme : Géosciences et dynamique des sols Dans ce thème, l’étude des paysages actuels permet de comprendre les mécanismes.
Transcription de la présentation:

Calcul de la structure de guidage 21/11/2018

Contexte Géraldine Polaillon Jean-Christophe Aude Jean-Loup Risler Département Informatique Jean-Christophe Aude DBJC, SBGM Jean-Loup Risler Laboratoire Statistique & Génome Exposé volontairement didactique et peu théorique. Je ferai certains raccourcis mais je souhaite m’adresser au plus grand nombre. 21/11/2018

L’alignement multiple de séquences Caractériser une famille de séquences Déterminer la séquence consensus de plusieurs séquences alignées Aider à prédire les structures secondaires et tertiaires de nouvelles séquences Etude préliminaire d’une étude phylogénétique Seq1 VTISCTGSSSNIGAG-NHVKWYQQLPG Seq2 VTISCTGTSSNIGS--ITVNWYQQLPG Seq3 LRLSCSSSGFIFSS--YAMYWVRQAPG Seq4 LSLTCTVSGTSFDD--YYSTWVRQPPG Seq5 PEVTCVVVDVSHEDPQVKFNWYVDG-- Seq6 ATLVCLISDFYPGA--VTVAWKADS-- Seq7 AALGCLVKDYFPEP--VTVSWNSG--- Seq8 VSLTCLVKGFYPSD--IAVEWWSNG-- 21/11/2018

Evènements et modélisation Substitution Séq1 VTI SCTG S SSNIGA G NHVKWYQQ --- Séq2 --- SCTG T SSNIGS – ITVNWYQQ LPG Insertion ou délétion Substitutions : Matrice de score Insertion ou délétion : Pénalités d’ouverture et d’extension de gaps Généralisation de l’algorithme de programmation dynamique d’alignement de 2 séquences est impossible 21/11/2018

Les différents approches Progressif Itératif Local Global dialign Clustalw Mafft Muscle Probcons POA T-Coffee prrp Multal MultiAlign MLpima SBpima HmmT Saga DC-mixed M-Align PileUp8 21/11/2018

Exemple concret : les tRNA synthétases HIGH KMSKS SYI_ECOLI HLGH KMSKS SYL_ECOLI + SYM_ECOLI et SYV_ECOLI ClustalW : alignement erroné DiAlign : alignement correct Nouvelles méthodes (Mafft, Probcons, Muscle) : alignement corrects 21/11/2018

Alignement multiple progressif 21/11/2018

Algorithme de type progressif Composé de 3 étapes Permet d’aligner un grand nombre de séquences Alignements par paire Calcul d’un arbre de guidage Alignement progressif 21/11/2018

Alignement par paires A B C D 4 séquences A,B,C,D Utilisation d’alphabet réduit Transformée rapide de Fourier … Matrice de similarité A B C D 10 5 7 2 - 4 9 Alignement de toutes les paires de séquences 21/11/2018

Arbre de guidage B D A C Matrice de similarité A B C D 10 5 7 2 - 4 9 Neighbor Joining UPGMA Combinaison du lien simple et de la moyenne … Arbre de guidage B D Construction de l’arbre A C similarité 21/11/2018

Alignement multiple [1/3] Arbre de guidage B D A C Alignement B Alignement des paires les plus similaires D gaps pour optimiser l’alignement 21/11/2018

Alignement multiple [2/3] Arbre de guidage B D A C Alignement des paires les plus similaires Alignement A C 21/11/2018

Alignement multiple [3/3] Alignement final B D A C Nouveau gap pour optimiser l’alignement de (BD) avec (AC) 21/11/2018

Influence de la structure de guidage 21/11/2018

Méthodes de construction d’arbre Implémentées dans ClustalW : Neighbor-Joining BioNJ La classification hiérarchique ascendante Lien simple, lien complet, moyenne (UPGMA), Ward A B C D 10 5 7 2 - 4 9 B D A C 21/11/2018

Les méthodes de distance Les deux étapes les différenciant : Déterminer la paire d’objets à fusionner pour créer un nouveau nœud Réduire la matrice en calculant les distances entre ce nouveau nœud et tous les autres A B 1 C 3 8 D 5 2 6 A B 1 C 3 8 D 5 2 6 A B 1 C 3 8 D 5 2 6 A B 1 C 3 8 D 5 2 6 Y C ? D 6 Y = A U B 21/11/2018

Bases d’alignements de référence Ces bases sont nombreuses, en général, créées manuellement à partir d’alignements structuraux Balibase [Thompson, 99] SabMark [Van Walle,] Prefab [Edgar, 04 ] OxBench [Raghava, 03] Pali [Balaji, 01] … 21/11/2018

Sensibilité et spécificité [Carillo, 88] Sensibilité (ou sum-of-pairs ou FDevelopper) Nombre de résidus correctement alignés Longueur de l’alignement de référence Spécificité (ou reverse sum-of-pairs ou FModeler) Longueur de l’alignement test Autres scores existants : Cline score [Cline, 02], Circular Sum [Gonnet, 00] 21/11/2018

Balibase. Résultats La meilleure méthode dépend du problème traité The data are divided into four areas of equal frequency. The length of the grey box represents the interquartile range of the data (50%). The median is represented as a vertical line inside the box. The mean is plotted as a point. * indicates the aggregation criteria of the AHC. La meilleure méthode dépend du problème traité 21/11/2018

Propriétés des séquences La meilleure méthode dépend des propriétés des séquences 21/11/2018

Influence de la structure de guidage Balibase SABmark Ref 1 Ref 2 Ref 3 Ref 4 Ref 5 Twilight zone Superfamilies NJ  + de benchmarks BioNJ  CAHs CAHc CAHm CAHw PyrH Weighbor + de méthodes BME BMEb BMEf GME GMEb GMEf 21/11/2018

Conclusion L’étape de calcul de l’arbre de guidage est critique pour les méthodes progressives Aucune méthode n’est la meilleure dans tous les cas La meilleure méthode dépend des propriétés des séquences En cours : Proposer des modèles de décision en fonction des séquences à aligner Un meilleur arbre permet-il de réduire le nombre d’itération de l’étape d’amélioration ? 21/11/2018