Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

La Méthode de Simplexe Standardisation
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Thomas G. Dietterich Approximate Statistical Tests for Comparing
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Test statistique : principe
Métaheuristiques pour l’optimisation combinatoire
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
Les K plus proches voisins
Phylogénie et distances génétique
Les TESTS STATISTIQUES
3. Analyse et estimation du mouvement dans la vidéo
Colloque Traitement et Analyse de séquences : compte-rendu
Échantillonnage-Estimation
Dr DEVILLE Emmanuelle J D V 12/07/2006
Le remplacement moléculaire
Modélisation Bayésienne par chaines de Markov Monte Carlo
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
L’échange naturel Le choix individuel de Robinson l’amène à déterminer les termes d’un contrat naturel d’échange, selon lequel, en échange des quantités.
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Tests de comparaison de moyennes
QTLmap et les données ayant une distribution non gaussienne
YASS : Recherche de similarités dans les séquences d'ADN
RECONNAISSANCE DE FORMES
Décodage des informations
Détection et isolation de défauts dans les procédés industriels Contrôle Statistique des Procédés Statistical Process Control (SPC)
Groupe 1: Classes de même intervalle
Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 9 Séance du 4 avril 2014 Benoît Laplante, professeur.
Plan d’expérience dynamique pour la maximisation
Opération et systèmes de décision Faculté des Sciences de l administration MQT Probabilités et statistique Mesures caractéristiques.
Comprendre la variation dans les données: Notions de base
CSI 4506: Introduction à l’intelligence artificielle
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Gestion de Fichiers Hachage (suite). 2 Plan du cours daujourdhui Prédiction de la distribution des enregistrements Réduction des collisions en augmentant.
Mécanique Statistique
La théorie de la communication de C. Shannon
Recherche heuristique dans les bases de données L’algorithme BLAST
10 février 2006GDR ISIS Journée Localisation et Navigation Projet EGNOS-BUS (Eurêka) André Monin, Wael Suleiman LAAS-CNRS.
Théorème de la limite centrale l’inférence statistique
Marquez cette valeur sur le diagramme à points de la question 6. La moyenne réelle des nombres de lettres par mots dans la population de l'ensemble des.
Intervalles de confiance pour des proportions L’inférence statistique
CSI 4506: Introduction à l’Intelligence Artificielle
Probabilités et Statistiques Année 2010/2011
Vers une loi à densité. Masse en gEffectifFréquence % [600,800[1162,32 [800,900[3957,9 [900,1000[91818,36 [1000,1100[124824,96 [1100,1200[121824,36 [1200,1300[71514,3.
TNS et Analyse Spectrale
Recherche de motifs par projections aléatoires
Concepts fondamentaux: statistiques et distributions
Tests d’ajustement à une distribution théorique
L’erreur standard et les principes fondamentaux du test de t
Méthode des moindres carrés (1)
1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.
Recherche heuristique dans les bases de données L’algorithme BLAST
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Échantillonnage (STT-2000)
Analyse des semis de point
Probabilités et statistique MQT-1102
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Introduction aux statistiques Intervalles de confiance
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score

Définitions: Un motif est un ensemble doccurrences dans les séquences (taille contrainte) La répartition des occurrences est contrainte à une par séquence. La fonction objectif est lentropie relative (ou ratio des vraisemblances)

Définitions P: espace des motifs (~lmoy N ) M: espace des mots (K W ) Deux opérateurs permettent détablir une correspondance entre les deux espaces.

Définitions Q: espace des motifs représentables par un mot (selon lopérateur de projection) Q est inclu dans P Q a au plus la taille de M M P Q

Les déplacements dans P (hill climbing) 1) Voisinage par séquence (Lawrence et al., Science, 1993) Un point de P (un motif) est représenté par un vecteur dentiers à N dimensions, chaque dimension représentant une position sur la séquence correspondante. On ne modifie quune dimension à la fois. Les dimensions sont prises dans un ordre prédéfini, ou aléatoirement, sans remise. On choisit la position qui maximise la fonction objectif (entropie relative)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Les déplacements dans P (hill climbing) 1) Voisinage par séquence (Lawrence et al., Science, 1993) Un point de P (un motif) est représenté par un vecteur dentiers à N dimensions, chaque dimension représentant une position sur la séquence correspondante. On ne modifie quune dimension à la fois. Les dimensions sont prises dans un ordre prédéfini, ou aléatoirement, sans remise. On choisit la position qui maximise la fonction objectif (entropie relative)

Les déplacements dans P (hill climbing) 1) Voisinage par séquence (Lawrence et al., Science, 1993) Un point de P (un motif) est représenté par un vecteur dentiers à N dimensions, chaque dimension représentant une position sur la séquence correspondante. On ne modifie quune dimension à la fois. Les dimensions sont prises dans un ordre prédéfini, ou aléatoirement, sans remise. On choisit la position qui maximise la fonction objectif (entropie relative)

Les déplacements dans P (hill climbing) 2) Phase shift (Lawrence et al., Science, 1993) Le voisinage comprend lensemble des vecteurs de position relatifs. Opérateur destiné à corriger les motifs mal calés

Les déplacements dans P (hill climbing) 2) Phase shift (Lawrence et al., Science, 1993) Le voisinage comprend lensemble des vecteurs de position relatifs. Opérateur destiné à corriger les motifs mal calés

Performance de l'exploration: On mesure la capacité à trouver le meilleur point possible en un temps donné. Stratégies d'exploration: Recherche locale à partir de points aléatoires de P Gibbs sampler (hill-climbing stochastique), à partir de points aléatoires de P Recherche locale à partir de points aléatoires de Q Recherche locale à partir de points de Q choisis par un algorithme génétique (MoDEL).

Utilisation dun set de 16 protéines qui contiennent un domaine HTH. Ensemble de séquences construit à partir dinformation phylogénétique issue de: Rosinski & Atchley: 1999, molecular evolution of helix-turn- helix proteins Protéines distantes: faible conservation entre les sites, quasiment aucune conservation hors des sites.

Un 'succès' signifie que le maximum supposé a été atteint. le taux de succès est estimé sur 100 instances CPU: AMD athlon 1.5 GHz

Statistique sur le score Lentropie relative (ou log likelihood ratio) mesure une 'distance' entre les fréquences observées dans l'alignement, avec celles du background (=celles qu'on s'attend à trouver pour des alignements aléatoires). Cette mesure nous permet de comparer des alignements qui ont les mêmes paramètres libres, à savoir: le cardinal de lalphabet le background (paramètres dune distribution multinomiale) la longueur des sites le nombre de sites le nombre de libertés des sites (~longueur moyenne des séquences si on contraint le modèle à une occurrence par séquence)

On ne peut donc pas comparer des alignements qui nont pas les mêmes paramètres (de longueurs différentes par ex.) Une solution est dutiliser une statistique comme la p-value ou le z-score, (le score du score en fonction des paramètres libres). Z-score: nombre décart-types à la moyenne. P-value: probabilité de lobservation quand lhypothèse nulle est vraie. Pval(x) = probabilité dobtenir un score supérieur ou égal à x par hasard. Hypothèse nulle: « Il ny a pas de motif » Randomisation des séquences (on garde les mêmes paramètres libres, mais on détruit les motifs potentiels).

Statistique dalignement multiple local dans la littérature: Consensus: (Hertz & Stormo 1999) P-value: probabilité dobtenir un score supérieur ou égal, dans un ensemble aléatoire de même nombre de séquences et composition, mais de longueur infinie. MEME: (Bailey & Elkan 1995) E-value: nombre dalignements avec un score supérieur ou égal, que lon peut sattendre à trouver dans les séquences randomisées.

HTHs: Résultat de MEME (serveur de linstitut pasteur)

HTHs: Résultats de Consensus: Capacité exploratoire limitée, ne trouve pas les sites. HTHs: Statistique de Consensus: (score optimisé par MoDEL) Estime une p-value de 1.84E-37 pour le score optimal: Estime une p-value de 1.7E-33 pour un score optimisé, avec des séquences randomisées. Avantage: rapide (peut être effectuée on the fly et permet de détecter la longueur optimale (en tout cas sur les HTHs) Désavantage: La valeur ne nous indique pas si on peut 'croire' à l'alignement produit.

Si on veut une signification statistique, une méthode est destimer la probabilité dobserver un score optimisé sur les séquences randomisées, qui soit supérieur ou égal au score obtenu sur les séquences originales. On ne sait pas le faire analytiquement, donc: Génération déchantillons: On optimise un alignement sur un grand nombre de séquences randomisées (~200) Fitting de la distribution des scores avec une fonction de densité Calcul de la p-value à partir de la fonction de densité

Comparaison d'alignements de différentes longueurs, par rapport à la p-value

Temps de calcul trop important pour une estimation on the fly ~1 à 3 heures de temps-cpu pour estimer la p-value dune longueur donnée Projet: Déterminer les valeurs des paramètres de l'EVD (loc, scale et shape), en fonction des paramètres libres (sans échantillonnage): Nombre de sites (nombre de séquences) Nombre de libertés des sites (longueur moyenne des séquences) Background (entropie des paramètres) Longueur de lalignement ~10 points par dimension: * 3 = 30000h temps-cpu pour échantillonner lespace.

Comportement de loc, scale et shape en fonction de la longueur: