Recherche de motifs par projections aléatoires

Slides:



Advertisements
Présentations similaires
L’échantillonnage & Ses Fluctuations
Advertisements

Comparaison de deux algorithmes d’approximation
Théorie des graphes.
Chap. 4 Recherche en Table
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Collecte de données F. Kohler.
Les K plus proches voisins
3. Analyse et estimation du mouvement dans la vidéo
Diffusion Nationale TOULOUSE -Avril 2006 STS Web Services libres Constituer les services libres.
Diffusion Nationale TOULOUSE -Mars 2006 STS Web Services libres.
Le remplacement moléculaire
INTRODUCTION.
Modélisation des systèmes non linéaires par des SIFs
8. Les tableaux P. Costamagna – ISEN N1.
variable aléatoire Discrète
Chapitre II.Rappels mathématiques et complexité
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Apprendre à partir des observations
Tests de comparaison de moyennes
Plus courts chemins On présente dans ce chapitre un problème typique de cheminement dans les graphes : la recherche d'un plus court chemin entre deux sommets.
Algorithmes Branch & Bound
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Fonction puissance Montage préparé par : André Ross
Travail Pratique – Conception et analyse d’algorithmes
IFT-2000: Structures de Données Introduction à lanalyse dalgorithmes Dominic Genest, 2009.
La segmentation
Rappel... Solution itérative de systèmes linéaires (suite et fin).
Plan d’expérience dynamique pour la maximisation
Génération d’un segment de droite
Gestion de Fichiers Tri Interne Efficace et Tri Externe.
Chapitre 4 La probabilité
Algorithmes d ’approximation
Algorithmes probabilistes
Efficacité des algorithmes
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Ordonnancement de tâches
Théorie de l’échantillonnage (STT-6005)
Analyse des Algorithmes
Recherche heuristique dans les bases de données L’algorithme BLAST
Méthodes de prévision (STT-3220)
INTRODUCTION.
Scénario Quatre hommes entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones cellulaires.
Programmation linéaire en nombres entiers
Méthodes de tri.
Présentation du marché obligataire
Algorithmes Branch & Bound
Crawlers Parallèles Présentation faite par: Mélanie AMPRIMO
D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Performance de circuits.
TNS et Analyse Spectrale
Sujets spéciaux en informatique I
Modelisation/ Analyse - Equations differentielles
La recherche de vertex dans CMS : le recuit déterministe Nicolas Estre – IPN Lyon – Journées Jeunes Chercheurs 2003.
Mais quel est donc le taux d’inflation actuel ? J.C. Lambelet et D. Nilles Catherine Roux Alvaro Aparicio Gregor Banzer Daniel Cavallaro.
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Principe de mise en position, isostatisme et côtes fabriquées
Diffusion Nationale TOULOUSE – Décembre 2008 STS Web Services libres Constituer les services libres.
Chapitre 4 Variables aléatoires discrètes
Résolution des équations différentielles
Échantillonnage (STT-2000)
Échantillonnage (STT-2000) Section 5 Types d’erreur de sondage. Version: 22 août 2003.
Chap. 3 Récursion et induction. Les définitions par récurrence consistent à construire des objets finis, à partir d'autres, selon certaines règles. Les.
ECHANTILLONAGE ET ESTIMATION
1. Tri rapide ou Quicksort Principe : La méthode du Quicksort due au C.A. Hoare (1962) utilise les principes généraux de division et équilibrage. 2.
Cours 12 CROISSANCE D’UNE FONCTION. Aujourd’hui, nous allons voir ✓ Croissance et décroissance ✓ Maximum et minimum relatif.
Académie européenne des patients sur l'innovation thérapeutique Rôle et notions élémentaires des statistiques dans les essais cliniques.
Catherine Leduc, conseillère d’orientation
Algorithmes Branch & Bound Module IAD/RP/RO Master d ’informatique Paris 6 Philippe Chrétienne.
Transcription de la présentation:

Recherche de motifs par projections aléatoires François Gauthier f.gauthier@umontreal.ca Bio-Informatique

Définition d’un « planted motif » La recherche de motifs dans un contexte biologique n’est pas une recherche exacte. Un « planted motif » noté (l,d)-motif est défini comme suit. Soit M le motif consensus inconnu de longueur l recherché. Supposez que M se retrouve dans t séquences de longueur commune n et que, chaque fois, le motif M est corrompu d’exactement d nucléotides choisis au hasard. Le problème consiste à retrouver le motif consensus M.

Compliqué de trouver de tels motifs? La recherche de « planted motif » est effectivement un problème complexe. Considérons un exemple :

Recherche de motifs « classique » On commence par trouver tous les l-mers des séquences dont on dispose et on en choisit un qu’on désigne comme étant une occurrence du motif recherché. On tente ensuite de trouver des occurrences supplémentaires en sélectionnant les l-mers similaires au motif sélectionné. S’il y a beaucoup de « bruit » ou, plus précisément, une forte entropie, on risque davantage de trouver des l-mers aléatoires plutôt que des occurrences du motif réel. Voir diapo précédente.

L’idée derrière les projections aléatoires Si la recherche de motif se base non pas sur un l-mer, mais bien sur un consensus de s de ces l-mers, les risques d’être affecté par l’entropie sont grandement diminués. Trouver tous les consensus possibles de s l-mers serait inefficace car il y aurait : comparaisons à effecttuer. Les projections aléatoires fournissent une alternative efficace.

Algorithme de projection aléatoire L’ensemble de tous les l-mers est partitionné en « bucket » de telle façon que certains de ces « buckets » recevront plusieurs occurrences du motif recherché et quelques séquences aléatoires. Pour ce faire, il suffit de choisir aléatoirement k positions parmi les l disponibles et de placer le l-mer x dans un « bucket » = f (x) déterminé par les bases aux k positions. F(x) est une fonction de hachage. Un « bucket » recevant un grand nombre de l-mers a de fortes chances de contenir le motif recherché. Plusieurs essais avec différentes fonctions de hachage sont effectués.

Algorithme de projection aléatoire Motif consensus : CCATAG l = 6, d = 2, k = 2 CtATgC CCcTAc tCtTAG CaAcAG CCAgAa Cg CA tA tCtTAG CtATgC CCATAG

Algorithme de projection aléatoire Détermination de k : On veut avoir un minimum de séquences aléatoires dans les « planted buckets ». Fixons un maximum de E séquences « background ». Il y a t(n – l + 1) l-mers placés dans 4k « buckets ». On fixe donc k comme : Le nombre d’essai m est aussi calculé mathématiquement, mais le développement est plus complexe. Le nombre minimal de séquences s par « bucket » a été déterminé expérimentalement.

Choix du motif consensus Le choix du motif consensus est un sujet différent. Les projections aléatoires ne servent qu’à augmenter l’efficacité des méthodes de recherche en fournissant une meilleure initialisation. Les auteurs ont toutefois utilisé l’algorithme EM.

Trop beau pour être vrai? La méthode performe en effet très bien, mais elle a quelques faiblesses. Le type de (l,d)-motif recherché a une forte influence sur les performances.

Quand on sort du modèle théorique… Les séquences biologiques ont souvent un pourcentage de G+C différent du 50% utilisé pour les tests. Toutefois, une réduction du taux de G+C implique une augmentation du nombre de faux positifs lors des recherches. De la même manière, plus les séquences candidates sont longues, plus il y a de bruit et plus il y a de motifs aléatoires qui peuvent être trouvés. Ces deux situations réduisent considérablement les performances de l’algorithmes.

Performances selon le taux de G+C

Performances selon la longueur

Est-ce que ça trouve les bons motifs?

Questions, commentaires? C’est le temps de se réveiller et de poser une question intelligente là…