Télécharger la présentation
1
Recherche de motifs par projections aléatoires
François Gauthier Bio-Informatique
2
Définition d’un « planted motif »
La recherche de motifs dans un contexte biologique n’est pas une recherche exacte. Un « planted motif » noté (l,d)-motif est défini comme suit. Soit M le motif consensus inconnu de longueur l recherché. Supposez que M se retrouve dans t séquences de longueur commune n et que, chaque fois, le motif M est corrompu d’exactement d nucléotides choisis au hasard. Le problème consiste à retrouver le motif consensus M.
3
Compliqué de trouver de tels motifs?
La recherche de « planted motif » est effectivement un problème complexe. Considérons un exemple :
4
Recherche de motifs « classique »
On commence par trouver tous les l-mers des séquences dont on dispose et on en choisit un qu’on désigne comme étant une occurrence du motif recherché. On tente ensuite de trouver des occurrences supplémentaires en sélectionnant les l-mers similaires au motif sélectionné. S’il y a beaucoup de « bruit » ou, plus précisément, une forte entropie, on risque davantage de trouver des l-mers aléatoires plutôt que des occurrences du motif réel. Voir diapo précédente.
5
L’idée derrière les projections aléatoires
Si la recherche de motif se base non pas sur un l-mer, mais bien sur un consensus de s de ces l-mers, les risques d’être affecté par l’entropie sont grandement diminués. Trouver tous les consensus possibles de s l-mers serait inefficace car il y aurait : comparaisons à effecttuer. Les projections aléatoires fournissent une alternative efficace.
6
Algorithme de projection aléatoire
L’ensemble de tous les l-mers est partitionné en « bucket » de telle façon que certains de ces « buckets » recevront plusieurs occurrences du motif recherché et quelques séquences aléatoires. Pour ce faire, il suffit de choisir aléatoirement k positions parmi les l disponibles et de placer le l-mer x dans un « bucket » = f (x) déterminé par les bases aux k positions. F(x) est une fonction de hachage. Un « bucket » recevant un grand nombre de l-mers a de fortes chances de contenir le motif recherché. Plusieurs essais avec différentes fonctions de hachage sont effectués.
7
Algorithme de projection aléatoire
Motif consensus : CCATAG l = 6, d = 2, k = 2 CtATgC CCcTAc tCtTAG CaAcAG CCAgAa Cg CA tA tCtTAG CtATgC CCATAG
8
Algorithme de projection aléatoire
Détermination de k : On veut avoir un minimum de séquences aléatoires dans les « planted buckets ». Fixons un maximum de E séquences « background ». Il y a t(n – l + 1) l-mers placés dans 4k « buckets ». On fixe donc k comme : Le nombre d’essai m est aussi calculé mathématiquement, mais le développement est plus complexe. Le nombre minimal de séquences s par « bucket » a été déterminé expérimentalement.
9
Choix du motif consensus
Le choix du motif consensus est un sujet différent. Les projections aléatoires ne servent qu’à augmenter l’efficacité des méthodes de recherche en fournissant une meilleure initialisation. Les auteurs ont toutefois utilisé l’algorithme EM.
10
Trop beau pour être vrai?
La méthode performe en effet très bien, mais elle a quelques faiblesses. Le type de (l,d)-motif recherché a une forte influence sur les performances.
11
Quand on sort du modèle théorique…
Les séquences biologiques ont souvent un pourcentage de G+C différent du 50% utilisé pour les tests. Toutefois, une réduction du taux de G+C implique une augmentation du nombre de faux positifs lors des recherches. De la même manière, plus les séquences candidates sont longues, plus il y a de bruit et plus il y a de motifs aléatoires qui peuvent être trouvés. Ces deux situations réduisent considérablement les performances de l’algorithmes.
12
Performances selon le taux de G+C
13
Performances selon la longueur
14
Est-ce que ça trouve les bons motifs?
15
Questions, commentaires?
C’est le temps de se réveiller et de poser une question intelligente là…
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.