La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.

Présentations similaires


Présentation au sujet: "Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03."— Transcription de la présentation:

1 Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03

2 Points abordés: Le contexte Rdisk: description rapide du prototype et de son avancement Les heuristiques en alignement de séquences: rappels et état de lart Nouvelles idées Méthodologie dévaluation Résultats préliminaires

3 Rdisk, un prototype dédié à la recherche par le contenu dans les grandes bases de données Architecture générale: taux de filtrage estimé à 1% CPU Filtre

4 Implémentation de filtres matériels dans Rdisk Contrôleur de disque Interface réseau Unité spécialisée reconfigurable Unité de contrôle Interface de test

5 Alignements de séquences Algorithme exhaustif vs. Heuristiques pb du temps de calcul pour les alignements de génomes entiers principe de lheuristique: –trouver rapidement un court alignement présentant une forte similarité –on y ancre une recherche systématique de lalignement complet

6 Heuristiques (1/4): FASTA (Pearson 1988) –K-uplets de taille 6 –on repère les 10 meilleurs alignements de k-uplets sur des diagonales –on les relie en autorisant les indels –enfin calcul du score final par programmation dynamique

7 Heuristiques (2/4): CHAOS: chain of scores (Brudno 2002) –recherche de mots identiques de 7 bases –on cherche un voisin: 20 bases et 5 indels maxi. –on essaye de les rejoindre avec un alignment ayant un score min. de 25 –puis calcul du score final avec Dialign position dans la requête distance max. premier hit Zone de recherche requête séquence Bande de gap

8 Heuristiques (3/4): BLAST (Altschul 1990) –recherche dun court alignement exact pour générer un hit –chaque hit est étendu par programmation dynamique (92% du temps) –rapide mais limité pour la recherche dhomologies distantes variantes: MegaBlast (Altschul 1997), un HSP contient deux hits, possibilité de gap

9 Heuristiques (4/4): PATTERNHUNTER (Ma et al. 2001) –sur le principe de Blast –le motif optimal est 11010010100110111 –trouvé expérimentalement! –possibilité de motif aléatoire …GCTAGCTAGCGTCAGACTGCATTGCAGTAG… …CATCGGTAGCCTCTGCATGCATTGCATAGA… 001010111101101001111111110001 11010010100110111

10 Mesure de qualité des heuristiques Notion de vrai positifs, faux positifs et faux négatifs en terme de prédiction de lintérêt biologique dun hit Modèle : Blast de poids 11 Prédiction: alignement pas dalignement Réalité: alignement pas dalignement TPFN FPTN

11 Propositions dimplémentation Paramètres du filtre: –taille de la fenêtre N, à augmenter –ratio K/N ? Le filtre K parmi N –positions fixes type Patternhunter, test des positions en cours –positions libres le plus de liberté –positions par blocs pour la facilité dimplémentation en hard 3/4 9/12 XXXXXXXXX

12 Par association association série de filtres tolérants association parallèle de filtres restrictifs 4/6 max.5 XXXXXXXXXXX 4/6 XXXXXXXXXXX

13 Méthodes dévaluation des heuristiques Présentation du jeu de données Utilisation de métriques statistiques Déroulement dun test Comment se démarquer de BLAST ?

14 Les données utilisées Pas de protocole étalon reconnu Génomes commentés, connus, entièrement séquencés (pas de n) sur Genbank –Escherichia Coli K124,1Mbases –Chromosome 21 humain34,3Mbases Batteries de requêtes courtes: compilation dEST de Genbank (05/2002) de 300 à 500 bases Banques générées à taux de similarité fixé par rapport à une EST

15 Métriques statistiques sensibilité: Sn = TP / (TP + FN) spécificité: Sp = TP / (TP + FP) autres métriques uniques: –coeff. dappariement: SMC = (TP+TN)/(TP+TN+FP+FN) –coeff. de corrélation: CC = (TP*TN) - (FN * FP). ((TP+FN)(TN+FP)(TP+FP)(TN+FN)) 1/2 –corrélation approximative, ou probabilité conditionnelle moyenne...

16 Principe des tests: Lancement des méthodes Identification des séquences Tests in situ Calcul des métriques pour une batterie de requêtes BD S-WBlastH. testée + …ATTCGACGTCATCATCACAC ACAGCGGCGATACGACACG... Requête FN_B FN_H FP_B FP_H

17 Mise en évidence du gain par rapport à Blast % de FN « en trop » généres par lheuristique: 1- (FN_B /\ FN_H)/FN_H % de FN de Blast récupérés ($): 1- (FN_H /\ FN_B)/FN_B comment faire intervenir le score dalignement? séquence « récupérée » séquence ratée faux négatifs communs: FN_B /\ FN_H Zoom sur la sortie de S-W:

18 Résultats préliminaires: ratio K/N entre 0.6 et 0.7, voire réglable en modèles à positions fixes: filtres à faible recouvrement de 11/18 jusquà 19/31 en positions libres, limitation à lordre de grandeur dun petit exon, et aux nombre de FN positions par blocs moins efficaces, à réserver aux associations

19 Résultats préliminaires: pente plus raide pour les filtres à positions libres facilité pour se comparer à Blast biais: ne tient pas compte du nombre de résultats

20 La suite... Prise en compte systématique des FP Vérifier la tenue en fréquence des implémentations Tester les associations série (soft prêt) Avis du biologiste? -> soumission ECCB 2003


Télécharger ppt "Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03."

Présentations similaires


Annonces Google