Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.

Slides:



Advertisements
Présentations similaires
Soutenance du stage de DEA.
Advertisements

A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Calcul géométrique avec des données incertaines
Regroupement (clustering)
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :
Localisation fine de QTL par déséquilibre de liaison Simon BOITARD Durée : octobre 2003-septembre 2006 Laboratoire : BIA (biométrie et intelligence artificielle)
Test statistique : principe
Organisation et gestion de données, fonctions
1 Vers la découverte de nouvelles modalités sensori-motrices. Encadrants : Pierre Bessière Anne Spalanzani Pierre Dangauthier DEA I.V.R. 24 Juin 2003 Sélection.
Page : 1 / 8 Conduite de projet Examen du 3 juin 1988 Durée : 4 heures Le support de cours est toléré La notation tiendra compte très significativement.
3. Analyse et estimation du mouvement dans la vidéo
Colloque Traitement et Analyse de séquences : compte-rendu
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
A Pyramid Approach to Subpixel Registration Based on Intensity
Piecewise Affine Registration of Biological Images
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Initiation à la bioinformatique
Le remplacement moléculaire
Titre conférence lundi 27 mars 2017
1 Nicole Tourigny - Le raisonnement à partir de cas : une aide à la formation en analyse de sécurité routière Le raisonnement à partir de cas : une aide.
Recherche de similarité de séquences à grande échelle S. Penel, P. Calvat, Y. Cardenas LBBE, CCIN2P3 Calculs BLAST intensifs sur la plateforme TIDRA -
1 Analyse de la variance multivariée Michel Tenenhaus.
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Techniques de filtrage à laide de graines espacées Laurent Noé Travail commun avec Gregory Kucherov Séminaire.
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
Christelle Scharff IFI 2004
Travail de génétique G9 :
Réglage et protection des réseaux électriques
Application des algorithmes génétiques
Système coopératif pour l'aide à la conduite
YASS : Recherche de similarités dans les séquences d'ADN
Karin Lundgren-Cayrol
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Algorithmes de filtrage
SÉMINAIRE DE LANCEMENT DES COURS EN LIGNE
Configuration de Windows Server 2008 Active Directory
Tolérances géométriques
Alignement de séquences (suite)
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
CSI 4506: Introduction à l’intelligence artificielle
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Comparaison de deux échantillons
Universté de la Manouba
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
3ème partie: les filtres
Travaux pratiques Hygiène-Génétique- Biostatistique:
Demande stochastique stationnaire
La banque UniprotKB et le logiciel Blast
Recherche heuristique dans les bases de données L’algorithme BLAST
Soutenance finale 12 mars 2004 Présenté par : Alban HERMET
10 février 2006GDR ISIS Journée Localisation et Navigation Projet EGNOS-BUS (Eurêka) André Monin, Wael Suleiman LAAS-CNRS.
1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )
Tolérance de parallélisme
Réunion MODULOME 28/05/2008 Christine ROUSSEAU L'analyse des CRISPR et des gènes associés comme répétitions locales et voisine MODULOME.
Steven Derrien Équipe R2D2
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
1 Mise en œuvre d’un contrôleur UDMA-4 pour la machine RDISK Steven Derrien Équipe R2D2.
STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004.
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Recherche heuristique dans les bases de données L’algorithme BLAST
Problème du Car Sequencing
Les banques de séquences nucléiques
Bio-Informatique Analyse de séquences nucléotidiques
IFT 501 Recherche d'information et forage de données Chapitre 4 : Classification concepts de base, arbres de décision et évalution des modèles Partie 3.
Réseaux bayésiens pour la recommandation au sein d’un configurateur Anr BR4CP Mathieu Serrurier IRIT.
Transcription de la présentation:

Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03

Points abordés: Le contexte Rdisk: description rapide du prototype et de son avancement Les heuristiques en alignement de séquences: rappels et état de lart Nouvelles idées Méthodologie dévaluation Résultats préliminaires

Rdisk, un prototype dédié à la recherche par le contenu dans les grandes bases de données Architecture générale: taux de filtrage estimé à 1% CPU Filtre

Implémentation de filtres matériels dans Rdisk Contrôleur de disque Interface réseau Unité spécialisée reconfigurable Unité de contrôle Interface de test

Alignements de séquences Algorithme exhaustif vs. Heuristiques pb du temps de calcul pour les alignements de génomes entiers principe de lheuristique: –trouver rapidement un court alignement présentant une forte similarité –on y ancre une recherche systématique de lalignement complet

Heuristiques (1/4): FASTA (Pearson 1988) –K-uplets de taille 6 –on repère les 10 meilleurs alignements de k-uplets sur des diagonales –on les relie en autorisant les indels –enfin calcul du score final par programmation dynamique

Heuristiques (2/4): CHAOS: chain of scores (Brudno 2002) –recherche de mots identiques de 7 bases –on cherche un voisin: 20 bases et 5 indels maxi. –on essaye de les rejoindre avec un alignment ayant un score min. de 25 –puis calcul du score final avec Dialign position dans la requête distance max. premier hit Zone de recherche requête séquence Bande de gap

Heuristiques (3/4): BLAST (Altschul 1990) –recherche dun court alignement exact pour générer un hit –chaque hit est étendu par programmation dynamique (92% du temps) –rapide mais limité pour la recherche dhomologies distantes variantes: MegaBlast (Altschul 1997), un HSP contient deux hits, possibilité de gap

Heuristiques (4/4): PATTERNHUNTER (Ma et al. 2001) –sur le principe de Blast –le motif optimal est –trouvé expérimentalement! –possibilité de motif aléatoire …GCTAGCTAGCGTCAGACTGCATTGCAGTAG… …CATCGGTAGCCTCTGCATGCATTGCATAGA…

Mesure de qualité des heuristiques Notion de vrai positifs, faux positifs et faux négatifs en terme de prédiction de lintérêt biologique dun hit Modèle : Blast de poids 11 Prédiction: alignement pas dalignement Réalité: alignement pas dalignement TPFN FPTN

Propositions dimplémentation Paramètres du filtre: –taille de la fenêtre N, à augmenter –ratio K/N ? Le filtre K parmi N –positions fixes type Patternhunter, test des positions en cours –positions libres le plus de liberté –positions par blocs pour la facilité dimplémentation en hard 3/4 9/12 XXXXXXXXX

Par association association série de filtres tolérants association parallèle de filtres restrictifs 4/6 max.5 XXXXXXXXXXX 4/6 XXXXXXXXXXX

Méthodes dévaluation des heuristiques Présentation du jeu de données Utilisation de métriques statistiques Déroulement dun test Comment se démarquer de BLAST ?

Les données utilisées Pas de protocole étalon reconnu Génomes commentés, connus, entièrement séquencés (pas de n) sur Genbank –Escherichia Coli K124,1Mbases –Chromosome 21 humain34,3Mbases Batteries de requêtes courtes: compilation dEST de Genbank (05/2002) de 300 à 500 bases Banques générées à taux de similarité fixé par rapport à une EST

Métriques statistiques sensibilité: Sn = TP / (TP + FN) spécificité: Sp = TP / (TP + FP) autres métriques uniques: –coeff. dappariement: SMC = (TP+TN)/(TP+TN+FP+FN) –coeff. de corrélation: CC = (TP*TN) - (FN * FP). ((TP+FN)(TN+FP)(TP+FP)(TN+FN)) 1/2 –corrélation approximative, ou probabilité conditionnelle moyenne...

Principe des tests: Lancement des méthodes Identification des séquences Tests in situ Calcul des métriques pour une batterie de requêtes BD S-WBlastH. testée + …ATTCGACGTCATCATCACAC ACAGCGGCGATACGACACG... Requête FN_B FN_H FP_B FP_H

Mise en évidence du gain par rapport à Blast % de FN « en trop » généres par lheuristique: 1- (FN_B /\ FN_H)/FN_H % de FN de Blast récupérés ($): 1- (FN_H /\ FN_B)/FN_B comment faire intervenir le score dalignement? séquence « récupérée » séquence ratée faux négatifs communs: FN_B /\ FN_H Zoom sur la sortie de S-W:

Résultats préliminaires: ratio K/N entre 0.6 et 0.7, voire réglable en modèles à positions fixes: filtres à faible recouvrement de 11/18 jusquà 19/31 en positions libres, limitation à lordre de grandeur dun petit exon, et aux nombre de FN positions par blocs moins efficaces, à réserver aux associations

Résultats préliminaires: pente plus raide pour les filtres à positions libres facilité pour se comparer à Blast biais: ne tient pas compte du nombre de résultats

La suite... Prise en compte systématique des FP Vérifier la tenue en fréquence des implémentations Tester les associations série (soft prêt) Avis du biologiste? -> soumission ECCB 2003