Recherche heuristique dans les bases de données L’algorithme BLAST

Slides:



Advertisements
Présentations similaires
Efficient Simplification of Point-Sampled Surfaces
Advertisements

Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin
Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :
Sensibilisation à l’Algorithmique
Introduction à l’Algorithmique
Sensibilisation à l’Algorithmique et structure de données
Correction des flats-fields Nadège Meunier Atelier MTR, 17 janvier 2006, Tarbes.
I. Recherche du gène correspondant aux séquences initiales.
Inférence statistique
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Statistiques et probabilités en première
Initiation à la bioinformatique
Le remplacement moléculaire
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Techniques de filtrage à laide de graines espacées Laurent Noé Travail commun avec Gregory Kucherov Séminaire.
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
Caractérisation structurale d ’un régulateur transcriptionnel du « Quorum Sensing » chez Brucella abortus.
YASS : Recherche de similarités dans les séquences d'ADN
Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.
La phylogénomique sans alignement de séquences
Algorithmes de filtrage
Groupe 1: Classes de même intervalle
SELECT {* | Expression [Alias] [,...] } FROM Table [WHERE Condition] [ORDER BY { Expression | Alias } [ ASC | DESC ] [NULLS FIRST | NULLS LAST ] [,...]
<? Le PHP appliqué à la BioInformatique ?>
Alignement de séquences (suite)
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Universté de la Manouba
Prédiction d’interactions protéine-protéine
Programmation dynamique
Planification de flux et Aménagement
Recherche heuristique dans les bases de données L’algorithme BLAST
Alignements de séquences par paires
Optimisation par les algorithmes génétiques
Séquençage par hybridation
Chapitre 3.
Formation Bio-informatique IRD
Recherche exacte de motifs
Analyses phylogénétiques
serveurs spécialisés, programmes et BLAST …amélioré, Y-BLAST F-BLAST
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Réunion MODULOME 28/05/2008 Christine ROUSSEAU L'analyse des CRISPR et des gènes associés comme répétitions locales et voisine MODULOME.
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
E.R. Gauthier, Ph.D.CHMI 3216F – A20091 Bioingénierie de l’A.D.N. CHMI 3216 F 14 Septembre 2009 Boîte à outils, 2 ième partie (suite). Plasmides, clonage.
Alignement de séquences biologiques
Recherche par automates finis
Soutenance de Stage DEA / DESS
Recherche de motifs par projections aléatoires
STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004.
Réunion MODULOME 15/10/2007 Christine ROUSSEAU Recherche des CRISPRs : Résultats MODULOME.
Introduction à la Bio-Informatique
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.
Optimisation par les algorithmes génétiques
Structures de données avancées : Arbres B+ avec expansion partielle D. E ZEGOUR Institut National d ’Informatique.
Introduction à la Bio-Informatique
CHMI 4206 Bioinformatique appliquée
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
ECHANTILLONAGE ET ESTIMATION
Bio-Informatique Analyse de séquences nucléotidiques
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Algorithme de Needleman et Wunsch (programmation dynamique)
Algorithmes de filtrage
Algorithmes de filtrage
Transcription de la présentation:

Recherche heuristique dans les bases de données L’algorithme BLAST Nadia El-Mabrouk

Problématiques Est-ce que cette séquence contient un gène? Est-ce que ce gène fait partie d’une famille connue? Quelle est la fonction de cette protéine? Est-ce que cette protéine existe dans d’autres organismes? Est-ce que d’autres protéines ont les mêmes domaines ou motifs structuraux?

Rappel – Alignement de séquences Alignement global: Seq1 Seq2 Alignement local: Seq1 Seq2 Recherche de motif: Seq1 Seq2

Alignement local Similarité locale entre S1 et S2: Valeur max d’un alignement entre deux facteurs qcq de S1 et S2 Exemple: Score 2 pour match et -1 pour mismatch ou espace CAGCAC TT – GG AT TCTCGG l l l l l TAGT TT A GG -T GGCAT Problème: Retrouver les deux facteurs des deux séquences de similarité locale maximale Fonction de score pour les substitutions de nucléotides ou d’AA Fonction de score pour les trous (gaps)

Matrice BLOSUM 62 Score positif pour les identités, et négatif pour les mismatchs

Méthodes utilisées pour l’alignement local Méthode exacte: Smith-Waterman Algorithme exact en O(n2) utilisant la programmation dynamique Trop coûteux pour parcourir une banque de données Heuristiques: Méthodes approximatives. Pas sûr d’obtenir le meilleur résultat FASTA et BLAST: Heuristiques les plus utilisées. Basées sur une idée de filtrage Sélectionner des parties de la base de donnée par une méthode de recherche exacte Pour chaque partie (intervalle) vérifier si une similarité locale existe

Qualité d’un algorithme de comparaison de séquences Sélectivité: Capacité à ne détecter que la réalité biologique et rien de plus Problème des Faux-Positifs Sensitivité: Capacité à détecter trout ce qui est intéressant sur le plan biologique Problème des Faux-Négatifs

BLAST: Basic local alignment search tool Similarité locale entre une séquence requête et une banque de données Devenu populaire grâce à une implémentation très efficace. BLASTP: séquence de protéine dans BD de protéines BLASTN: séquence de nucléotides dans BD d’ADN BLASTX: séquence de nucléotides (6 ordres de lecture) dans BD de protéines TBLASTN: séquence de protéine dans BD traduite TBLASTX: séquence traduite dans BD traduite BLASTZ: Étudié pour aligner de longues séquences d’ADN, utilisé pour l’alignement de l’homme et de la souris PHI-BLAST: Recherche d’une expression régulière (consensus) PSI-BLAST: Construit un consensus, ou matrice de score, à partir d’un alignement multiple des ``hits’’ de plus haut score obtenus par une recherche BLAST initiale

Méthode utilisée par BLAST Former la liste de tous les facteurs de taille w de la séquence requête P P Maximum l-w+1 mots Pour chaque facteur f, former la liste de tous les mots de taille w dont le score avec f dépasse un seuil T Exemple: Pour f =PQG, {PQG, PRG, PKG, PDG, PMG…}

Identifier les occurrences exactes des mots de la liste dans la BD Pour chaque paire de séquences trouvées, étendre l’alignement dans les deux directions, jusqu’à ce que le score de l’alignement chute de X par rapport à sa valeur d’origine. Segment accepté si score>S

Le HSP de score maximal sur l’ensemble de la séquence est appelé maximal scoring segment pair (MSP) Les alignements locaux HSP sont chaînés pour former des alignements plus longs, incluant des espaces et des trous. Si le MSP ou les HSP combinés ont un score qui dépasse un certain seuil S, il sont affichés

Paramètres La séquence format FASTA La banque (compressée) W (taille du mot). Protéines: w de 3 à 5, et T = 17 Donne à peu près 50 mots pour chaque facteur Nucléotides: w = 12 S (seuil de sélection d’un score) Matrices de substitution (BLOSUM 62) ou score pour les nucléotides (+5/-4)

Évaluation statistique Expect-value = nb de fois où un HSP est attendu par chance sur l’ensemble de la banque. Plus cette valeur est faible, plus le HSP est significatif P-value: P(N): Probabilité du score observé. Plus cette valeur est faible, plus le HSP est significatif.