La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Recherche heuristique dans les bases de données Lalgorithme BLAST Nadia El-Mabrouk.

Présentations similaires


Présentation au sujet: "Recherche heuristique dans les bases de données Lalgorithme BLAST Nadia El-Mabrouk."— Transcription de la présentation:

1 Recherche heuristique dans les bases de données Lalgorithme BLAST Nadia El-Mabrouk

2 Problématiques Est-ce que cette séquence contient un gène? Est-ce que ce gène fait partie dune famille connue? Quelle est la fonction de cette protéine? Est-ce que cette protéine existe dans dautres organismes? Est-ce que dautres protéines ont les mêmes domaines ou motifs structuraux?

3 Rappel – Alignement de séquences Seq1 Seq2 Seq1 Seq2 Alignement local: Seq1 Seq2 Alignement global: Recherche de motif:

4 Alignement local Similarité locale entre S1 et S2: Valeur max dun alignement entre deux facteurs qcq de S1 et S2 Exemple: Score 2 pour match et -1 pour mismatch ou espace CAGCAC TT – GG AT TCTCGG l l l l l TAGT TT A GG -T GGCAT Problème: Retrouver les deux facteurs des deux séquences de similarité locale maximale Fonction de score pour les substitutions de nucléotides ou dAA Fonction de score pour les trous (gaps)

5 Matrice BLOSUM 62 Score positif pour les identités, et négatif pour les mismatchs

6

7 Méthodes utilisées pour lalignement local Méthode exacte: Smith-Waterman Algorithme exact en O(n 2 ) utilisant la programmation dynamique Trop coûteux pour parcourir une banque de données Heuristiques: Méthodes approximatives. Pas sûr dobtenir le meilleur résultat FASTA et BLAST: Heuristiques les plus utilisées. Basées sur une idée de filtrage Sélectionner des parties de la base de donnée par une méthode de recherche exacte Pour chaque partie (intervalle) vérifier si une similarité locale existe

8 Qualité dun algorithme de comparaison de séquences Sélectivité: Capacité à ne détecter que la réalité biologique et rien de plus Problème des Faux-Positifs Sensitivité: Capacité à détecter tout ce qui est intéressant sur le plan biologique Problème des Faux-Négatifs

9 BLAST: Basic local alignment search tool Similarité locale entre une séquence requête et une banque de données Devenu populaire grâce à une implémentation très efficace. BLASTP: séquence de protéine dans BD de protéines BLASTN: séquence de nucléotides dans BD dADN BLASTX: séquence de nucléotides (6 ordres de lecture) dans BD de protéines TBLASTN: séquence de protéine dans BD traduite TBLASTX: séquence traduite dans BD traduite BLASTZ: Étudié pour aligner de longues séquences dADN, utilisé pour lalignement de lhomme et de la souris PHI-BLAST: Recherche dune expression régulière (consensus) PSI-BLAST: Construit un consensus, ou matrice de score, à partir dun alignement multiple des ``hits de plus haut score obtenus par une recherche BLAST initiale

10 Méthode utilisée par BLAST Former la liste de tous les facteurs de taille w de la séquence requête P P Maximum l-w+1 mots Pour chaque facteur f, former la liste de tous les mots de taille w dont le score avec f dépasse un seuil T Exemple: Pour f =PQG, {PQG, PRG, PKG, PDG, PMG…}

11

12 Identifier les occurrences exactes des mots de la liste dans la BD Pour chaque paire de séquences trouvées, étendre lalignement dans les deux directions, jusquà ce que le score de lalignement chute de X par rapport à sa valeur dorigine. Segment accepté si score>S

13 Le HSP de score maximal sur lensemble de la séquence est appelé maximal scoring segment pair (MSP) Les alignements locaux HSP sont chaînés pour former des alignements plus longs, incluant des espaces et des trous. Si le MSP ou les HSP combinés ont un score qui dépasse un certain seuil S, il sont affichés

14 Paramètres La séquence format FASTA La banque (compressée) W (taille du mot). Protéines: w de 3 à 5, et T = 17 Donne à peu près 50 mots pour chaque facteur Nucléotides: w = 12 S (seuil de sélection dun score) Matrices de substitution (BLOSUM 62) ou score pour les nucléotides (+5/-4)

15 Évaluation statistique Expect-value = nb de fois où un HSP est attendu par chance sur lensemble de la banque. Plus cette valeur est faible, plus le HSP est significatif P-value: P(N): Probabilité du score observé. Plus cette valeur est faible, plus le HSP est significatif.

16 La page dentrée NCBI BLAST On choisit son BLAST

17 On entre la séquence à chercher Le programme choisi

18 Choisir la banque de données dans laquelle on veut faire la recherche life.csmu.edu.tw/lifeinfo/db_lifescience/ ppt

19 On a soumis et on attend les résultats life.csmu.edu.tw/lifeinfo/db_lifescience/ ppt

20 Les résultats: entête life.csmu.edu.tw/lifeinfo/db_lifescience/ ppt

21 Les résultats: vue graphique life.csmu.edu.tw/lifeinfo/db_lifescience/ ppt

22

23

24


Télécharger ppt "Recherche heuristique dans les bases de données Lalgorithme BLAST Nadia El-Mabrouk."

Présentations similaires


Annonces Google