Chapitre 3.

Slides:



Advertisements
Présentations similaires
Puissance et NSN.
Advertisements

Probabilités et statistiques au lycée
Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Regroupement (clustering)
Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin
Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :
5 critères de qualité d'un test
I. Recherche du gène correspondant aux séquences initiales.
Comparaison de deux moyennes observées
Inférence statistique
Colloque Traitement et Analyse de séquences : compte-rendu
Xialong Dai, Siamak Khorram
Maria-João Rendas CNRS – I3S Novembre 2006
Initiation à la bioinformatique
Le remplacement moléculaire
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Techniques de filtrage à laide de graines espacées Laurent Noé Travail commun avec Gregory Kucherov Séminaire.
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
INF L14 Initiation aux statistiques
Tests de comparaison de moyennes
YASS : Recherche de similarités dans les séquences d'ADN
Alignement de séquences multiples
X Blast y pour tous. Recherche BLAST 1,2,3,4,5 1.Choisir sa séquence 2.Choisir le programme BLAST 3.Choisir la banque 4.Choisir les paramètres optionnels.
Régression linéaire simple
Algorithmes de filtrage
Alignement de séquences (suite)
Prédiction de la structure 3-D des protéines
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Le test t.
Efficacité des algorithmes
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Recherche heuristique dans les bases de données L’algorithme BLAST
Heuristiques C. Recherche de la meilleure branche . Branch And Bound
Etienne Danchin & Amandine Campan Présentation interne, pôle Santé des Plantes, Sophia - Antipolis Mercredi 21 avril 2010 Grille PACA ProActive : retour.
Alignements de séquences par paires
Formation Bio-informatique IRD
STATISTIQUES DESCRIPTIVES
TD4 : « Lois usuelles de statistiques »
STATISTIQUES – PROBABILITÉS
Analyses phylogénétiques
serveurs spécialisés, programmes et BLAST …amélioré, Y-BLAST F-BLAST
Familles de gènes Nadia El-Mabrouk.
VOICI UNE LISTE DE MOTS FLASH! LIS LES AUSSI VITE QUE TU LIS TON NOM Mots de haute fréquence pour la sixième année – un Power Point pour pratiquer et développer.
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :35 1 Comparaisons multiples Ce qu’elles sont.
E.R. Gauthier, Ph.D.CHMI 3216F – A20091 Bioingénierie de l’A.D.N. CHMI 3216 F 14 Septembre 2009 Boîte à outils, 2 ième partie (suite). Plasmides, clonage.
Bioingénierie de l’A.D.N.
Alignement de séquences biologiques
Banques de données en bio-informatique
Recherche de motifs par projections aléatoires
Concepts fondamentaux: statistiques et distributions
La recherche de vertex dans CMS : le recuit déterministe Nicolas Estre – IPN Lyon – Journées Jeunes Chercheurs 2003.
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
L’erreur standard et les principes fondamentaux du test de t
Introduction à la Bio-Informatique
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.
Recherche heuristique dans les bases de données L’algorithme BLAST
CHMI 4206 Bioinformatique appliquée
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Note 1 : Tous les rapports de T.P. devront être soumis avant la date limite via le serveur Esilbac. Aucune autre forme de remise ne sera acceptée. Note.
Bio-Informatique Analyse de séquences nucléotidiques
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Analyse et comparaison des séquences biologiques
Algorithmes de filtrage
Transcription de la présentation:

Chapitre 3

Alignement « pairwise » ► identité, similarité ► scores à partir de matrices de substitution PAM ou BLOSSUM ► Local ou global ? Tester alignement contre toutes les séquences connues dans une base de données ►

Accessibilité sur le WEB Pourquoi BLAST* Rapidité Précision relative Accessibilité sur le WEB * On a aussi vu FASTA … pas le format, le programme

Utilité de BLAST Établir la relation entre une séquence requête (query) et des séquences connues de protéines ou d’ADN orthologues, paralogues, nouveaux gènes ou nouvelles protéines, EST, structures et fonctions

Recherche BLAST 1,2,3,4,5 Choisir sa séquence Choisir le programme BLAST Choisir la banque Choisir les paramètres optionnels … et attendre un peu

séquence Domaines conservés Banque non redondante GO

Séquence AC, FASTA ou text

Choisir un programme BLAST

Choisir un programme BLAST blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST)

blastp protéine protéines 6 blastx DNA protéines tblastn protéine DNA Programme Entrée Banque 1 blastn DNA DNA blastp protéine protéines 6 blastx DNA protéines tblastn protéine DNA 36 tblastx DNA DNA

… un ADN peut, potentiellement, coder 6 protéines 5’ CAT CAA 5’ ATC AAC 5’ TCA ACT 5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’ 5’ GTG GGT 5’ TGG GTA 5’ GGG TAG

(most general database) dbest = database of expressed sequence tags Choix de la banque nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence

OPTIONS Chercher des domaines conservés

OPTIONS Entrez! Filter Expect Word size organisme Scoring matrix

OPTIONS RBP4 vs RBP4 avec option FILTRE

Filtre ON

Filtre OFF

program query database taxonomy

taxonomy

Cut-off: .05? 10-10?

Alignment view

Alignment view

MEUH !

BLAST: le background “The central idea of the BLAST algorithm is to confine attention to segment pairs that contain a word pair of length w with a score of at least T.” Altschul et al. (1990)

1: établir une liste de word pairs (w=3) Originellement, 1,2,3. 1: établir une liste de word pairs (w=3) au dessus d’un seuil critique (threshold) T Expl: human RBP query …FSGTWYA… (query word en rouge) Liste possible (w=3) : FSG SGT GTW TWY WYA YSG TGT ATW SWY WFA FTG SVT GSW TWF WYS

Liste de words (w=3) GSW 6,1,11 =18 ATW 0,5,11 =16 GTW 6,5,11 =22 GSW 6,1,11 =18 ATW 0,5,11 =16 > threshold NTW 0,5,11 =16 GTY 6,5,2 =13 GNW =10 < threshold GAW =9 (T=11)

Origine des scores: matrice choisie (BLOSUM62)

Originellement, 1,2,3. 2: Scan de la base à la recherche de mots qui “matchent” la liste compilée. (étape rapide)

3: si un hit est trouvé (i.e. match parfait) Originellement, 1,2,3. 3: si un hit est trouvé (i.e. match parfait) On étend l’alignement en continuant d’accumuler le score. L’alignement s’arrête quand le score tombe Sous un valeur ptéalablement établie KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit) extend extend Hit!

La version contemporaine de BLAST nécessite au moins 2 hits indépendants séparés par une distance limite de résidus (A ≤40 )

Plusieurs paramètres modifiables … du moins chez NCBI Expl: options other advanced de BLAST permettent de changer des seuils. Le seuil de match par défaut est 11. On peut l’ajuster à 16 ou 5. (la commande est –f16 ou –f5 avec f équivalent de T)

Changement de seuil pour blastp nr de RBP Expect 10 (T=11) 1 10,000 (T=5) (T=16) (BL45) (PAM70) #hits to db 129m 112m 386m #sequences 1,043,455 1.0m 907,000 #extensions 5.2m 508m 4.5m 73,788 30.2m 19.5m #successful extensions 8,367 11,484 7,288 1,147 9,088 13,873 better than E 142 86 6,439 125 124 88 110 82 #HSPs>E (nogapping) 53 46 6,099 48 60 66 #HSPs gapped 145 6,609 127 126 90 113 99 16 (7.4 bits) 38 (14.6 bits) 64 (24.7 bits) 16 38 64 22 51 85 15 35 59

+ grand w haut T - Sensibilité Vitesse + _ petit w bas T

Interprétation E (expect value) Pour les alignements locaux, les scores suivent invariablement une distribution EVD (extreme value distribution)

Distribution normale vs valeur extrême 0.40 Distribution de valeur extrême Distribution normale 0.35 0.30 0.25 probabilité 0.20 0.15 0.10 u=0 l=1 0.05 -5 -4 -3 -2 -1 1 2 3 4 5 x

Distribution des Scores Pour RBP4 vs ddbj S E * Distribution des Scores Pour RBP4 vs ddbj Valeur de E normalisée à une fonction de distribution de valeur extrême *

Probabilité d’un alignement dû au hasard m= longueur de la séquence et n= longueur de la banque

Espace de recherche effectif Longueur moyenne d’un alignement On soustrait L parce que les fins de séquence risquent fort de ne pas produire un alignement qui atteint la valeur moyenne L. # séquences ds banque

Dans BLAST l’espérance E d’obtenir, par hasard, un HSP dont le score S ou mieux est: C’est un estimé du nombre de faux positifs

Propriétés de E Décroit de façon exponentielle qund S augmente. Si E►0, la probabilité d’obtenir cet alignement « par chance » ►0 La valeur de S pour des alignements fortuits devrait être négative. Autrement de longs segments de séquences pourraient accumuler de grandes valeurs positives et être considérés comme homologues

La taille de la banque dans laquelle on fouille et la taille de la séquence influencent la valeur de E. Le résultat d’un BLAST avec E=1 aurait donné E=2 si la banque était 2x plus vaste. Cette analyse statistique (Altschul & Gish, 1996) vaut pour des séquences alignées sans gap. En présence de gaps, K et λ ne sont que des estimés. H= entropie

Scores bruts vs bit scores Le score brut (S) est le résultat de la somme des scores individuels et dépend donc, entre autres, de la matrice de substitution utilisée. Le bit score (S’) est un score normalisé qui permet de comparer des recherches effectuées dans des banques différentes avec des matrices différentes.

E vs une probabilité La probabilité P de trouver un alignement de score comparable (ou meilleur) par hasard peut se calculer en reliant le score observé avec le score qu’on attendrait pour des HSP aléatoires. E P 10 0.99995460 5 0.99326205 2 0.86466472 1 0.63212056 0.1 0.09516258 0.05 0.04877058 0.001 0.00099950 0.0001 0.0001000

Où sont les résultats de ces calculs ?

Pénalité de gap E = 10.0 seuil = 11 paramètres EVD matrice paramètres de cut-off

Changements de E, T & matrice dans un blastp nr de RBP Expect 10 (T=11) 1 10,000 (T=5) (T=16) (BL45) (PAM70) #hits to db 129m 112m 386m #sequences 1,043,455 1.0m 907,000 #extensions 5.2m 508m 4.5m 73,788 30.2m 19.5m #successful extensions 8,367 11,484 7,288 1,147 9,088 13,873 better than E 142 86 6,439 125 124 88 110 82 #HSPs>E (no gapping) 53 46 6,099 48 60 66 #HSPs gapped 145 6,609 127 126 90 113 99 X1, X2, X3 16 (7.4 bits) 38 (14.6 bits) 64 (24.7 bits) 16 38 64 22 51 85 15 35 59

… laissez vous aider

E w Matrice 10 11 1000 7 10 3 BLOSUM62 20000 2 PAM30