Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parClementine Couture Modifié depuis plus de 6 années
1
Analyse et comparaison des séquences biologiques
Partie III: les alignements quantitatifs Identifiant: Mot de passe: bioinformatique2015 Dr Lilia Romdhane Faculté des Sciences de Bizerte Institut Pasteur de Tunis 2015/2016
2
Objectifs: Initiation à la recherche de similarité dans les banques
Initiation à la recherche de similarité dans plus séquences
3
Recherche dans les banques de séquences
4
Recherche de séquences homologues
Plusieurs situations nous obligent à fouiller les bases de données afin de trouver une séquence similaire (ou même identique) à celle que l’on possède: Recherche de séquences apparentées à une séquence d’intérêt: Orthologue: même gène, espèce animale différente. P.ex. albumine sérique bovine (BSA) vs albumine sérique humaine (HSA) Paralogues: même espèce, gène similaire mais pas identique. P.ex. a globine vs b globine Trouver la séquence complète à partir de données partielles; Trouver des formes variantes de notre séquence d’intérêt.
5
BLAST Années 70: Alignement global (Needleman et Wunsh) et local (Smith et Waterman) Questions en suspens ?: Cet alignement est-il biologiquement pertinent ? Etant donné le score d’alignement S0 que je viens d’obtenir, quelle est la probabilité d’obtenir un score d’alignement égal ou supérieur à S0 ? à lui seul, un score d’alignement ne permet pas de conclure à la ressemblance et donc à l’homologie de 2 séquences puisque 2 séquences éloignées mais longues peuvent fournir un score supérieur à celui de 2 séquences voisines mais courtes Les scores ne permettent donc de comparer des alignements que si toutes les séquences impliquées sont de longueurs voisines
6
BLAST Deuxième problème: la mise au point des techniques de séquençages de l’ADN et la création des banques de séquences: les programmes basés sur l’algorithme d’alignement global et local sont lents Solution: solution heuristique: accélérer les comparaison sans trop sacrifier à la sensibilité et/ ou à la spécificité Création de FASTA (1986) et BLAST (1990)
7
BLAST: Principe de base
Basic Local Alignment Search Tool. Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers and David J. Lipman. Journal of Molecular Biology (1990) 215: Principe de base: Rechercher toutes « les régions de ressemblance » entre 2 séquences: Vôtre séquence (séquence requête=query) et une séquence de la banque (séquence cible= subject) quelque soit leurs longueurs concaténer toutes ces régions pour en tirer un alignement de plus grande longueur programme d’alignement local
8
BLAST: Fonctionnement
QUERY sequence(s) BLAST results BLAST program BLAST database
9
BLAST: Interprétation
L’interprétation des résultats ou l’analyse de la signification des alignements est évaluée statistiquement Cette évaluation statistique se fait en fonction de la longueur et de la composition de la séquence, de la taille de la banque et de la matrice de scores utilisée BLAST calcule un score, E-value, qui correspond à la probabilité d’observer au hasard cet alignement dans les banques de séquences considérées. BLAST ne répond pas à la question: « Cet alignement est-il biologiquement significatif ? » C’est au biologiste de décider si la E-value semble significative 9
10
BLAST: Interprétation
Alignement contre la banque Swissprot L’alignement de la séquence requête avec la séquence de la banque TOTO_TRUC a un score de 56 et une E-value de Si je comparais votre séquence avec une banque de même taille et de même composition que Swissprot, alors je m’attendrais à trouver dans cette banque 2 séquence qui s’aligneraient avec la vôtre avec un score supérieur ou égal à 56 Dans une banque quelconque de la taille de Swissprot, je m’attends à trouver 2 séquences qui ressembleront au moins autant à la vôtre que TOTO_TRUC
11
BLAST: Interprétation
Alignement contre la banque Swissprot La séquence BOMA_HUMAN produit une E-value = avec un score Pour trouver dans une banque de séquences aléatoires une séquence qui s’aligne avec la vôtre avec un score égal ou supérieur à 197, il faudrait que cette banque soit 1050 fois supérieure à Swissprot
12
BLAST: Interprétation
Remarque: Si la E-value est suffisament petite ( < à 10-2), alors la probabilité de trouver par hasard un alignement avec un score égal ou supérieur au score d’alignement de BLAST est pratiquement égale à la E-value E-value Signification E <1e-100 Appariement exact, même séquence, même origine 1 e-100 < E < 1 e-50 Séquences quasiment identiques (allèles, mutations, espèces voisines) 1 e-50 < E < 0.1 Un éventuel lien entre la séquence requête et celles qui ont été trouvées E > 0.1 Séquences de l’alignement à rejeter, sans lien avec la séquence requête Plus E-value est faible, plus l’alignement est significatif
13
BLAST: Les différents parfums
Requête(query) Base de donnée BLASTP – protéine protéine BLASTN – ADN/ARN ADN (Genebank) BLASTX – traduction protéine (tous ORF ADN d’intérêt) TBLASTN - protéine traduction Genebank (tous les ORF) TBLASTX - traduction traduction Genebank (tous ORF ADN d’intérêt) (tous les ORF) CHMI 4206F - Automne 2010
14
BLAST: Ajustements supplémentaires
Requête possède beaucoup d’acides aminés identiques Aucun résultat avec BLAST RAISONS Filtre (automatic masking) Change la matrice/gap penalty PARAMÈTRES À CHANGER Résultat avec Evalue élevée Trop de résultats Change la base de données OU Filtre la requête avec des mots clés OU Augmente Expect (le seuil limite de Evalue acceptable) CHMI 4206F - Automne 2010
15
Accéder à Blast
16
Choix de la version de Blast: Protein blast
17
Choix de la version de Blast: Protein blast
18
Copier-coller la séquence
Choix de la base de données intérrogée Se limiter aux Vertébrés Choix de l’algorithme
19
Coup d’œil sur les paramètres
Garder les paramètres par défaut nombre max. de séquences cibles seuil sur l'E-value taille de l'amorce choix de la matrice de substitution Lancer Blast
20
Résultats de Blast: 1 récapitulatif de la requête
Banque utilisée Programme Nom de la séquences requête
21
Résultats de Blast: 2 représentation graphique
Une similitude de la protéine TTPA avec les protéine de la superfamille SEC14: Présence d’un domaine protéique commun La première séquence est la séquence soumise chaque trait de couleur représente un alignement entre la séquence de départ et une séquence de la banque de donnée sélectionnée couleur score Longueur taille de l'alignement
22
Résultats de Blast: 3 Résumés des résultats
% de Couverture Identifiant Identifiant % de similitude Score E-value
23
Résultats de Blast: 4. Les alignements
query la séquence soumise subject la séquence trouvée dans la bdd alignement = outil QUANTITATIF - scores - Expect (ou E-value) - % identité -% positif - # de gap
24
Résultats de Blast: 5. Sauvegarder les résultats
Sélectionner les hits dont le % de similitude est >= 70 %
25
Résultats de Blast: 5. Sauvegarder les résultats
26
Résultats de Blast: 5. Sauvegarder les résultats
27
Résultats de Blast: 5. Sauvegarder les résultats
28
Exercice Cherchez les séquences homologues à la protéine TTPA humaine dans la base de données RefSeq chez: le Chimpanzé (Pan troglotydes), le Maccaque (Macaca mulata), la vache (Bos taurus), la Souris (Mus musculus), le Rat (Rattus norvegicus), le Poulet (Gallus gallus), le Poisson zèbre (Danio rerio) Quel est le pourcentage d’identité de la protéine TTPA humaine et chacun de ses orthologues ?
29
Les alignements multiples
30
Idées
31
Alignement multiple Alignement local de chaque paire de séquence (nucléique ou protéique) (algorithme de Needleman et Wunsch)
32
Pourquoi le glutamate est-il conservé ?
Alignement multiple Pourquoi le glutamate est-il conservé ?
33
Les deux chaines de l'insuline porcine. En rouge les ponts disulfures
Alignement multiple Exemple: Insuline: Hormone peptidique sécrétée par les cellules Beta des îlots de Langerhans du pancréas Rôle majeur dans la régulation de la glycémie Son absence est fatale dans un délai de quelques mois chez les Mammifères Structure: 2 chaines polypeptidiques reliées entre elles par 2 ponts disulfures et 1 pont disulfure intrachaine dans la chaine A: Chaine A: 21 aa Chaine B: 30 aa Les deux chaines de l'insuline porcine. En rouge les ponts disulfures
34
Alignement multiple
35
Alignement multiple
36
Alignement multiple
37
Alignement multiple
38
Alignement multiple
39
Alignement: Clustal Clustal: Le premier algorithme d’alignement multiple: Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice. Nucleic Acids Research, 22: Plusieurs implémentations et version: en ligne de commandes, version Web
40
Alignement multiple: ClustalW
Exemple: Alignement multiple des amino-acyl-tRNA synthétases chez E. Coli: Isoleucyl-tRNA synthétase: 938 aa Leucyl-tRNA synthétase: 860 aa Valyl-tRNA synthétase: 951 aa Méthionyl-tRNA synthétase: 677 aa Toutes ces tRNA synthétases sont de type I Deux motifs caractéristiques des synthétases de type I: HIGH et KMSKS
41
ClustalW: ClustalW 2.0.12: Clustalw: Multiple alignment
Copier-coller séquence en multifasta
42
ClustalW: Résultats Séquences globalement similaires avec cependant la présence de longues insertions Alignement de la région du motif HIGH mais pas celle du motif KMSKS
43
ClustalW: Résultats Fin de l’alignement
44
ClustalW: Résultats
45
ClustalW: Recommandations
Premier alignement pas satisfaisant ? : Le fichier contient des erreurs ? ou Aucune région conservée ? Une des séquence se comporte mal ? Il faut vérifier 2 choses: Une de vos séquences n’appartient pas à la même famille que toutes les autres, et par conséquent, elle ne peut s’aligner avec elles: supprimez cette séquence et recommencer Une séquence n’est pas nettement plus courte (ou plus longue) que les autres même si elle appartient à la même famille (ex. ADNc tronqué). Il faut éliminer la séquence et recommencer l’alignement Clustal n’est pas le seul algorithme d’alignement multiple. D’autres algorithme comme DIALIGN, MAFFT et MUSCLE incorporent d’autres méthodes plus performantes et produisent des résultats où Clustal a échoué.
46
Alignement multiple: ClustalX
L’algorithme de Clustal existe dans un programme que vous pouvez installer sur vos PC Lien du téléchargement:
47
Accéder à clusltalX
48
Fenêtre des noms des séquences
Lancer ClustalX File: Load sequences Alignment: -Do complete alignment -Alignment parameters Trees: -Bootstrapped NJ -Output format options Fenêtre des noms des séquences Fenêtre des séquences
49
Charger les séquences: Aperçu des séquences
Astuce: Renommer les séquences (Première ligne de description)
50
Charger les séquences
51
Charger les séquences
52
Charger les séquences Début des séquences
53
Charger les séquences Fin des séquences
54
Alignement multiple: choisir les paramètres
55
Alignement multiple: choisir les paramètres
56
Alignement multiple
57
Alignement multiple: Les fichiers de sortie
Fichier d’extension *.aln: contient l’alignement Fichier d’extension *.dnd: contient le dendrogramme
58
Alignement multiple: Début de l’alignement
Identité/Conservation Ordre des séquences Position de l’alignement Score’
59
Alignement multiple: Fin de l’alignement
60
Alignement multiple: Les fichiers
61
Exercice Aligner avec l’une des versions de Clustal les séquences protéiques de TTPA récupérées suite à l’analyse de BLAST.
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.