Analyse et comparaison des séquences biologiques Partie III: les alignements quantitatifs Identifiant: sv.bioinformatique@yahoo.fr Mot de passe: bioinformatique2015 Dr Lilia Romdhane Faculté des Sciences de Bizerte Institut Pasteur de Tunis 2015/2016
Objectifs: Initiation à la recherche de similarité dans les banques Initiation à la recherche de similarité dans plus séquences
Recherche dans les banques de séquences
Recherche de séquences homologues Plusieurs situations nous obligent à fouiller les bases de données afin de trouver une séquence similaire (ou même identique) à celle que l’on possède: Recherche de séquences apparentées à une séquence d’intérêt: Orthologue: même gène, espèce animale différente. P.ex. albumine sérique bovine (BSA) vs albumine sérique humaine (HSA) Paralogues: même espèce, gène similaire mais pas identique. P.ex. a globine vs b globine Trouver la séquence complète à partir de données partielles; Trouver des formes variantes de notre séquence d’intérêt.
BLAST Années 70: Alignement global (Needleman et Wunsh) et local (Smith et Waterman) Questions en suspens ?: Cet alignement est-il biologiquement pertinent ? Etant donné le score d’alignement S0 que je viens d’obtenir, quelle est la probabilité d’obtenir un score d’alignement égal ou supérieur à S0 ? à lui seul, un score d’alignement ne permet pas de conclure à la ressemblance et donc à l’homologie de 2 séquences puisque 2 séquences éloignées mais longues peuvent fournir un score supérieur à celui de 2 séquences voisines mais courtes Les scores ne permettent donc de comparer des alignements que si toutes les séquences impliquées sont de longueurs voisines
BLAST Deuxième problème: la mise au point des techniques de séquençages de l’ADN et la création des banques de séquences: les programmes basés sur l’algorithme d’alignement global et local sont lents Solution: solution heuristique: accélérer les comparaison sans trop sacrifier à la sensibilité et/ ou à la spécificité Création de FASTA (1986) et BLAST (1990)
BLAST: Principe de base Basic Local Alignment Search Tool. Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers and David J. Lipman. Journal of Molecular Biology (1990) 215:403-410 Principe de base: Rechercher toutes « les régions de ressemblance » entre 2 séquences: Vôtre séquence (séquence requête=query) et une séquence de la banque (séquence cible= subject) quelque soit leurs longueurs concaténer toutes ces régions pour en tirer un alignement de plus grande longueur programme d’alignement local
BLAST: Fonctionnement QUERY sequence(s) BLAST results BLAST program BLAST database
BLAST: Interprétation L’interprétation des résultats ou l’analyse de la signification des alignements est évaluée statistiquement Cette évaluation statistique se fait en fonction de la longueur et de la composition de la séquence, de la taille de la banque et de la matrice de scores utilisée BLAST calcule un score, E-value, qui correspond à la probabilité d’observer au hasard cet alignement dans les banques de séquences considérées. BLAST ne répond pas à la question: « Cet alignement est-il biologiquement significatif ? » C’est au biologiste de décider si la E-value semble significative 9
BLAST: Interprétation Alignement contre la banque Swissprot L’alignement de la séquence requête avec la séquence de la banque TOTO_TRUC a un score de 56 et une E-value de 2.0 Si je comparais votre séquence avec une banque de même taille et de même composition que Swissprot, alors je m’attendrais à trouver dans cette banque 2 séquence qui s’aligneraient avec la vôtre avec un score supérieur ou égal à 56 Dans une banque quelconque de la taille de Swissprot, je m’attends à trouver 2 séquences qui ressembleront au moins autant à la vôtre que TOTO_TRUC
BLAST: Interprétation Alignement contre la banque Swissprot La séquence BOMA_HUMAN produit une E-value = 10-50 avec un score 197 Pour trouver dans une banque de séquences aléatoires une séquence qui s’aligne avec la vôtre avec un score égal ou supérieur à 197, il faudrait que cette banque soit 1050 fois supérieure à Swissprot
BLAST: Interprétation Remarque: Si la E-value est suffisament petite ( < à 10-2), alors la probabilité de trouver par hasard un alignement avec un score égal ou supérieur au score d’alignement de BLAST est pratiquement égale à la E-value E-value Signification E <1e-100 Appariement exact, même séquence, même origine 1 e-100 < E < 1 e-50 Séquences quasiment identiques (allèles, mutations, espèces voisines) 1 e-50 < E < 0.1 Un éventuel lien entre la séquence requête et celles qui ont été trouvées E > 0.1 Séquences de l’alignement à rejeter, sans lien avec la séquence requête Plus E-value est faible, plus l’alignement est significatif
BLAST: Les différents parfums Requête(query) Base de donnée BLASTP – protéine protéine BLASTN – ADN/ARN ADN (Genebank) BLASTX – traduction protéine (tous ORF ADN d’intérêt) TBLASTN - protéine traduction Genebank (tous les ORF) TBLASTX - traduction traduction Genebank (tous ORF ADN d’intérêt) (tous les ORF) CHMI 4206F - Automne 2010
BLAST: Ajustements supplémentaires Requête possède beaucoup d’acides aminés identiques Aucun résultat avec BLAST RAISONS Filtre (automatic masking) Change la matrice/gap penalty PARAMÈTRES À CHANGER Résultat avec Evalue élevée Trop de résultats Change la base de données OU Filtre la requête avec des mots clés OU Augmente Expect (le seuil limite de Evalue acceptable) CHMI 4206F - Automne 2010
Accéder à Blast
Choix de la version de Blast: Protein blast
Choix de la version de Blast: Protein blast
Copier-coller la séquence Choix de la base de données intérrogée Se limiter aux Vertébrés Choix de l’algorithme
Coup d’œil sur les paramètres Garder les paramètres par défaut nombre max. de séquences cibles seuil sur l'E-value taille de l'amorce choix de la matrice de substitution Lancer Blast
Résultats de Blast: 1 récapitulatif de la requête Banque utilisée Programme Nom de la séquences requête
Résultats de Blast: 2 représentation graphique Une similitude de la protéine TTPA avec les protéine de la superfamille SEC14: Présence d’un domaine protéique commun La première séquence est la séquence soumise chaque trait de couleur représente un alignement entre la séquence de départ et une séquence de la banque de donnée sélectionnée couleur score Longueur taille de l'alignement
Résultats de Blast: 3 Résumés des résultats % de Couverture Identifiant Identifiant % de similitude Score E-value
Résultats de Blast: 4. Les alignements query la séquence soumise subject la séquence trouvée dans la bdd alignement = outil QUANTITATIF - scores - Expect (ou E-value) - % identité -% positif - # de gap
Résultats de Blast: 5. Sauvegarder les résultats Sélectionner les hits dont le % de similitude est >= 70 %
Résultats de Blast: 5. Sauvegarder les résultats
Résultats de Blast: 5. Sauvegarder les résultats
Résultats de Blast: 5. Sauvegarder les résultats
Exercice Cherchez les séquences homologues à la protéine TTPA humaine dans la base de données RefSeq chez: le Chimpanzé (Pan troglotydes), le Maccaque (Macaca mulata), la vache (Bos taurus), la Souris (Mus musculus), le Rat (Rattus norvegicus), le Poulet (Gallus gallus), le Poisson zèbre (Danio rerio) Quel est le pourcentage d’identité de la protéine TTPA humaine et chacun de ses orthologues ?
Les alignements multiples
Idées
Alignement multiple Alignement local de chaque paire de séquence (nucléique ou protéique) (algorithme de Needleman et Wunsch)
Pourquoi le glutamate est-il conservé ? Alignement multiple Pourquoi le glutamate est-il conservé ?
Les deux chaines de l'insuline porcine. En rouge les ponts disulfures Alignement multiple Exemple: Insuline: Hormone peptidique sécrétée par les cellules Beta des îlots de Langerhans du pancréas Rôle majeur dans la régulation de la glycémie Son absence est fatale dans un délai de quelques mois chez les Mammifères Structure: 2 chaines polypeptidiques reliées entre elles par 2 ponts disulfures et 1 pont disulfure intrachaine dans la chaine A: Chaine A: 21 aa Chaine B: 30 aa Les deux chaines de l'insuline porcine. En rouge les ponts disulfures
Alignement multiple
Alignement multiple
Alignement multiple
Alignement multiple
Alignement multiple
Alignement: Clustal Clustal: Le premier algorithme d’alignement multiple: Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice. Nucleic Acids Research, 22:4673-4680. Plusieurs implémentations et version: en ligne de commandes, version Web
Alignement multiple: ClustalW Exemple: Alignement multiple des amino-acyl-tRNA synthétases chez E. Coli: Isoleucyl-tRNA synthétase: 938 aa Leucyl-tRNA synthétase: 860 aa Valyl-tRNA synthétase: 951 aa Méthionyl-tRNA synthétase: 677 aa Toutes ces tRNA synthétases sont de type I Deux motifs caractéristiques des synthétases de type I: HIGH et KMSKS
ClustalW: ClustalW 2.0.12: Clustalw: Multiple alignment http://mobyle.pasteur.fr/cgi-bin/portal.py#forms::clustalw-multialign Copier-coller séquence en multifasta
ClustalW: Résultats Séquences globalement similaires avec cependant la présence de longues insertions Alignement de la région du motif HIGH mais pas celle du motif KMSKS
ClustalW: Résultats Fin de l’alignement
ClustalW: Résultats
ClustalW: Recommandations Premier alignement pas satisfaisant ? : Le fichier contient des erreurs ? ou Aucune région conservée ? Une des séquence se comporte mal ? Il faut vérifier 2 choses: Une de vos séquences n’appartient pas à la même famille que toutes les autres, et par conséquent, elle ne peut s’aligner avec elles: supprimez cette séquence et recommencer Une séquence n’est pas nettement plus courte (ou plus longue) que les autres même si elle appartient à la même famille (ex. ADNc tronqué). Il faut éliminer la séquence et recommencer l’alignement Clustal n’est pas le seul algorithme d’alignement multiple. D’autres algorithme comme DIALIGN, MAFFT et MUSCLE incorporent d’autres méthodes plus performantes et produisent des résultats où Clustal a échoué.
Alignement multiple: ClustalX L’algorithme de Clustal existe dans un programme que vous pouvez installer sur vos PC Lien du téléchargement: http://www.clustal.org/
Accéder à clusltalX
Fenêtre des noms des séquences Lancer ClustalX File: Load sequences Alignment: -Do complete alignment -Alignment parameters Trees: -Bootstrapped NJ -Output format options Fenêtre des noms des séquences Fenêtre des séquences
Charger les séquences: Aperçu des séquences Astuce: Renommer les séquences (Première ligne de description)
Charger les séquences
Charger les séquences
Charger les séquences Début des séquences
Charger les séquences Fin des séquences
Alignement multiple: choisir les paramètres
Alignement multiple: choisir les paramètres
Alignement multiple
Alignement multiple: Les fichiers de sortie Fichier d’extension *.aln: contient l’alignement Fichier d’extension *.dnd: contient le dendrogramme
Alignement multiple: Début de l’alignement Identité/Conservation Ordre des séquences Position de l’alignement Score’
Alignement multiple: Fin de l’alignement
Alignement multiple: Les fichiers
Exercice Aligner avec l’une des versions de Clustal les séquences protéiques de TTPA récupérées suite à l’analyse de BLAST.