CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne Bioinformatique 2: Recherche de séquences homologues, comparaisons de séquences. CHMI 4206F - Automne 2010
Recherche de séquences homologues Plusieurs situations nous obligent à fouiller les bases de données afin de trouver une séquence similaire (ou même identique) à celle que l’on possède: Recherche de séquences apparentées à une séquence d’intérêt: Orthologue: même gène, espèce animale différente. P.ex. albumine sérique bovine (BSA) vs albumine sérique humaine (HSA) Paralogues: même espèce, gène similaire mais pas identique. P.ex. a globine vs b globine Trouver la séquence complète à partir de données partielles; Trouver des formes variantes de notre séquence d’intérêt. CHMI 4206F - Automne 2010
Recherche de séquences homologues Un alignement de séquences peut être global ou local (spécifique à l’algorithme utilisé): Alignement global: alignement optimal qui inclus tous les caractères de chacune des séquences (p.ex. Clustal génère un alignement global) Alignement local: un alignement optimal entre 2 séquences qui n’inclus que la ou les régions les plus similaires (BLAST génère des alignements locaux). CHMI 4206F - Automne 2010
BLAST Logiciel de départ pour la plupart des recherches de similarité de séquences; Accès facile à partir de NCBI-Site Map; Permet de faire des recherches de similarité locale de séquences à partir de séquences en nucléotides ou en acides aminés. CHMI 4206F - Automne 2010
BLAST - FAQ CHMI 4206F - Automne 2010
QUERY sequence(s) BLAST results BLAST program BLAST database BLAST CHMI 4206F - Automne 2010
BLAST Requête(query) Base de donnée BLASTP – protéine protéine BLASTN – ADN/ARN ADN (Genebank) BLASTX – traduction protéine (tous ORF ADN d’intérêt) TBLASTN - protéine traduction Genebank (tous les ORF) TBLASTX - traduction traduction Genebank (tous ORF ADN d’intérêt) (tous les ORF) CHMI 4206F - Automne 2010
BLAST Choix du bon algorithme CHMI 4206F - Automne 2010
BLAST Choix du bon algorithme CHMI 4206F - Automne 2010
BLAST – comment ça marche? Requête (Query): TPQGQRQGQ….. TPQ PQG QGQ GQR QRQ RQG … 1 2 3,7 4 5 6 AAA AAC AAD ... PQG QGQ YYY AGA AGC AAN … PEG QGM ... AAG GAC AAE … PRG MGQ ... GAA AAQ … PMG QAQ GAG QGN Sépare la requête en blocs de 3 lettres (Window) Assemble une liste de mots similaires (via une matrice BLOSUM62) CHMI 4206F - Automne 2010
Matrice BLOSUM Permet de quantifier la similarité entre deux séquences : Séquence identique: valeur maximale Séquence similaire (p.ex. AlaGly): valeur positive Séquence différence (p.ex. AlaAsp): valeur négative On attribue donc une valeur numérique à chaque position de chaque mots de la requête; Plus d’information: page 272 du livre Dummies. CHMI 4206F - Automne 2010
Matrice BLOSUM Acides aminés de la requête Substitutions d’acides aminés dans le match CHMI 4206F - Automne 2010
BLAST – comment ça marche? Trouve dans la base de données de séquences celles qui sont similaires à la requête. Requête: TPQGQRQGQ….. AAA AAC AAD ... PQG QGQ YYY AGA AGC AAN … PEG QGM ... AAG GAC AAE … PRG MGQ ... GAA AAQ … PMG QAQ Database: CTVTPMGQREAE… High Scoring Pairs - HSP CHMI 4206F - Automne 2010
BLAST - Utilisation Choix de la bonne base de données: Limite la recherche: P.ex.: restreint la recherche à l’organisme qui t’intéresse Utilise un site où BLAST a accès à la bonne base de données Filtre les résultats: Par exemple dans le BLAST de séquences de génomes, pour éviter les séquences répétées retrouvées dans l’ADN génomique CHMI 4206F - Automne 2010
BLAST – Bases de données Nr: Non-redundant RefSeq Pdb: protein database Swiss prot: base de données de séquence de protéines CHMI 4206F - Automne 2010
BLAST – Bases de données Nr = non-redundant EST (expressed sequence tags): séquences exprimées (transcrites) anonymes Htgs: high throughput genomic database Pdb: protein database Wgs: whole genome shotgun sequence CHMI 4206F - Automne 2010
BLAST Rapport des résultats CHMI 4206F - Automne 2010
BLAST Rapport des résultats CHMI 4206F - Automne 2010
BLAST Rapport des résultats Accès à la séquence Accès à l’alignement Indique la qualité du match: substitutions + gaps (plus c’est élevé, meilleur est le résultat) Indique la probabilité que ce match fut obtenu par chance (la signification du match – plus c’est petit, meilleur est le résultat). Accès à la page Entrez Gene
BLAST Rapport des résultats Gaps: introduits pour optimiser l’alignement +: Indique un alignement entre acides aminés similaires Query: votre requête Sbjct: la séquence trouvée dans la base de données CHMI 4206F - Automne 2010
BLAST Ajustements supplémentaires Requête possède beaucoup d’acides aminés identiques Aucun résultat avec BLAST RAISONS Filtre (automatic masking) Change la matrice/gap penalty PARAMÈTRES À CHANGER Résultat avec Evalue élevée Trop de résultats Change la base de données OU Filtre la requête avec des mots clés OU Augmente Expect (le seuil limite de Evalue acceptable) CHMI 4206F - Automne 2010
PSI-BLAST Fonctionne de façon itérative (i.e. répétitive); Première itération: Blastp habituel avec BLOSUM62; Ensuite: deuxième BLAST (deuxième itération) où des différences mineures peuvent à être tolérées. Utilité principale: identification de séquences similaires mais plus divergentes par rapport à la séquence initiale. Problème: confusion entre protéine similaire et protéine partageant une partie fonctionnel (p.ex. domaine d’insertion membranaire, domaine d’interaction avec une protéine commune). Dans ce cas, il est préférable de traiter chaque domaine individuellement. CHMI 4206F - Automne 2010
PSI-BLAST Des différences à cette position peuvent être tolérées Exemple: Première itération: Query: AAGVRQCFRYTC : : : : . : . : : : : Match: AAGVKQSYRYTC Lors de la deuxième répétition de la recherche, des variations dans la séquence de la première C seront tolérées, mais pas pour la deuxième C. Cette façon de procéder permettra donc de trouver des matchs qui varieront davantage par rapport à la séquence originale, sans que ces match ne deviennent non pertinentes. Des différences à cette position ne peuvent pas être tolérées CHMI 4206F - Automne 2010
Exercice 1- BLAST Trouver la séquence de l’ARNm et de la protéines encodant v-erbB du virus Avian Erythroblastosis Virus; Faites un Blast avec la séquence en protéine. À quoi correspond la première protéine humaine que vous trouvez? Combien de paralogues humain de cette protéine trouve-t-on (indice: vous devrez faire un autre BLAST pour connaître la réponse…)? NOTE: Prenez bien note des numéros d’identification des séquences que vous trouverez au cours de cet exercice. Vous en aurez de besoin plus tard… CHMI 4206F - Automne 2010
Exercice 2: PSI-BLAST 1) Trouver la séquence d’acides aminés de la b-globine humaine; 2) Faites trois itérations de PSI-BLAST Notez l’apparition du match « leghemoglobin ». Qu’est-ce-que c’est? 3)Qu’arrive-t-il au E value de leghemoglobine après 5 répétitions de PSI BLAST? CHMI 4206F - Automne 2010
Alignement de séquences Plusieurs algorithmes permettent d’aligner des séquences an acides aminés/nucléotides: Alignement de paires de séquences: Dot plot: surtout utile pour identifier des répétitions de séquences ou des insertions/délétions; Align: alignement de paires de séquences courtes. Très utile pour localiser les frontières exon/intron, et pour les séquences en acides aminés. Blast: utilise bl2seq Clustawl: alignement de plusieurs séquences. Surtout utile dans l’identification de séquences partagées entre plusieurs protéines. CHMI 4206F - Automne 2010
Dot plot Moyen le plus simple de comparer deux séquences; Très intuitif: la présence de similarité de séquences est évidente par la présence d’une diagonale; La position de la diagonale est indicative de duplications ou d’insertions/délétion de séquences. CHMI 4206F - Automne 2010
Dot plot Exemple 1 – Insertions/délétions Séquence 1: THEFASTCAT Séquence 2: THEFASTTHECAT T H E F A S T C A T T HEF AST THECAT X X X X X X X X X X X X X X X X CHMI 4206F - Automne 2010 X X X
Dot plot Exemple 2: Répétitions Séquence: THEFASTTHECAT T H E F A S T T H E C A T T HEF AST THECAT X CHMI 4206F - Automne 2010
Dot plot Exemple 3: sous-unité b des protéines G Logiciel: Dotlet (http://www.isrec.isb-sib.ch/software/software.html) Séquence: AAH12060 Question: y-a-t-il des répétitions de séquences au sein de cette protéine? CHMI 4206F - Automne 2010
Dot plot Exemple 3: sous-unité b des protéines G Threshold window Pour régler la sensibilité de l’alignement on ajuste le threshold en faisant glisser la ligne noire de droite à gauche Alignment window - Donne l’alignement de séquence ZOOM factor (1:1 = 1pixel/1acide aminé) Window size - Élimine le bruit de fond CHMI 4206F - Automne 2010
Dot plot Exemple 3: sous-unité b des protéines G Logiciel: Dotlet (http://www.isrec.isb-sib.ch/software/software.html) Séquence: AAH12060 Question: y-a-t-il des répétions de séquences au sein de cette protéine? CHMI 4206F - Automne 2010
Exercice 3 – Dot plot Comparez les séquences de protéines suivantes grâce à au programme Dotlet: Dotlet: http://www.isrec.isb-sib.ch/software/software.html P05049 P08246 Que pouvez-vous déduire du patron d’alignement de ces séquences? Auriez-vous été capable d’obtenir ce résultat avec BLAST? CHMI 4206F - Automne 2010
LAlign Trouve les meilleurs alignements entre 2 séquences; Cool: tu décides combien d’alignements tu veux que le programme trouve; Interprétation: Percent identity: la proportion d’acides aminés identiques alignés dans le bloc de similarité. Local alignment length (overlap): longueur totale de l’alignement. Score: La somme des pénalités attribuées aux gaps et substitutions (lié à matrice de substitution utilisée). Plus c’est élevé, plus que le match est bon. E-value: t’indique combien de fois tu aurais pu obtenir ce match par simple chance. Plus c’est petit, meilleur est le match (un bon E-value est inférieur à 10-4). CHMI 3206F - Automne 2006
LAlign CHMI 3206F - Automne 2006
Align CHMI 3206F - Automne 2006
Exercice 4 – LAlign Comparez les séquences de protéines suivantes grâce à au programme LALIGN: P05049 P08246 Que ce passe-t-il avec vos alignements si vous changez les paramètres suivants: Alignment method Number of reported sub-alignments Matrix Obtenez-vous le même résultat que lorsque vous avez utilisé Dotlet? CHMI 4206F - Automne 2010
Alignements multiples - ClustalW But: 1) Identifier des membres d’une même famille de protéines 2) Identification de courtes séquences d’acides aminés conservés entre plusieurs protéines, et donc indicatif que cette région est importante dans la fonction de ces protéines; 3) Identification de domaines d’acides aminés partagés entre plusieurs protéines. 4) Identification de région importantes dans les promoteurs de gènes. 5) Aide dans la prédiction de la structure 3-D de protéines. CHMI 4206F - Automne 2010
Alignements multiples - ClustalW Démarche: 1) Trouver les séquences désirées: Généralement via une recherche BLAST Les séquences en acides aminés sont de loin préférables Pour être vraiment informatif, un nombre de séquence assez élevé devrait être utilisé (10-15). Ceci peut par exemple inclure des orthologues et des paralogues. Les séquences devraient à être à peu près de la même taille. Évitez les séquences répétées. CHMI 4206F - Automne 2010
Alignements multiples - ClustalW Démarche: 2) Algorithme: ClustalW Disponible sur plusieurs site, dont le site EMBL; Utilises soit le numéro d’identification (p.ex.Swiss-prot) ou cut/paste les séquences sous format FASTA. Permet de visualiser l’alignement donne un arbre phylogénétique montrant la similarité relative entre les séquences donne les fichiers alignés pour utilisation dans un fichier de visualisation plus « cute ». CHMI 4206F - Automne 2010
Alignements multiples - ClustalW Output order: ordre selon lequel les séquences seront listées dans l’alignement Output Format: Choisis alignement sans numérotation Window: longueur de la séquence en acides aminés utlisée lors du calcul de l’alignement Plus la fenêtre est grande, plus on élimine des faux-positifs; PairGap: valeur de la pénalité lors de l’introduction de gaps pour faciliter l’alignement; Matrix: choix de matrice de substitution Gap Open/End Gaps/Gap Extension/Gap Distances: permet d’ajuster des valeurs de pénalité concernant l’introduction, l’arrêt le prolongement ou la longueur des gaps. CHMI 4206F - Automne 2010
Alignements multiples - ClustalW CHMI 4206F - Automne 2010
Alignements multiples - ClustalW CHMI 4206F - Automne 2010
Alignements multiples - ClustalW CHMI 4206F - Automne 2010
Alignements multiples - ClustalW CHMI 4206F - Automne 2010
Représentation des alignements avec JalView CHMI 4206F - Automne 2010
Représentation des alignements avec BoxShade CHMI 4206F - Automne 2010
Représentation des alignements avec BoxShade CHMI 4206F - Automne 2010
Représentation des alignements avec BoxShade CHMI 4206F - Automne 2010
Alignements multiples - Arbre phylogénétique Primates Rongeurs Poissons /amphibiens CHMI 4206F - Automne 2010
Exercice 5 ClustalW 1. Obtenez les séquences en acides aminés de la protéine humaine EGFR/Her1/erbB1 et des paralogues suivants: Her2/erbB2 Her3/erbB3 Her4/erbB4 Trouvez au moins 6 homologues de EGFR (petit truc: utilises la section « Homologene » ou « Unigene » de NCBI). Assures-toi qu’au moins 2 de ces homologues ne sont pas de mammifères. Après avoir converti ces séquences en format FASTA, utilises ClustalW pour aligner toutes ces séquences. EGFR est une protéine tyrosine kinase dont le site actif possède un acide aminé ASP (présent dans la séquence H835RDLAARN842) qui est absolument essentiel à l’activité enzymatique. Sachant cela, identifie l’unique paralogue de EGFR qui est enzymatiquement inactif. CHMI 4206F - Automne 2010