La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CHMI 4206 Bioinformatique appliquée

Présentations similaires


Présentation au sujet: "CHMI 4206 Bioinformatique appliquée"— Transcription de la présentation:

1 CHMI 4206 Bioinformatique appliquée
Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne Bioinformatique 2: Recherche de séquences homologues, comparaisons de séquences. CHMI 4206F - Automne 2010

2 Recherche de séquences homologues
Plusieurs situations nous obligent à fouiller les bases de données afin de trouver une séquence similaire (ou même identique) à celle que l’on possède: Recherche de séquences apparentées à une séquence d’intérêt: Orthologue: même gène, espèce animale différente. P.ex. albumine sérique bovine (BSA) vs albumine sérique humaine (HSA) Paralogues: même espèce, gène similaire mais pas identique. P.ex. a globine vs b globine Trouver la séquence complète à partir de données partielles; Trouver des formes variantes de notre séquence d’intérêt. CHMI 4206F - Automne 2010

3 Recherche de séquences homologues
Un alignement de séquences peut être global ou local (spécifique à l’algorithme utilisé): Alignement global: alignement optimal qui inclus tous les caractères de chacune des séquences (p.ex. Clustal génère un alignement global) Alignement local: un alignement optimal entre 2 séquences qui n’inclus que la ou les régions les plus similaires (BLAST génère des alignements locaux). CHMI 4206F - Automne 2010

4 BLAST Logiciel de départ pour la plupart des recherches de similarité de séquences; Accès facile à partir de NCBI-Site Map; Permet de faire des recherches de similarité locale de séquences à partir de séquences en nucléotides ou en acides aminés. CHMI 4206F - Automne 2010

5 BLAST - FAQ CHMI 4206F - Automne 2010

6 QUERY sequence(s) BLAST results BLAST program BLAST database BLAST
CHMI 4206F - Automne 2010

7 BLAST Requête(query) Base de donnée BLASTP – protéine protéine
BLASTN – ADN/ARN ADN (Genebank) BLASTX – traduction protéine (tous ORF ADN d’intérêt) TBLASTN - protéine traduction Genebank (tous les ORF) TBLASTX - traduction traduction Genebank (tous ORF ADN d’intérêt) (tous les ORF) CHMI 4206F - Automne 2010

8 BLAST Choix du bon algorithme
CHMI 4206F - Automne 2010

9 BLAST Choix du bon algorithme
CHMI 4206F - Automne 2010

10 BLAST – comment ça marche?
Requête (Query): TPQGQRQGQ….. TPQ PQG QGQ GQR QRQ RQG … , AAA AAC AAD PQG QGQ YYY AGA AGC AAN … PEG QGM AAG GAC AAE … PRG MGQ GAA AAQ … PMG QAQ GAG QGN Sépare la requête en blocs de 3 lettres (Window) Assemble une liste de mots similaires (via une matrice BLOSUM62) CHMI 4206F - Automne 2010

11 Matrice BLOSUM Permet de quantifier la similarité entre deux séquences : Séquence identique: valeur maximale Séquence similaire (p.ex. AlaGly): valeur positive Séquence différence (p.ex. AlaAsp): valeur négative On attribue donc une valeur numérique à chaque position de chaque mots de la requête; Plus d’information: page 272 du livre Dummies. CHMI 4206F - Automne 2010

12 Matrice BLOSUM Acides aminés de la requête
Substitutions d’acides aminés dans le match CHMI 4206F - Automne 2010

13 BLAST – comment ça marche?
Trouve dans la base de données de séquences celles qui sont similaires à la requête. Requête: TPQGQRQGQ….. AAA AAC AAD PQG QGQ YYY AGA AGC AAN … PEG QGM AAG GAC AAE … PRG MGQ GAA AAQ … PMG QAQ Database: CTVTPMGQREAE… High Scoring Pairs - HSP CHMI 4206F - Automne 2010

14 BLAST - Utilisation Choix de la bonne base de données:
Limite la recherche: P.ex.: restreint la recherche à l’organisme qui t’intéresse Utilise un site où BLAST a accès à la bonne base de données Filtre les résultats: Par exemple dans le BLAST de séquences de génomes, pour éviter les séquences répétées retrouvées dans l’ADN génomique CHMI 4206F - Automne 2010

15 BLAST – Bases de données
Nr: Non-redundant RefSeq Pdb: protein database Swiss prot: base de données de séquence de protéines CHMI 4206F - Automne 2010

16 BLAST – Bases de données
Nr = non-redundant EST (expressed sequence tags): séquences exprimées (transcrites) anonymes Htgs: high throughput genomic database Pdb: protein database Wgs: whole genome shotgun sequence CHMI 4206F - Automne 2010

17 BLAST Rapport des résultats
CHMI 4206F - Automne 2010

18 BLAST Rapport des résultats
CHMI 4206F - Automne 2010

19 BLAST Rapport des résultats
Accès à la séquence Accès à l’alignement Indique la qualité du match: substitutions + gaps (plus c’est élevé, meilleur est le résultat) Indique la probabilité que ce match fut obtenu par chance (la signification du match – plus c’est petit, meilleur est le résultat). Accès à la page Entrez Gene

20 BLAST Rapport des résultats
Gaps: introduits pour optimiser l’alignement +: Indique un alignement entre acides aminés similaires Query: votre requête Sbjct: la séquence trouvée dans la base de données CHMI 4206F - Automne 2010

21 BLAST Ajustements supplémentaires
Requête possède beaucoup d’acides aminés identiques Aucun résultat avec BLAST RAISONS Filtre (automatic masking) Change la matrice/gap penalty PARAMÈTRES À CHANGER Résultat avec Evalue élevée Trop de résultats Change la base de données OU Filtre la requête avec des mots clés OU Augmente Expect (le seuil limite de Evalue acceptable) CHMI 4206F - Automne 2010

22 PSI-BLAST Fonctionne de façon itérative (i.e. répétitive);
Première itération: Blastp habituel avec BLOSUM62; Ensuite: deuxième BLAST (deuxième itération) où des différences mineures peuvent à être tolérées. Utilité principale: identification de séquences similaires mais plus divergentes par rapport à la séquence initiale. Problème: confusion entre protéine similaire et protéine partageant une partie fonctionnel (p.ex. domaine d’insertion membranaire, domaine d’interaction avec une protéine commune). Dans ce cas, il est préférable de traiter chaque domaine individuellement. CHMI 4206F - Automne 2010

23 PSI-BLAST Des différences à cette position peuvent être tolérées Exemple: Première itération: Query: AAGVRQCFRYTC : : : : . : : : : : Match: AAGVKQSYRYTC Lors de la deuxième répétition de la recherche, des variations dans la séquence de la première C seront tolérées, mais pas pour la deuxième C. Cette façon de procéder permettra donc de trouver des matchs qui varieront davantage par rapport à la séquence originale, sans que ces match ne deviennent non pertinentes. Des différences à cette position ne peuvent pas être tolérées CHMI 4206F - Automne 2010

24 Exercice 1- BLAST Trouver la séquence de l’ARNm et de la protéines encodant v-erbB du virus Avian Erythroblastosis Virus; Faites un Blast avec la séquence en protéine. À quoi correspond la première protéine humaine que vous trouvez? Combien de paralogues humain de cette protéine trouve-t-on (indice: vous devrez faire un autre BLAST pour connaître la réponse…)? NOTE: Prenez bien note des numéros d’identification des séquences que vous trouverez au cours de cet exercice. Vous en aurez de besoin plus tard… CHMI 4206F - Automne 2010

25 Exercice 2: PSI-BLAST 1) Trouver la séquence d’acides aminés de la b-globine humaine; 2) Faites trois itérations de PSI-BLAST Notez l’apparition du match « leghemoglobin ». Qu’est-ce-que c’est? 3)Qu’arrive-t-il au E value de leghemoglobine après 5 répétitions de PSI BLAST? CHMI 4206F - Automne 2010

26 Alignement de séquences
Plusieurs algorithmes permettent d’aligner des séquences an acides aminés/nucléotides: Alignement de paires de séquences: Dot plot: surtout utile pour identifier des répétitions de séquences ou des insertions/délétions; Align: alignement de paires de séquences courtes. Très utile pour localiser les frontières exon/intron, et pour les séquences en acides aminés. Blast: utilise bl2seq Clustawl: alignement de plusieurs séquences. Surtout utile dans l’identification de séquences partagées entre plusieurs protéines. CHMI 4206F - Automne 2010

27 Dot plot Moyen le plus simple de comparer deux séquences;
Très intuitif: la présence de similarité de séquences est évidente par la présence d’une diagonale; La position de la diagonale est indicative de duplications ou d’insertions/délétion de séquences. CHMI 4206F - Automne 2010

28 Dot plot Exemple 1 – Insertions/délétions
Séquence 1: THEFASTCAT Séquence 2: THEFASTTHECAT T H E F A S T C A T T HEF AST THECAT X X X X X X X X X X X X X X X X CHMI 4206F - Automne 2010 X X X

29 Dot plot Exemple 2: Répétitions
Séquence: THEFASTTHECAT T H E F A S T T H E C A T T HEF AST THECAT X CHMI 4206F - Automne 2010

30 Dot plot Exemple 3: sous-unité b des protéines G
Logiciel: Dotlet ( Séquence: AAH12060 Question: y-a-t-il des répétitions de séquences au sein de cette protéine? CHMI 4206F - Automne 2010

31 Dot plot Exemple 3: sous-unité b des protéines G
Threshold window Pour régler la sensibilité de l’alignement on ajuste le threshold en faisant glisser la ligne noire de droite à gauche Alignment window - Donne l’alignement de séquence ZOOM factor (1:1 = 1pixel/1acide aminé) Window size - Élimine le bruit de fond CHMI 4206F - Automne 2010

32 Dot plot Exemple 3: sous-unité b des protéines G
Logiciel: Dotlet ( Séquence: AAH12060 Question: y-a-t-il des répétions de séquences au sein de cette protéine? CHMI 4206F - Automne 2010

33 Exercice 3 – Dot plot Comparez les séquences de protéines suivantes grâce à au programme Dotlet: Dotlet: P05049 P08246 Que pouvez-vous déduire du patron d’alignement de ces séquences? Auriez-vous été capable d’obtenir ce résultat avec BLAST? CHMI 4206F - Automne 2010

34 LAlign Trouve les meilleurs alignements entre 2 séquences;
Cool: tu décides combien d’alignements tu veux que le programme trouve; Interprétation: Percent identity: la proportion d’acides aminés identiques alignés dans le bloc de similarité. Local alignment length (overlap): longueur totale de l’alignement. Score: La somme des pénalités attribuées aux gaps et substitutions (lié à matrice de substitution utilisée). Plus c’est élevé, plus que le match est bon. E-value: t’indique combien de fois tu aurais pu obtenir ce match par simple chance. Plus c’est petit, meilleur est le match (un bon E-value est inférieur à 10-4). CHMI 3206F - Automne 2006

35 LAlign CHMI 3206F - Automne 2006

36 Align CHMI 3206F - Automne 2006

37 Exercice 4 – LAlign Comparez les séquences de protéines suivantes grâce à au programme LALIGN: P05049 P08246 Que ce passe-t-il avec vos alignements si vous changez les paramètres suivants: Alignment method Number of reported sub-alignments Matrix Obtenez-vous le même résultat que lorsque vous avez utilisé Dotlet? CHMI 4206F - Automne 2010

38 Alignements multiples - ClustalW
But: 1) Identifier des membres d’une même famille de protéines 2) Identification de courtes séquences d’acides aminés conservés entre plusieurs protéines, et donc indicatif que cette région est importante dans la fonction de ces protéines; 3) Identification de domaines d’acides aminés partagés entre plusieurs protéines. 4) Identification de région importantes dans les promoteurs de gènes. 5) Aide dans la prédiction de la structure 3-D de protéines. CHMI 4206F - Automne 2010

39 Alignements multiples - ClustalW
Démarche: 1) Trouver les séquences désirées: Généralement via une recherche BLAST Les séquences en acides aminés sont de loin préférables Pour être vraiment informatif, un nombre de séquence assez élevé devrait être utilisé (10-15). Ceci peut par exemple inclure des orthologues et des paralogues. Les séquences devraient à être à peu près de la même taille. Évitez les séquences répétées. CHMI 4206F - Automne 2010

40 Alignements multiples - ClustalW
Démarche: 2) Algorithme: ClustalW Disponible sur plusieurs site, dont le site EMBL; Utilises soit le numéro d’identification (p.ex.Swiss-prot) ou cut/paste les séquences sous format FASTA. Permet de visualiser l’alignement donne un arbre phylogénétique montrant la similarité relative entre les séquences donne les fichiers alignés pour utilisation dans un fichier de visualisation plus « cute ». CHMI 4206F - Automne 2010

41 Alignements multiples - ClustalW
Output order: ordre selon lequel les séquences seront listées dans l’alignement Output Format: Choisis alignement sans numérotation Window: longueur de la séquence en acides aminés utlisée lors du calcul de l’alignement Plus la fenêtre est grande, plus on élimine des faux-positifs; PairGap: valeur de la pénalité lors de l’introduction de gaps pour faciliter l’alignement; Matrix: choix de matrice de substitution Gap Open/End Gaps/Gap Extension/Gap Distances: permet d’ajuster des valeurs de pénalité concernant l’introduction, l’arrêt le prolongement ou la longueur des gaps. CHMI 4206F - Automne 2010

42 Alignements multiples - ClustalW
CHMI 4206F - Automne 2010

43 Alignements multiples - ClustalW
CHMI 4206F - Automne 2010

44 Alignements multiples - ClustalW
CHMI 4206F - Automne 2010

45 Alignements multiples - ClustalW
CHMI 4206F - Automne 2010

46 Représentation des alignements avec JalView
CHMI 4206F - Automne 2010

47 Représentation des alignements avec BoxShade
CHMI 4206F - Automne 2010

48 Représentation des alignements avec BoxShade
CHMI 4206F - Automne 2010

49 Représentation des alignements avec BoxShade
CHMI 4206F - Automne 2010

50 Alignements multiples - Arbre phylogénétique
Primates Rongeurs Poissons /amphibiens CHMI 4206F - Automne 2010

51 Exercice 5 ClustalW 1. Obtenez les séquences en acides aminés de la protéine humaine EGFR/Her1/erbB1 et des paralogues suivants: Her2/erbB2 Her3/erbB3 Her4/erbB4 Trouvez au moins 6 homologues de EGFR (petit truc: utilises la section « Homologene » ou « Unigene » de NCBI). Assures-toi qu’au moins 2 de ces homologues ne sont pas de mammifères. Après avoir converti ces séquences en format FASTA, utilises ClustalW pour aligner toutes ces séquences. EGFR est une protéine tyrosine kinase dont le site actif possède un acide aminé ASP (présent dans la séquence H835RDLAARN842) qui est absolument essentiel à l’activité enzymatique. Sachant cela, identifie l’unique paralogue de EGFR qui est enzymatiquement inactif. CHMI 4206F - Automne 2010


Télécharger ppt "CHMI 4206 Bioinformatique appliquée"

Présentations similaires


Annonces Google