CHMI 4206 Bioinformatique appliquée

Slides:



Advertisements
Présentations similaires
La recherche documentaire
Advertisements

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Présentation des programmes de terminale STG Juin 2006.
DE ZÉRO à PAUP : Délimitation du groupe d'intérêt ("ingroup")
I. Recherche du gène correspondant aux séquences initiales.
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Initiation à la bioinformatique
Un nouveau regard sur les données moléculaires
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Caractérisation structurale d ’un régulateur transcriptionnel du « Quorum Sensing » chez Brucella abortus.
Créer une animation simple Gif avec ImageReady.
FAIRE SON RAPPORT MENSUEL EN LIGNE ET PRENDRE DU BON TEMPS Lion Roland Pelletier District U-3.
Des fiches « activités » (questionnaires, démarche à adopter pendant les visites, points dintérêts, etc…) vous seront fournies Elles viendront compléter.
YASS : Recherche de similarités dans les séquences d'ADN
Chapitre 2: Les régularités et les relations
CHAPITRE 1 LES SYSTÈMES D' INÉQUATIONS
Python La structure itérative
28 novembre 2012 Grégory Petit
Bases de données lexicales
Le code génétique Biologie 122.
La loi des signes.
Systèmes d’équations du premier degré à deux variables
Prédiction de la structure 3-D des protéines
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
Gestion de Fichiers Tri Interne Efficace et Tri Externe.
CSI 4506: Introduction à l’intelligence artificielle
Design dun système de vision embarqué. Application:
Prédiction d’interactions protéine-protéine
Recherche heuristique dans les bases de données L’algorithme BLAST
Exporter – Graver - Présenter  C'est grâce aux collections que "Exporter graver présenter" prend tout son sens  On peut y exporter un ensemble d'images,
Alignements de séquences par paires
Optimisation par les algorithmes génétiques
Chapitre 3.
Programmation linéaire en nombres entiers
Présentation du marché obligataire
Formation Bio-informatique IRD
Polices de caractère Un seul caractère sauf pour les titres
1 Quatrième journée Les flots de données Les entrées/sorties Les flots de données Les entrées/sorties.
Analyses phylogénétiques
Familles de gènes Nadia El-Mabrouk.
CSI 4506: Introduction à l’Intelligence Artificielle
Module « Epidémiologie »
E.R. Gauthier, Ph.D.CHMI 3216F – A20091 Bioingénierie de l’A.D.N. CHMI 3216 F 14 Septembre 2009 Boîte à outils, 2 ième partie (suite). Plasmides, clonage.
Présentation d’activité : La RMN
Alignement de séquences biologiques
Concepts fondamentaux: statistiques et distributions
Introduction à la Bio-Informatique
Institut Universitaire de Technologie de Clermont-Ferrand
Optimisation par les algorithmes génétiques
Recherche heuristique dans les bases de données L’algorithme BLAST
Post-optimisation, analyse de sensibilité et paramétrage
Réalisation d’un arbre phylogénique à partir d’un fragment de séquence
On s‘intéressera à 3 gènes paralogues humains : HTR2A, HTR2B et HTR2C du récepteur de la sérotonine humaine (Swissprot : 5HT2A_HUMAN, 5HT2B_HUMAN, 5HT2C_HUMAN).
Introduction à la Bio-Informatique
Mais d’abord rappelez-vous!!
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
CHMI 4206 Bioinformatique appliquée
CHMI 4206 Bioinformatique appliquée
CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.
Scénario Quatre hipsters entrent en collision un dans l'autre dans un ascenseur plein de personnes. En conséquence ils laissent tomber leurs téléphones.
Bio-Informatique Analyse de séquences nucléotidiques
Risques d’investissement Plus qu’une histoire de marchés boursiers.
BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:
Des variables et des données. Dans le domaine de la statistique le mot variable signifie une idée différente de celle dans l’algèbre ou les fonctions.
Analyse et comparaison des séquences biologiques
Transcription de la présentation:

CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne Bioinformatique 2: Recherche de séquences homologues, comparaisons de séquences. CHMI 4206F - Automne 2010

Recherche de séquences homologues Plusieurs situations nous obligent à fouiller les bases de données afin de trouver une séquence similaire (ou même identique) à celle que l’on possède: Recherche de séquences apparentées à une séquence d’intérêt: Orthologue: même gène, espèce animale différente. P.ex. albumine sérique bovine (BSA) vs albumine sérique humaine (HSA) Paralogues: même espèce, gène similaire mais pas identique. P.ex. a globine vs b globine Trouver la séquence complète à partir de données partielles; Trouver des formes variantes de notre séquence d’intérêt. CHMI 4206F - Automne 2010

Recherche de séquences homologues Un alignement de séquences peut être global ou local (spécifique à l’algorithme utilisé): Alignement global: alignement optimal qui inclus tous les caractères de chacune des séquences (p.ex. Clustal génère un alignement global) Alignement local: un alignement optimal entre 2 séquences qui n’inclus que la ou les régions les plus similaires (BLAST génère des alignements locaux). CHMI 4206F - Automne 2010

BLAST Logiciel de départ pour la plupart des recherches de similarité de séquences; Accès facile à partir de NCBI-Site Map; Permet de faire des recherches de similarité locale de séquences à partir de séquences en nucléotides ou en acides aminés. CHMI 4206F - Automne 2010

BLAST - FAQ CHMI 4206F - Automne 2010

QUERY sequence(s) BLAST results BLAST program BLAST database BLAST CHMI 4206F - Automne 2010

BLAST Requête(query) Base de donnée BLASTP – protéine protéine BLASTN – ADN/ARN ADN (Genebank) BLASTX – traduction protéine (tous ORF ADN d’intérêt) TBLASTN - protéine traduction Genebank (tous les ORF) TBLASTX - traduction traduction Genebank (tous ORF ADN d’intérêt) (tous les ORF) CHMI 4206F - Automne 2010

BLAST Choix du bon algorithme CHMI 4206F - Automne 2010

BLAST Choix du bon algorithme CHMI 4206F - Automne 2010

BLAST – comment ça marche? Requête (Query): TPQGQRQGQ….. TPQ PQG QGQ GQR QRQ RQG … 1 2 3,7 4 5 6 AAA AAC AAD ... PQG QGQ YYY AGA AGC AAN … PEG QGM ... AAG GAC AAE … PRG MGQ ... GAA AAQ … PMG QAQ GAG QGN Sépare la requête en blocs de 3 lettres (Window) Assemble une liste de mots similaires (via une matrice BLOSUM62) CHMI 4206F - Automne 2010

Matrice BLOSUM Permet de quantifier la similarité entre deux séquences : Séquence identique: valeur maximale Séquence similaire (p.ex. AlaGly): valeur positive Séquence différence (p.ex. AlaAsp): valeur négative On attribue donc une valeur numérique à chaque position de chaque mots de la requête; Plus d’information: page 272 du livre Dummies. CHMI 4206F - Automne 2010

Matrice BLOSUM Acides aminés de la requête Substitutions d’acides aminés dans le match CHMI 4206F - Automne 2010

BLAST – comment ça marche? Trouve dans la base de données de séquences celles qui sont similaires à la requête. Requête: TPQGQRQGQ….. AAA AAC AAD ... PQG QGQ YYY AGA AGC AAN … PEG QGM ... AAG GAC AAE … PRG MGQ ... GAA AAQ … PMG QAQ Database: CTVTPMGQREAE… High Scoring Pairs - HSP CHMI 4206F - Automne 2010

BLAST - Utilisation Choix de la bonne base de données: Limite la recherche: P.ex.: restreint la recherche à l’organisme qui t’intéresse Utilise un site où BLAST a accès à la bonne base de données Filtre les résultats: Par exemple dans le BLAST de séquences de génomes, pour éviter les séquences répétées retrouvées dans l’ADN génomique CHMI 4206F - Automne 2010

BLAST – Bases de données Nr: Non-redundant RefSeq Pdb: protein database Swiss prot: base de données de séquence de protéines CHMI 4206F - Automne 2010

BLAST – Bases de données Nr = non-redundant EST (expressed sequence tags): séquences exprimées (transcrites) anonymes Htgs: high throughput genomic database Pdb: protein database Wgs: whole genome shotgun sequence CHMI 4206F - Automne 2010

BLAST Rapport des résultats CHMI 4206F - Automne 2010

BLAST Rapport des résultats CHMI 4206F - Automne 2010

BLAST Rapport des résultats Accès à la séquence Accès à l’alignement Indique la qualité du match: substitutions + gaps (plus c’est élevé, meilleur est le résultat) Indique la probabilité que ce match fut obtenu par chance (la signification du match – plus c’est petit, meilleur est le résultat). Accès à la page Entrez Gene

BLAST Rapport des résultats Gaps: introduits pour optimiser l’alignement +: Indique un alignement entre acides aminés similaires Query: votre requête Sbjct: la séquence trouvée dans la base de données CHMI 4206F - Automne 2010

BLAST Ajustements supplémentaires Requête possède beaucoup d’acides aminés identiques Aucun résultat avec BLAST RAISONS Filtre (automatic masking) Change la matrice/gap penalty PARAMÈTRES À CHANGER Résultat avec Evalue élevée Trop de résultats Change la base de données OU Filtre la requête avec des mots clés OU Augmente Expect (le seuil limite de Evalue acceptable) CHMI 4206F - Automne 2010

PSI-BLAST Fonctionne de façon itérative (i.e. répétitive); Première itération: Blastp habituel avec BLOSUM62; Ensuite: deuxième BLAST (deuxième itération) où des différences mineures peuvent à être tolérées. Utilité principale: identification de séquences similaires mais plus divergentes par rapport à la séquence initiale. Problème: confusion entre protéine similaire et protéine partageant une partie fonctionnel (p.ex. domaine d’insertion membranaire, domaine d’interaction avec une protéine commune). Dans ce cas, il est préférable de traiter chaque domaine individuellement. CHMI 4206F - Automne 2010

PSI-BLAST Des différences à cette position peuvent être tolérées Exemple: Première itération: Query: AAGVRQCFRYTC : : : : . : . : : : : Match: AAGVKQSYRYTC Lors de la deuxième répétition de la recherche, des variations dans la séquence de la première C seront tolérées, mais pas pour la deuxième C. Cette façon de procéder permettra donc de trouver des matchs qui varieront davantage par rapport à la séquence originale, sans que ces match ne deviennent non pertinentes. Des différences à cette position ne peuvent pas être tolérées CHMI 4206F - Automne 2010

Exercice 1- BLAST Trouver la séquence de l’ARNm et de la protéines encodant v-erbB du virus Avian Erythroblastosis Virus; Faites un Blast avec la séquence en protéine. À quoi correspond la première protéine humaine que vous trouvez? Combien de paralogues humain de cette protéine trouve-t-on (indice: vous devrez faire un autre BLAST pour connaître la réponse…)? NOTE: Prenez bien note des numéros d’identification des séquences que vous trouverez au cours de cet exercice. Vous en aurez de besoin plus tard… CHMI 4206F - Automne 2010

Exercice 2: PSI-BLAST 1) Trouver la séquence d’acides aminés de la b-globine humaine; 2) Faites trois itérations de PSI-BLAST Notez l’apparition du match « leghemoglobin ». Qu’est-ce-que c’est? 3)Qu’arrive-t-il au E value de leghemoglobine après 5 répétitions de PSI BLAST? CHMI 4206F - Automne 2010

Alignement de séquences Plusieurs algorithmes permettent d’aligner des séquences an acides aminés/nucléotides: Alignement de paires de séquences: Dot plot: surtout utile pour identifier des répétitions de séquences ou des insertions/délétions; Align: alignement de paires de séquences courtes. Très utile pour localiser les frontières exon/intron, et pour les séquences en acides aminés. Blast: utilise bl2seq Clustawl: alignement de plusieurs séquences. Surtout utile dans l’identification de séquences partagées entre plusieurs protéines. CHMI 4206F - Automne 2010

Dot plot Moyen le plus simple de comparer deux séquences; Très intuitif: la présence de similarité de séquences est évidente par la présence d’une diagonale; La position de la diagonale est indicative de duplications ou d’insertions/délétion de séquences. CHMI 4206F - Automne 2010

Dot plot Exemple 1 – Insertions/délétions Séquence 1: THEFASTCAT Séquence 2: THEFASTTHECAT T H E F A S T C A T T HEF AST THECAT X X X X X X X X X X X X X X X X CHMI 4206F - Automne 2010 X X X

Dot plot Exemple 2: Répétitions Séquence: THEFASTTHECAT T H E F A S T T H E C A T T HEF AST THECAT X CHMI 4206F - Automne 2010

Dot plot Exemple 3: sous-unité b des protéines G Logiciel: Dotlet (http://www.isrec.isb-sib.ch/software/software.html) Séquence: AAH12060 Question: y-a-t-il des répétitions de séquences au sein de cette protéine? CHMI 4206F - Automne 2010

Dot plot Exemple 3: sous-unité b des protéines G Threshold window Pour régler la sensibilité de l’alignement on ajuste le threshold en faisant glisser la ligne noire de droite à gauche Alignment window - Donne l’alignement de séquence ZOOM factor (1:1 = 1pixel/1acide aminé) Window size - Élimine le bruit de fond CHMI 4206F - Automne 2010

Dot plot Exemple 3: sous-unité b des protéines G Logiciel: Dotlet (http://www.isrec.isb-sib.ch/software/software.html) Séquence: AAH12060 Question: y-a-t-il des répétions de séquences au sein de cette protéine? CHMI 4206F - Automne 2010

Exercice 3 – Dot plot Comparez les séquences de protéines suivantes grâce à au programme Dotlet: Dotlet: http://www.isrec.isb-sib.ch/software/software.html P05049 P08246 Que pouvez-vous déduire du patron d’alignement de ces séquences? Auriez-vous été capable d’obtenir ce résultat avec BLAST? CHMI 4206F - Automne 2010

LAlign Trouve les meilleurs alignements entre 2 séquences; Cool: tu décides combien d’alignements tu veux que le programme trouve; Interprétation: Percent identity: la proportion d’acides aminés identiques alignés dans le bloc de similarité. Local alignment length (overlap): longueur totale de l’alignement. Score: La somme des pénalités attribuées aux gaps et substitutions (lié à matrice de substitution utilisée). Plus c’est élevé, plus que le match est bon. E-value: t’indique combien de fois tu aurais pu obtenir ce match par simple chance. Plus c’est petit, meilleur est le match (un bon E-value est inférieur à 10-4). CHMI 3206F - Automne 2006

LAlign CHMI 3206F - Automne 2006

Align CHMI 3206F - Automne 2006

Exercice 4 – LAlign Comparez les séquences de protéines suivantes grâce à au programme LALIGN: P05049 P08246 Que ce passe-t-il avec vos alignements si vous changez les paramètres suivants: Alignment method Number of reported sub-alignments Matrix Obtenez-vous le même résultat que lorsque vous avez utilisé Dotlet? CHMI 4206F - Automne 2010

Alignements multiples - ClustalW But: 1) Identifier des membres d’une même famille de protéines 2) Identification de courtes séquences d’acides aminés conservés entre plusieurs protéines, et donc indicatif que cette région est importante dans la fonction de ces protéines; 3) Identification de domaines d’acides aminés partagés entre plusieurs protéines. 4) Identification de région importantes dans les promoteurs de gènes. 5) Aide dans la prédiction de la structure 3-D de protéines. CHMI 4206F - Automne 2010

Alignements multiples - ClustalW Démarche: 1) Trouver les séquences désirées: Généralement via une recherche BLAST Les séquences en acides aminés sont de loin préférables Pour être vraiment informatif, un nombre de séquence assez élevé devrait être utilisé (10-15). Ceci peut par exemple inclure des orthologues et des paralogues. Les séquences devraient à être à peu près de la même taille. Évitez les séquences répétées. CHMI 4206F - Automne 2010

Alignements multiples - ClustalW Démarche: 2) Algorithme: ClustalW Disponible sur plusieurs site, dont le site EMBL; Utilises soit le numéro d’identification (p.ex.Swiss-prot) ou cut/paste les séquences sous format FASTA. Permet de visualiser l’alignement donne un arbre phylogénétique montrant la similarité relative entre les séquences donne les fichiers alignés pour utilisation dans un fichier de visualisation plus « cute ». CHMI 4206F - Automne 2010

Alignements multiples - ClustalW Output order: ordre selon lequel les séquences seront listées dans l’alignement Output Format: Choisis alignement sans numérotation Window: longueur de la séquence en acides aminés utlisée lors du calcul de l’alignement Plus la fenêtre est grande, plus on élimine des faux-positifs; PairGap: valeur de la pénalité lors de l’introduction de gaps pour faciliter l’alignement; Matrix: choix de matrice de substitution Gap Open/End Gaps/Gap Extension/Gap Distances: permet d’ajuster des valeurs de pénalité concernant l’introduction, l’arrêt le prolongement ou la longueur des gaps. CHMI 4206F - Automne 2010

Alignements multiples - ClustalW CHMI 4206F - Automne 2010

Alignements multiples - ClustalW CHMI 4206F - Automne 2010

Alignements multiples - ClustalW CHMI 4206F - Automne 2010

Alignements multiples - ClustalW CHMI 4206F - Automne 2010

Représentation des alignements avec JalView CHMI 4206F - Automne 2010

Représentation des alignements avec BoxShade CHMI 4206F - Automne 2010

Représentation des alignements avec BoxShade CHMI 4206F - Automne 2010

Représentation des alignements avec BoxShade CHMI 4206F - Automne 2010

Alignements multiples - Arbre phylogénétique Primates Rongeurs Poissons /amphibiens CHMI 4206F - Automne 2010

Exercice 5 ClustalW 1. Obtenez les séquences en acides aminés de la protéine humaine EGFR/Her1/erbB1 et des paralogues suivants: Her2/erbB2 Her3/erbB3 Her4/erbB4 Trouvez au moins 6 homologues de EGFR (petit truc: utilises la section « Homologene » ou « Unigene » de NCBI). Assures-toi qu’au moins 2 de ces homologues ne sont pas de mammifères. Après avoir converti ces séquences en format FASTA, utilises ClustalW pour aligner toutes ces séquences. EGFR est une protéine tyrosine kinase dont le site actif possède un acide aminé ASP (présent dans la séquence H835RDLAARN842) qui est absolument essentiel à l’activité enzymatique. Sachant cela, identifie l’unique paralogue de EGFR qui est enzymatiquement inactif. CHMI 4206F - Automne 2010