Analyse et comparaison des séquences biologiques

Slides:

Advertisements

Présentations similaires

Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.

Advertisements

Informatique en Biologie Institut Pasteur S P I N Search in Protein Interaction Network Elisabeth Rémy Karine Robbe Mathieu Barthélémy Tuteur :

L’outil bio-informatique pour la génomique structurale

Initiation à la bioinformatique

YASS : Recherche de similarités dans les séquences d'ADN

Alignement de séquences multiples

Alignement de séquences multiples

Recherche heuristique dans les bases de données L’algorithme BLAST

Formation Bio-informatique IRD

Alignement de séquences biologiques

Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.

Recherche heuristique dans les bases de données L’algorithme BLAST

CHMI 4206 Bioinformatique appliquée

Les banques de séquences nucléiques

CHMI 4206 Bioinformatique appliquée

CHMI 4206 Bioinformatique appliquée

CHMI 4206F - Automne CHMI 4206 Bioinformatique appliquée Prof: Eric R. Gauthier, Ph.D. Département de chimie et biochimie Université Laurentienne.

Bio-Informatique Analyse de séquences nucléotidiques

BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:

Catalog fonctionne sur vos données Catalog est préconfiguré pour fonctionner directement avec les données – WinBooks Accounting – WinBooks Logistics –

TP3 – Évolution et conservation de motifs Hypothèse: Les gènes et les protéines évoluent continuellement pour permettre l’évolution et l’adaptation des.

CONTENT-BOOSTED COLLABORATIVE FILTERING FOR IMPROVED RECOMMENDATIONS Prem Melville & Raymond J. Mooney & Ramadass Nagarajan Department of Computer Sciences.

1- Introduction 1ère partie Le langage SQL 2- Connexion 3- Structure & Contenu 4- Requêtes.

Présentation du programme

Logos Logos Phu Phu Phu Phu INFOS KRAS Canal KcsA

Système d’aide à la décision Business Intelligence

Suites ordonnées ou mettre de l’ordre

Exploitation de logiciels :

Tableau à double entrée

elmousaoui mourad dalli mohammed bouzIane omar Prof. N. Boukhatem

Duplication du génome du poisson teleost

Logos Logos Phu Phu Phu Phu INFOS Canal KcsA Canal KcsA

Deuxième partie : La courbe d’indifférence

Les chromosomes Dr K Sifi Faculté de médecine UC3

Parrainage BIOINFORMATIQUE

Langage de manipulation de données (LMD)

Visite guidée - session 8 L’ordonnancement Métier : Fabrication

Logos Logos Phu Phu Phu Phu INFOS Télomères Canal KcsA

D’où proviennent les nouveaux groupes et les nouvelles espèces ?

Images et morphogenèse végétale

Collège Lionel-Groulx

République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.

Algorithmes de filtrage

ACP Analyse en Composantes Principales

GPAO - CH - III1 1. Introduction 2. Les objectifs de la gestion du stock 3. Les différents types de stocks 4. L’optimisation du niveau de stock 5. Les.

Bases de données sous Access. Initiation aux bases de données  Structure d’une base de données.

OPTIMISATION 1ère année ingénieurs

Le programme génétique d’un individu est contenu dans le noyau des cellules.

TP 4 Correspondance gène/protéine.

SyncoTM 200 Fonctionnement et mise en service

Expression du Génome Le transcriptome.

Calcul de la structure de guidage

On lance 100 fois de suite une pièce de monnaie.

Variable Neighborhood Descent (VND) Réalisée par Nadia Sassi Eya baghdedi AU

Algorithmes de filtrage

PRESENTATION ACCESS Editeur : Microsoft Environnement Windows (SE)

Les erreurs de mesure Projet d’Appui au renforcement des capacités

Expression du Génome Le transcriptome.

Programme d’appui à la gestion publique et aux statistiques

Les méthodes quantitatives en éducation

Package JADE : Analyse en composantes principales (ACI)

Tableau de bord d’un système de recommandation

L’outil bio-informatique pour la génomique structurale

Impact Evaluation 4 Peace March 2014, Lisbon, Portugal 1 Echantillonage pour une Evaluation d’Impact Latin America and the Caribbean’s Citizen Security.

STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.

Homogamie et Consanguinité Croisements non panmictiques MODES DE CROISEMETS.

Transcription de la présentation:

Analyse et comparaison des séquences biologiques Partie III: les alignements quantitatifs Identifiant: sv.bioinformatique@yahoo.fr Mot de passe: bioinformatique2015 Dr Lilia Romdhane Faculté des Sciences de Bizerte Institut Pasteur de Tunis 2015/2016

Objectifs: Initiation à la recherche de similarité dans les banques Initiation à la recherche de similarité dans plus séquences

Recherche dans les banques de séquences

Recherche de séquences homologues Plusieurs situations nous obligent à fouiller les bases de données afin de trouver une séquence similaire (ou même identique) à celle que l’on possède: Recherche de séquences apparentées à une séquence d’intérêt: Orthologue: même gène, espèce animale différente. P.ex. albumine sérique bovine (BSA) vs albumine sérique humaine (HSA) Paralogues: même espèce, gène similaire mais pas identique. P.ex. a globine vs b globine Trouver la séquence complète à partir de données partielles; Trouver des formes variantes de notre séquence d’intérêt.

BLAST Années 70: Alignement global (Needleman et Wunsh) et local (Smith et Waterman) Questions en suspens ?: Cet alignement est-il biologiquement pertinent ? Etant donné le score d’alignement S0 que je viens d’obtenir, quelle est la probabilité d’obtenir un score d’alignement égal ou supérieur à S0 ?  à lui seul, un score d’alignement ne permet pas de conclure à la ressemblance et donc à l’homologie de 2 séquences puisque 2 séquences éloignées mais longues peuvent fournir un score supérieur à celui de 2 séquences voisines mais courtes Les scores ne permettent donc de comparer des alignements que si toutes les séquences impliquées sont de longueurs voisines

BLAST Deuxième problème: la mise au point des techniques de séquençages de l’ADN et la création des banques de séquences: les programmes basés sur l’algorithme d’alignement global et local sont lents Solution: solution heuristique: accélérer les comparaison sans trop sacrifier à la sensibilité et/ ou à la spécificité  Création de FASTA (1986) et BLAST (1990)

BLAST: Principe de base Basic Local Alignment Search Tool. Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers and David J. Lipman. Journal of Molecular Biology (1990) 215:403-410 Principe de base: Rechercher toutes « les régions de ressemblance » entre 2 séquences: Vôtre séquence (séquence requête=query) et une séquence de la banque (séquence cible= subject) quelque soit leurs longueurs concaténer toutes ces régions pour en tirer un alignement de plus grande longueur  programme d’alignement local

BLAST: Fonctionnement QUERY sequence(s) BLAST results BLAST program BLAST database

BLAST: Interprétation L’interprétation des résultats ou l’analyse de la signification des alignements est évaluée statistiquement Cette évaluation statistique se fait en fonction de la longueur et de la composition de la séquence, de la taille de la banque et de la matrice de scores utilisée BLAST calcule un score, E-value, qui correspond à la probabilité d’observer au hasard cet alignement dans les banques de séquences considérées. BLAST ne répond pas à la question: « Cet alignement est-il biologiquement significatif ? » C’est au biologiste de décider si la E-value semble significative 9

BLAST: Interprétation Alignement contre la banque Swissprot L’alignement de la séquence requête avec la séquence de la banque TOTO_TRUC a un score de 56 et une E-value de 2.0 Si je comparais votre séquence avec une banque de même taille et de même composition que Swissprot, alors je m’attendrais à trouver dans cette banque 2 séquence qui s’aligneraient avec la vôtre avec un score supérieur ou égal à 56 Dans une banque quelconque de la taille de Swissprot, je m’attends à trouver 2 séquences qui ressembleront au moins autant à la vôtre que TOTO_TRUC

BLAST: Interprétation Alignement contre la banque Swissprot La séquence BOMA_HUMAN produit une E-value = 10-50 avec un score 197 Pour trouver dans une banque de séquences aléatoires une séquence qui s’aligne avec la vôtre avec un score égal ou supérieur à 197, il faudrait que cette banque soit 1050 fois supérieure à Swissprot

BLAST: Interprétation Remarque: Si la E-value est suffisament petite ( < à 10-2), alors la probabilité de trouver par hasard un alignement avec un score égal ou supérieur au score d’alignement de BLAST est pratiquement égale à la E-value E-value Signification E <1e-100 Appariement exact, même séquence, même origine 1 e-100 < E < 1 e-50 Séquences quasiment identiques (allèles, mutations, espèces voisines) 1 e-50 < E < 0.1 Un éventuel lien entre la séquence requête et celles qui ont été trouvées E > 0.1 Séquences de l’alignement à rejeter, sans lien avec la séquence requête Plus E-value est faible, plus l’alignement est significatif

BLAST: Les différents parfums Requête(query) Base de donnée BLASTP – protéine protéine BLASTN – ADN/ARN ADN (Genebank) BLASTX – traduction protéine (tous ORF ADN d’intérêt) TBLASTN - protéine traduction Genebank (tous les ORF) TBLASTX - traduction traduction Genebank (tous ORF ADN d’intérêt) (tous les ORF) CHMI 4206F - Automne 2010

BLAST: Ajustements supplémentaires Requête possède beaucoup d’acides aminés identiques Aucun résultat avec BLAST RAISONS Filtre (automatic masking) Change la matrice/gap penalty PARAMÈTRES À CHANGER Résultat avec Evalue élevée Trop de résultats Change la base de données OU Filtre la requête avec des mots clés OU Augmente Expect (le seuil limite de Evalue acceptable) CHMI 4206F - Automne 2010

Accéder à Blast

Choix de la version de Blast: Protein blast

Choix de la version de Blast: Protein blast

Copier-coller la séquence Choix de la base de données intérrogée Se limiter aux Vertébrés Choix de l’algorithme

Coup d’œil sur les paramètres Garder les paramètres par défaut nombre max. de séquences cibles seuil sur l'E-value taille de l'amorce choix de la matrice de substitution Lancer Blast

Résultats de Blast: 1 récapitulatif de la requête Banque utilisée Programme Nom de la séquences requête

Résultats de Blast: 2 représentation graphique Une similitude de la protéine TTPA avec les protéine de la superfamille SEC14: Présence d’un domaine protéique commun La première séquence est la séquence soumise chaque trait de couleur représente un alignement entre la séquence de départ et une séquence de la banque de donnée sélectionnée couleur  score Longueur  taille de l'alignement

Résultats de Blast: 3 Résumés des résultats % de Couverture Identifiant Identifiant % de similitude Score E-value

Résultats de Blast: 4. Les alignements query  la séquence soumise subject  la séquence trouvée dans la bdd alignement = outil QUANTITATIF - scores - Expect (ou E-value) - % identité -% positif - # de gap

Résultats de Blast: 5. Sauvegarder les résultats Sélectionner les hits dont le % de similitude est >= 70 %

Résultats de Blast: 5. Sauvegarder les résultats

Résultats de Blast: 5. Sauvegarder les résultats

Résultats de Blast: 5. Sauvegarder les résultats

Exercice Cherchez les séquences homologues à la protéine TTPA humaine dans la base de données RefSeq chez: le Chimpanzé (Pan troglotydes), le Maccaque (Macaca mulata), la vache (Bos taurus), la Souris (Mus musculus), le Rat (Rattus norvegicus), le Poulet (Gallus gallus), le Poisson zèbre (Danio rerio) Quel est le pourcentage d’identité de la protéine TTPA humaine et chacun de ses orthologues ?

Les alignements multiples

Idées

Alignement multiple Alignement local de chaque paire de séquence (nucléique ou protéique) (algorithme de Needleman et Wunsch)

Pourquoi le glutamate est-il conservé ? Alignement multiple Pourquoi le glutamate est-il conservé ?

Les deux chaines de l'insuline porcine. En rouge les ponts disulfures Alignement multiple Exemple: Insuline: Hormone peptidique sécrétée par les cellules Beta des îlots de Langerhans du pancréas Rôle majeur dans la régulation de la glycémie Son absence est fatale dans un délai de quelques mois chez les Mammifères Structure: 2 chaines polypeptidiques reliées entre elles par 2 ponts disulfures et 1 pont disulfure intrachaine dans la chaine A: Chaine A: 21 aa Chaine B: 30 aa Les deux chaines de l'insuline porcine. En rouge les ponts disulfures

Alignement multiple

Alignement multiple

Alignement multiple

Alignement multiple

Alignement multiple

Alignement: Clustal Clustal: Le premier algorithme d’alignement multiple: Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice. Nucleic Acids Research, 22:4673-4680. Plusieurs implémentations et version: en ligne de commandes, version Web

Alignement multiple: ClustalW Exemple: Alignement multiple des amino-acyl-tRNA synthétases chez E. Coli: Isoleucyl-tRNA synthétase: 938 aa Leucyl-tRNA synthétase: 860 aa Valyl-tRNA synthétase: 951 aa Méthionyl-tRNA synthétase: 677 aa Toutes ces tRNA synthétases sont de type I Deux motifs caractéristiques des synthétases de type I: HIGH et KMSKS

ClustalW: ClustalW 2.0.12: Clustalw: Multiple alignment http://mobyle.pasteur.fr/cgi-bin/portal.py#forms::clustalw-multialign Copier-coller séquence en multifasta

ClustalW: Résultats Séquences globalement similaires avec cependant la présence de longues insertions Alignement de la région du motif HIGH mais pas celle du motif KMSKS

ClustalW: Résultats Fin de l’alignement

ClustalW: Résultats

ClustalW: Recommandations Premier alignement pas satisfaisant ? : Le fichier contient des erreurs ? ou Aucune région conservée ? Une des séquence se comporte mal ? Il faut vérifier 2 choses: Une de vos séquences n’appartient pas à la même famille que toutes les autres, et par conséquent, elle ne peut s’aligner avec elles: supprimez cette séquence et recommencer Une séquence n’est pas nettement plus courte (ou plus longue) que les autres même si elle appartient à la même famille (ex. ADNc tronqué). Il faut éliminer la séquence et recommencer l’alignement Clustal n’est pas le seul algorithme d’alignement multiple. D’autres algorithme comme DIALIGN, MAFFT et MUSCLE incorporent d’autres méthodes plus performantes et produisent des résultats où Clustal a échoué.

Alignement multiple: ClustalX L’algorithme de Clustal existe dans un programme que vous pouvez installer sur vos PC Lien du téléchargement: http://www.clustal.org/

Accéder à clusltalX

Fenêtre des noms des séquences Lancer ClustalX File: Load sequences Alignment: -Do complete alignment -Alignment parameters Trees: -Bootstrapped NJ -Output format options Fenêtre des noms des séquences Fenêtre des séquences

Charger les séquences: Aperçu des séquences Astuce: Renommer les séquences (Première ligne de description)

Charger les séquences

Charger les séquences

Charger les séquences Début des séquences

Charger les séquences Fin des séquences

Alignement multiple: choisir les paramètres

Alignement multiple: choisir les paramètres

Alignement multiple

Alignement multiple: Les fichiers de sortie Fichier d’extension *.aln: contient l’alignement Fichier d’extension *.dnd: contient le dendrogramme

Alignement multiple: Début de l’alignement Identité/Conservation Ordre des séquences Position de l’alignement Score’

Alignement multiple: Fin de l’alignement

Alignement multiple: Les fichiers

Exercice Aligner avec l’une des versions de Clustal les séquences protéiques de TTPA récupérées suite à l’analyse de BLAST.