La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Analyse et comparaison des séquences biologiques

Présentations similaires


Présentation au sujet: "Analyse et comparaison des séquences biologiques"— Transcription de la présentation:

1 Analyse et comparaison des séquences biologiques
Partie III: les alignements quantitatifs Identifiant: Mot de passe: bioinformatique2015 Dr Lilia Romdhane Faculté des Sciences de Bizerte Institut Pasteur de Tunis 2015/2016

2 Objectifs: Initiation à la recherche de similarité dans les banques
Initiation à la recherche de similarité dans plus séquences

3 Recherche dans les banques de séquences

4 Recherche de séquences homologues
Plusieurs situations nous obligent à fouiller les bases de données afin de trouver une séquence similaire (ou même identique) à celle que l’on possède: Recherche de séquences apparentées à une séquence d’intérêt: Orthologue: même gène, espèce animale différente. P.ex. albumine sérique bovine (BSA) vs albumine sérique humaine (HSA) Paralogues: même espèce, gène similaire mais pas identique. P.ex. a globine vs b globine Trouver la séquence complète à partir de données partielles; Trouver des formes variantes de notre séquence d’intérêt.

5 BLAST Années 70: Alignement global (Needleman et Wunsh) et local (Smith et Waterman) Questions en suspens ?: Cet alignement est-il biologiquement pertinent ? Etant donné le score d’alignement S0 que je viens d’obtenir, quelle est la probabilité d’obtenir un score d’alignement égal ou supérieur à S0 ?  à lui seul, un score d’alignement ne permet pas de conclure à la ressemblance et donc à l’homologie de 2 séquences puisque 2 séquences éloignées mais longues peuvent fournir un score supérieur à celui de 2 séquences voisines mais courtes Les scores ne permettent donc de comparer des alignements que si toutes les séquences impliquées sont de longueurs voisines

6 BLAST Deuxième problème: la mise au point des techniques de séquençages de l’ADN et la création des banques de séquences: les programmes basés sur l’algorithme d’alignement global et local sont lents Solution: solution heuristique: accélérer les comparaison sans trop sacrifier à la sensibilité et/ ou à la spécificité  Création de FASTA (1986) et BLAST (1990)

7 BLAST: Principe de base
Basic Local Alignment Search Tool. Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers and David J. Lipman. Journal of Molecular Biology (1990) 215: Principe de base: Rechercher toutes « les régions de ressemblance » entre 2 séquences: Vôtre séquence (séquence requête=query) et une séquence de la banque (séquence cible= subject) quelque soit leurs longueurs concaténer toutes ces régions pour en tirer un alignement de plus grande longueur  programme d’alignement local

8 BLAST: Fonctionnement
QUERY sequence(s) BLAST results BLAST program BLAST database

9 BLAST: Interprétation
L’interprétation des résultats ou l’analyse de la signification des alignements est évaluée statistiquement Cette évaluation statistique se fait en fonction de la longueur et de la composition de la séquence, de la taille de la banque et de la matrice de scores utilisée BLAST calcule un score, E-value, qui correspond à la probabilité d’observer au hasard cet alignement dans les banques de séquences considérées. BLAST ne répond pas à la question: « Cet alignement est-il biologiquement significatif ? » C’est au biologiste de décider si la E-value semble significative 9

10 BLAST: Interprétation
Alignement contre la banque Swissprot L’alignement de la séquence requête avec la séquence de la banque TOTO_TRUC a un score de 56 et une E-value de Si je comparais votre séquence avec une banque de même taille et de même composition que Swissprot, alors je m’attendrais à trouver dans cette banque 2 séquence qui s’aligneraient avec la vôtre avec un score supérieur ou égal à 56 Dans une banque quelconque de la taille de Swissprot, je m’attends à trouver 2 séquences qui ressembleront au moins autant à la vôtre que TOTO_TRUC

11 BLAST: Interprétation
Alignement contre la banque Swissprot La séquence BOMA_HUMAN produit une E-value = avec un score Pour trouver dans une banque de séquences aléatoires une séquence qui s’aligne avec la vôtre avec un score égal ou supérieur à 197, il faudrait que cette banque soit 1050 fois supérieure à Swissprot

12 BLAST: Interprétation
Remarque: Si la E-value est suffisament petite ( < à 10-2), alors la probabilité de trouver par hasard un alignement avec un score égal ou supérieur au score d’alignement de BLAST est pratiquement égale à la E-value E-value Signification E <1e-100 Appariement exact, même séquence, même origine 1 e-100 < E < 1 e-50 Séquences quasiment identiques (allèles, mutations, espèces voisines) 1 e-50 < E < 0.1 Un éventuel lien entre la séquence requête et celles qui ont été trouvées E > 0.1 Séquences de l’alignement à rejeter, sans lien avec la séquence requête Plus E-value est faible, plus l’alignement est significatif

13 BLAST: Les différents parfums
Requête(query) Base de donnée BLASTP – protéine protéine BLASTN – ADN/ARN ADN (Genebank) BLASTX – traduction protéine (tous ORF ADN d’intérêt) TBLASTN - protéine traduction Genebank (tous les ORF) TBLASTX - traduction traduction Genebank (tous ORF ADN d’intérêt) (tous les ORF) CHMI 4206F - Automne 2010

14 BLAST: Ajustements supplémentaires
Requête possède beaucoup d’acides aminés identiques Aucun résultat avec BLAST RAISONS Filtre (automatic masking) Change la matrice/gap penalty PARAMÈTRES À CHANGER Résultat avec Evalue élevée Trop de résultats Change la base de données OU Filtre la requête avec des mots clés OU Augmente Expect (le seuil limite de Evalue acceptable) CHMI 4206F - Automne 2010

15 Accéder à Blast

16 Choix de la version de Blast: Protein blast

17 Choix de la version de Blast: Protein blast

18 Copier-coller la séquence
Choix de la base de données intérrogée Se limiter aux Vertébrés Choix de l’algorithme

19 Coup d’œil sur les paramètres
Garder les paramètres par défaut nombre max. de séquences cibles seuil sur l'E-value taille de l'amorce choix de la matrice de substitution Lancer Blast

20 Résultats de Blast: 1 récapitulatif de la requête
Banque utilisée Programme Nom de la séquences requête

21 Résultats de Blast: 2 représentation graphique
Une similitude de la protéine TTPA avec les protéine de la superfamille SEC14: Présence d’un domaine protéique commun La première séquence est la séquence soumise chaque trait de couleur représente un alignement entre la séquence de départ et une séquence de la banque de donnée sélectionnée couleur  score Longueur  taille de l'alignement

22 Résultats de Blast: 3 Résumés des résultats
% de Couverture Identifiant Identifiant % de similitude Score E-value

23 Résultats de Blast: 4. Les alignements
query  la séquence soumise subject  la séquence trouvée dans la bdd alignement = outil QUANTITATIF - scores - Expect (ou E-value) - % identité -% positif - # de gap

24 Résultats de Blast: 5. Sauvegarder les résultats
Sélectionner les hits dont le % de similitude est >= 70 %

25 Résultats de Blast: 5. Sauvegarder les résultats

26 Résultats de Blast: 5. Sauvegarder les résultats

27 Résultats de Blast: 5. Sauvegarder les résultats

28 Exercice Cherchez les séquences homologues à la protéine TTPA humaine dans la base de données RefSeq chez: le Chimpanzé (Pan troglotydes), le Maccaque (Macaca mulata), la vache (Bos taurus), la Souris (Mus musculus), le Rat (Rattus norvegicus), le Poulet (Gallus gallus), le Poisson zèbre (Danio rerio) Quel est le pourcentage d’identité de la protéine TTPA humaine et chacun de ses orthologues ?

29 Les alignements multiples

30 Idées

31 Alignement multiple Alignement local de chaque paire de séquence (nucléique ou protéique) (algorithme de Needleman et Wunsch)

32 Pourquoi le glutamate est-il conservé ?
Alignement multiple Pourquoi le glutamate est-il conservé ?

33 Les deux chaines de l'insuline porcine. En rouge les ponts disulfures
Alignement multiple Exemple: Insuline: Hormone peptidique sécrétée par les cellules Beta des îlots de Langerhans du pancréas Rôle majeur dans la régulation de la glycémie Son absence est fatale dans un délai de quelques mois chez les Mammifères Structure: 2 chaines polypeptidiques reliées entre elles par 2 ponts disulfures et 1 pont disulfure intrachaine dans la chaine A: Chaine A: 21 aa Chaine B: 30 aa Les deux chaines de l'insuline porcine. En rouge les ponts disulfures

34 Alignement multiple

35 Alignement multiple

36 Alignement multiple

37 Alignement multiple

38 Alignement multiple

39 Alignement: Clustal Clustal: Le premier algorithme d’alignement multiple: Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice. Nucleic Acids Research, 22: Plusieurs implémentations et version: en ligne de commandes, version Web

40 Alignement multiple: ClustalW
Exemple: Alignement multiple des amino-acyl-tRNA synthétases chez E. Coli: Isoleucyl-tRNA synthétase: 938 aa Leucyl-tRNA synthétase: 860 aa Valyl-tRNA synthétase: 951 aa Méthionyl-tRNA synthétase: 677 aa Toutes ces tRNA synthétases sont de type I Deux motifs caractéristiques des synthétases de type I: HIGH et KMSKS

41 ClustalW: ClustalW 2.0.12: Clustalw: Multiple alignment
Copier-coller séquence en multifasta

42 ClustalW: Résultats Séquences globalement similaires avec cependant la présence de longues insertions Alignement de la région du motif HIGH mais pas celle du motif KMSKS

43 ClustalW: Résultats Fin de l’alignement

44 ClustalW: Résultats

45 ClustalW: Recommandations
Premier alignement pas satisfaisant ? : Le fichier contient des erreurs ? ou Aucune région conservée ? Une des séquence se comporte mal ? Il faut vérifier 2 choses: Une de vos séquences n’appartient pas à la même famille que toutes les autres, et par conséquent, elle ne peut s’aligner avec elles: supprimez cette séquence et recommencer Une séquence n’est pas nettement plus courte (ou plus longue) que les autres même si elle appartient à la même famille (ex. ADNc tronqué). Il faut éliminer la séquence et recommencer l’alignement Clustal n’est pas le seul algorithme d’alignement multiple. D’autres algorithme comme DIALIGN, MAFFT et MUSCLE incorporent d’autres méthodes plus performantes et produisent des résultats où Clustal a échoué.

46 Alignement multiple: ClustalX
L’algorithme de Clustal existe dans un programme que vous pouvez installer sur vos PC Lien du téléchargement:

47 Accéder à clusltalX

48 Fenêtre des noms des séquences
Lancer ClustalX File: Load sequences Alignment: -Do complete alignment -Alignment parameters Trees: -Bootstrapped NJ -Output format options Fenêtre des noms des séquences Fenêtre des séquences

49 Charger les séquences: Aperçu des séquences
Astuce: Renommer les séquences (Première ligne de description)

50 Charger les séquences

51 Charger les séquences

52 Charger les séquences Début des séquences

53 Charger les séquences Fin des séquences

54 Alignement multiple: choisir les paramètres

55 Alignement multiple: choisir les paramètres

56 Alignement multiple

57 Alignement multiple: Les fichiers de sortie
Fichier d’extension *.aln: contient l’alignement Fichier d’extension *.dnd: contient le dendrogramme

58 Alignement multiple: Début de l’alignement
Identité/Conservation Ordre des séquences Position de l’alignement Score’

59 Alignement multiple: Fin de l’alignement

60 Alignement multiple: Les fichiers

61 Exercice Aligner avec l’une des versions de Clustal les séquences protéiques de TTPA récupérées suite à l’analyse de BLAST.


Télécharger ppt "Analyse et comparaison des séquences biologiques"

Présentations similaires


Annonces Google