Télécharger la présentation
Publié parStanislas Aubé Modifié depuis plus de 8 années
1
Analyse et comparaison des séquences biologiques
Partie I: les alignements qualitatifs Identifiant: Mot de passe: bioinformatique2015 Dr Lilia Romdhane Faculté des Sciences de Bizerte Institut Pasteur de Tunis 2015/2016
2
Objectifs: Initiation à la méthode de l’alignement pour la comparaison des séquences biologiques Initiation à l’utilisation de quelques logiciels bioinformatiques d’alignement
3
Comparaison –pourquoi faire ?
Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études : Localiser un gène sur un génome Recherche de similarité dans les banques: transférer des informations connues sur une nouvelle séquence Recherche de domaines ou motifs conservés: identification des résidus importants pour la structure ou la fonction Identification de gènes homologues Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines. Prédiction de fonction Prédiction de structure (ARN, protéine) Reconstitution des relations évolutives entre séquences (phylogénie) Choix d'amorces PCR ...
4
Similarité et homologie
Mesurée en % d’identité ou en % de similarité la similarité n’a pas directement de connotation évolutive 2 séquences peuvent être similaires: Par hasard: Exemple: Région de faible complexité Par évolution convergente: Exemple: Subtilisine et chymotrypsine sont 2 sérine protéases avec la même triade catalyitque (Ser, His, Asp) mais les séquences et les structures 3D sont différentes Par évolution divergente: Elles dérivent d’une même séquence ancestrale
5
Similarité et homologie
Homologie: 2 séquences sont homologues si elles descendent d’un ancêtre commun Il n’existe pas de pourcentage d’homologie !!! Une similarité significative (> 20% d’identité) est généralement le signe d’une homologie Une similarité non significative ne veut pas dire que les séquences ne sont pas homologues: Exemples: myoglobine des mammifères et leghémoglobine des plantes: Séquences: moins de 20% d’identité même structure
6
Types d’alignement Alignement 2 à 2 (pairwise alignment):
Exemple: Recherche de similarité dans une banque Fasta, Blast Alignement multiple: Exemple: Alignement d’une famille de protéines ClustalX, Mafft, multiZ Alignement global: Sur la totalité de la longueur des séquences Alignement local: Alignement de la ou des régions les plus fortement conservées: Intéressant si les séquences ne sont pas colinéaires
7
Similarité globale, locale
8
Comparaison de séquences
9
Alignement graphique
10
Matrice de points (dotplot)
Référence: Gibbs and McIntyre. The diagram, a method for comparing sequences. Its use with amino acid and nucleotide sequences. European Journal of biochimestry, 1970 Principe de base: Les 2 séquences à comparer sont placées le longs des axes d’un graphique L’intersection de chaque colonne et de chaque ligne est marquée d’un point si la lettre est la même dans les 2 séquences
11
Alignement graphique avec le dotplot
Dot Plot: Méthode de représentation visuelle des positions des similarités entre deux séquences (ou sur une même séquence) Objectif: * Détecter des répétitions internes dans une séquence * Identifier des régions de similarité entre 2 séquences * Identifier de longs indels entre deux séquences Principe: Mettre les séquences le long des axes d’une matrice et de mettre un point là où il y a une correspondance.
12
Exemple 1: Dot plot à partir des 2 séquences différentes:
THFLTQHYDAKPQYRNDR KHFLTQHQHAKPFGRNDR L’alignement: trouver le meilleur chemin dans ce graphe T H F L Q Y D A K P R N X G
13
Exemple 2: Dot plot de la séquence avec elle-même: ABCDDFGKDFGABFGK
14
Le signal: Les diagonales
Identité Une grande diagonale en cas d’identité parfaite: la séquence contre elle-même Les régions de similarité apparaissent comme des suites de points alignés diagonales Similarité
15
Le signal: Les diagonales
Un décalage par rapport à la diagonale indique une insertion ou une délétion dans l’une des séquences Une inversion de l’orientation d’une diagonale traduit une inversion d’une région d’ADN
16
Le signal: Les diagonales
Une séquence avec elle-même: diagonales parallèles présence de régions répétées Une séquence avec sa séquence complémentaire : détection de régions complémentaire dans une séquence (ex: structure secondaire d’ARN)
17
Exemple de programme: Dotlet (http://myhits.isb-sib.ch/cgi-bin/dotlet)
Recherche de régions répétées dans la protéine ribosomale S1 de E.Coli Swiss-Prot: P0AG67
18
Partie de la fiche SwissProt de la protéine RS1 de E.Coli
Swiss-Prot: P0AG67
19
Comparaison de la séquence du gène de l’actine du muscle à son mRNA
ACTA1: GeneID: 58 Comment apparaissent les exons dans un dotplot ? Combien d’exon comptez-vous? Que pouvez-vous dire de la taille des exons comparée à celle des introns?
20
Partie de la fiche du gène de l’actine du muscle chez l’Homme dans Gene (NCBI)
21
Matrice de points: Comparaison de chromosomes complets
Genome sequences of Chlamydia trachomatis MoPn and Chlamydia pneumonia AR39. Read et al. Nucleic Acids Research 28, , 2000
22
La matrice des points (dotplot)
Avantages: Vision globale de similarité entre 2 séquences toutes les zones de similarité sont visibles détection rapide: des insertions / délétions des inversions des régions répétées des zones d’appariements potentiels de l’ARN Inconvénients: Méthode visuelle aucun alignement n’est fourni Programmes: Dotter, GCG (Compare et Dotplot), Dottup ( )
23
Le serveur Mobyle@Pasteur
S’enregistrer Les logiciels
24
Chercher le logiciel Dottup
Alignment > pairwise > dot_plots > dottup
25
Dottup Copier-coller séquence 1 Copier-coller séquence 2
26
Copier-coller les séquences
27
Saisie de l’adresse mail
28
Saisie de l’adresse mail
29
Valider la soumission
30
Sauvegarde du fichier résultat
31
Sauvegarde du fichier résultat
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.