Analyse et comparaison des séquences biologiques Partie I: les alignements qualitatifs Identifiant: sv.bioinformatique@yahoo.fr Mot de passe: bioinformatique2015 Dr Lilia Romdhane Faculté des Sciences de Bizerte Institut Pasteur de Tunis 2015/2016
Objectifs: Initiation à la méthode de l’alignement pour la comparaison des séquences biologiques Initiation à l’utilisation de quelques logiciels bioinformatiques d’alignement
Comparaison –pourquoi faire ? Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études : Localiser un gène sur un génome Recherche de similarité dans les banques: transférer des informations connues sur une nouvelle séquence Recherche de domaines ou motifs conservés: identification des résidus importants pour la structure ou la fonction Identification de gènes homologues Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines. Prédiction de fonction Prédiction de structure (ARN, protéine) Reconstitution des relations évolutives entre séquences (phylogénie) Choix d'amorces PCR ...
Similarité et homologie Mesurée en % d’identité ou en % de similarité la similarité n’a pas directement de connotation évolutive 2 séquences peuvent être similaires: Par hasard: Exemple: Région de faible complexité Par évolution convergente: Exemple: Subtilisine et chymotrypsine sont 2 sérine protéases avec la même triade catalyitque (Ser, His, Asp) mais les séquences et les structures 3D sont différentes Par évolution divergente: Elles dérivent d’une même séquence ancestrale
Similarité et homologie Homologie: 2 séquences sont homologues si elles descendent d’un ancêtre commun Il n’existe pas de pourcentage d’homologie !!! Une similarité significative (> 20% d’identité) est généralement le signe d’une homologie Une similarité non significative ne veut pas dire que les séquences ne sont pas homologues: Exemples: myoglobine des mammifères et leghémoglobine des plantes: Séquences: moins de 20% d’identité même structure
Types d’alignement Alignement 2 à 2 (pairwise alignment): Exemple: Recherche de similarité dans une banque Fasta, Blast Alignement multiple: Exemple: Alignement d’une famille de protéines ClustalX, Mafft, multiZ Alignement global: Sur la totalité de la longueur des séquences Alignement local: Alignement de la ou des régions les plus fortement conservées: Intéressant si les séquences ne sont pas colinéaires
Similarité globale, locale
Comparaison de séquences
Alignement graphique
Matrice de points (dotplot) Référence: Gibbs and McIntyre. The diagram, a method for comparing sequences. Its use with amino acid and nucleotide sequences. European Journal of biochimestry, 1970 Principe de base: Les 2 séquences à comparer sont placées le longs des axes d’un graphique L’intersection de chaque colonne et de chaque ligne est marquée d’un point si la lettre est la même dans les 2 séquences
Alignement graphique avec le dotplot Dot Plot: Méthode de représentation visuelle des positions des similarités entre deux séquences (ou sur une même séquence) Objectif: * Détecter des répétitions internes dans une séquence * Identifier des régions de similarité entre 2 séquences * Identifier de longs indels entre deux séquences Principe: Mettre les séquences le long des axes d’une matrice et de mettre un point là où il y a une correspondance.
Exemple 1: Dot plot à partir des 2 séquences différentes: THFLTQHYDAKPQYRNDR KHFLTQHQHAKPFGRNDR L’alignement: trouver le meilleur chemin dans ce graphe T H F L Q Y D A K P R N X G
Exemple 2: Dot plot de la séquence avec elle-même: ABCDDFGKDFGABFGK
Le signal: Les diagonales Identité Une grande diagonale en cas d’identité parfaite: la séquence contre elle-même Les régions de similarité apparaissent comme des suites de points alignés diagonales Similarité
Le signal: Les diagonales Un décalage par rapport à la diagonale indique une insertion ou une délétion dans l’une des séquences Une inversion de l’orientation d’une diagonale traduit une inversion d’une région d’ADN
Le signal: Les diagonales Une séquence avec elle-même: diagonales parallèles présence de régions répétées Une séquence avec sa séquence complémentaire : détection de régions complémentaire dans une séquence (ex: structure secondaire d’ARN)
Exemple de programme: Dotlet (http://myhits.isb-sib.ch/cgi-bin/dotlet) Recherche de régions répétées dans la protéine ribosomale S1 de E.Coli Swiss-Prot: P0AG67
Partie de la fiche SwissProt de la protéine RS1 de E.Coli Swiss-Prot: P0AG67
Comparaison de la séquence du gène de l’actine du muscle à son mRNA ACTA1: GeneID: 58 Comment apparaissent les exons dans un dotplot ? Combien d’exon comptez-vous? Que pouvez-vous dire de la taille des exons comparée à celle des introns?
Partie de la fiche du gène de l’actine du muscle chez l’Homme dans Gene (NCBI)
Matrice de points: Comparaison de chromosomes complets Genome sequences of Chlamydia trachomatis MoPn and Chlamydia pneumonia AR39. Read et al. Nucleic Acids Research 28, 1397-1406, 2000
La matrice des points (dotplot) Avantages: Vision globale de similarité entre 2 séquences toutes les zones de similarité sont visibles détection rapide: des insertions / délétions des inversions des régions répétées des zones d’appariements potentiels de l’ARN Inconvénients: Méthode visuelle aucun alignement n’est fourni Programmes: Dotter, GCG (Compare et Dotplot), Dottup (http://mobyle.pasteur.fr/cgi-bin/portal.py#forms::dottup )
Le serveur Mobyle@Pasteur S’enregistrer Les logiciels
Chercher le logiciel Dottup Alignment > pairwise > dot_plots > dottup
Dottup Copier-coller séquence 1 Copier-coller séquence 2
Copier-coller les séquences
Saisie de l’adresse mail
Saisie de l’adresse mail
Valider la soumission
Sauvegarde du fichier résultat
Sauvegarde du fichier résultat