Alignements de séquences par paires TP Alignements de séquences par paires
Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études : Identification de gènes homologues Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines. Prédiction de fonction, Prédiction de structure (ARN, protéine) ( ...
Applications des alignements Approches qui utilisent des alignements Alignments multiples Profiles et HMM (pour rechercher les familles de protéineset les domaines) Prédiction structure/fonction Structures 3D Analyses Phylogénétiques Construction de matrices de substitutions Recherche par similarité (BLAST par exemple)
Quelques définitions Identité Similarité Homologie Proportion de paires de résidus identiques entre 2 séquences. Généralement exprimée sous forme de pourcentage. Cette valeur dépend énormément de l'algorithme d'alignement. Similarité Proportion de paires de résidus similaires entre 2 séquences. Une matrice de substitution permet de décrire qui est similaire à qui. Cette valeur dépend énormément de l'algorithme d'alignement et de la matrice de similarité utilisée. Homologie Deux séquences sont homologues seulement si elles ont un ancêtre commun. IL N'Y A PAS DE POURCENTAGE D'HOMOLOGIE : les séquences sont homologues ou elles ne le sont pas. Des séquences homologues ont souvent mais pas toujours la même fonction... ... Elles ne sont pas forcément non plus très similaires : la structure est conservées plus que la séquence.
L’alignement de séquences 3 situations sont possibles pour une position donnée d’un alignement: les caractères sont les mêmes: Identité les caractères ne sont pas les mêmes: Substitution l’une des positions est un espace :Insertion / Délétion(gaps) Seq A GARTVARH--TSTH Seq B GARHLDTHTTP--H Identité Substitution Délétion Insertion
Similarité globale, locale Les alignements globaux sont plus souvent utilisés quand les séquences mises en jeu sont similaires et de taille égale.. Les alignements locaux sont plus souvent utilisés quand deux séquences dissemblables sont soupçonnées de posséder des motifs semblables malgré l'environnement. Des méthodes hybrides, des méthodes semi-locales, s'avèrent parfois utiles
Quel est le bon alignement ? G T T A C G A G T T A C G A G T T - G G A G T T G - G A * * * * * * * * * * OU G T T A C - G A G T T - - G G A * * * * * Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable
Fonction de score de similarité G T T A A G G C G – G G A A A G T T – – – G C G A G G A C A * * * * * * * * * * Score = Exemple: identité = 1 mismatch = 0 gap = -1 Score = 10 - 4 = 6
Alignements Nombre d'alignements Il existe de nombreuses façons d'aligner deux séquences Exemple de deux alignements alternatifs CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA Ou bien : CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA Le nombre possibles d'alignements de 2 sequences de longueur 1000 : plus de 10600 alignements avec indels (Avogadro 1024, nombre d'atomes dans l'univers : 1080)
Qu'est ce qu'un bon alignement ? Il faut pouvoir évaluer la signification biologique d'un alignement Intuitivement nous savons que cet alignement: CGAGGCACAACGTCA ||| ||| |||||| CGATGCAAGACGTCA Est meilleur que celui ci : ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG Nous pouvons formaliser cela en utilisant un système de score.
Score d'alignment. TPEA ¦| | APGA Les matrices de substitutions des acides aminés. Exemple : PAM250 Généralement utilisée : Blosum62 Le calcul du score brut TPEA ¦| | APGA 1 + 6 + + 2 = 9 Un alignement moyen sur une grande longueur peut donner un meilleur score qu'un alignement très bon sur une courte longueur, et INVERSEMENT ! Pour comparer différents alignements il faut avoir utiliser le même système de score et utiliser une fonction de score normalisée (p-value, e-value).
Gaps : indels Insertions or délétions Exemple Les protéines (et encore plus des molécules comme les ARNr) contiennent souvent des régions dans lesquelles des résidus ont été ajoutés ou perdus. Ceci peut correspondre à : Des domaines peu fonctionnels. Des mutations à effet phénotypique. Exemple GCATGCATGCAACTGCAT ||||||||| GCATGCATGGGCAACTGCAT L'alignement est grandement amélioré par insertion d'un indel. GCATGCATG--CAACTGCAT ||||||||| ||||||||| GCATGCATGGGCAACTGCAT
Modèles de Gap GARFIELDTHE----CAT GARFIELGHPELASTCAT Fonction Constante pour pénaliser les gaps K: coût de l’insertion d’un gaps Nbr: le nombre de gaps Fonction affine pour pénaliser les gaps attribuer des coûts différents(Gap open et Gap extended) pour ouvrir un gap et pour étendre un gap existant Extension gap Ouverture de gap GAP GARFIELDTHE----CAT GARFIELGHPELASTCAT
Exemples de calcul de score. Bonus pour un match : 1 Malus pour un mismatch : 0 Malus d'ouverture d'indel : 10 Malus d'extension d'indel : 1 CGATGCAGCAGCAGCATCG |||||| ||||||| CGATGC------AGCATCG CGATGCAGCAGCAGCATCG || || |||| || || | CG-TG-AGCA-CA--AT-G ouverture extension 13 x 1 - 10 - 6 x 1 = -3 13 x 1 - 5 x 10 - 6 x 1 = -43
Obtenir un alignement Algorithmes d'alignement Les modes d'alignement Un tel programme calcule l'alignement qui produit le meilleur score après avoir choisi un système de score. (Comme par exemple on cherche le meilleur chemin dans la matrice précdente). Les modes d'alignement Global : On aligne complètement une séquence 1 avec une séquence 2 Local : On cherche des alignements optimaux entre des sous séquences de 1 et des sous séquences de 2 Implémentation (Algorithmes) Programmation dynamique Global Needleman-Wunsch Local Smith-Waterman + phylogenie : Clustall
Les algorithmes exacts Simple example (Needleman-Wunsch) Système de socre Match : 2 Mismatch : -1 Gap penalty: -2 F(i-1,j) F(i,j) s(xi,yj) F(i-1,j-1) -d F(i,j-1) F(i,j): score à la position i, j s(xi,yj): match ou mismatch (matrice de substitution ) pour les residus xi et yj d: malus pour gap (valeur positive) GA-TTA || || GAATTC 0 - 2 2 + 2 0 - 2 Note Il faut conserver la trace des scores pour chaque élément de la matrice. L'alignement est trouvé quand la matrice complète a été calculée. Le temps de calcul est proportionnel au produit des longeurs des séquencs.
Exemple:Alignement de protéines avec de longues insertion/délétion. >Proteine1 MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPA VIAEIKKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQA RDACTLPVLRKDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGM DVLVEVHDIDELERAIQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVS ESGILTSADVQRLRAAGVNAFLVGEAFMRATEPGESLREFFIT >Proteine2 MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTV SAACAIRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFN VPYLKAIPMAGAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDL QHPFLLAGGITPENVFDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRA DGRRLFGVA >Proteine3 MQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECK KASPSKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFRGSFNFLPIVSQIAPQP ILCKDFIIDPYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVS NEEEQERAIALGAKVVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTY AQVRELSHFANGFLIGSALMAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAG AIYGGLIFVATSPRCVNVEQAQEVMAAAPLQYVGVFRNHDIADSVDKAKVLSLVA VQLHGNEEQLYIDTLREALPAHVAIWKALSVGETLPAREFQHVDKYVLDNGQGGS GQRFDWSLLNGQTLGNVLLAGGLGADNCVEAAQTGCAGLDFNSAVESQPGIKDAR LLASVFQTLRAY
Exemple:Alignement de protéines avec de longues insertion/délétion. 1. Proteine1 : une protéine de Xylella fastidiosa Elle a une seule fonction enzymatique: indole-3-glycerol phosphate synthase (IGPS). Cette fonction a pour numéro EC : 4.1.1.48. 2. Proteine2 : Une protéine de Xylella fastidiosa Elle a une seule fonction enzymatique: N-(5'-phosphoribosyl) anthranilate isomérase, de la famille des trpF. Cette fonction porte le numéro EC : 5.3.1.24. 3. Proteine3 : Une protéine de Escherichia coli Elle a deux fonctions enzymatiques. Ces deux fonctions sont celles portées individuellement par les deux protéines de Xylella fastidiosa. La partie N-terminal porte la fonction EC 4.1.1.48 La partie C-terminal porte la fonction EC 5.3.1.24.
Résultat trouvé par CLUSTAL