Alignement de séquences biologiques

Slides:

Advertisements

Présentations similaires

Théorie des graphes.

Advertisements

Tris.

Chapitre annexe. Récursivité

Logique approchée Michel de Rougemont Université Paris II VERA: CORRECT:

Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.

L’outil bio-informatique pour la génomique structurale

Time with minutes French II Le 30 Octobre.

I. Recherche du gène correspondant aux séquences initiales.

Vers un outil d’aide à la conception des cannelures à flancs en développante de cercle La recherche effectuée lors de ma thèse a consisté à décrire le.

Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.

Colloque Traitement et Analyse de séquences : compte-rendu

A Pyramid Approach to Subpixel Registration Based on Intensity

1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.

LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.

Le remplacement moléculaire

ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.

Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais htt://pbil.univ-lyon1.fr/alignment.html.

Projet Combien? Ma première machine : la machine Construction Ensemble G. Tisseau, J. Duma, H. Giroire, F. Le Calvez, M. Urtasun.

Analyse des proximités, des préférences et typologie Michel Tenenhaus.

Analyse de la variance à un facteur

Modèle Linéaire Généralisé (Proc Genmod)

GENERALITES SUR LES MOUVEMENTS VIBRATOIRES.

High Frequency Trading Introduction. Séminaires de 30 minutes, une fois par semaine (8 en tout) Sujets abordés – Définition dun algorithme et introduction.

Courbes elliptiques.

Géo 6: Se repérer sur Terre

1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.

Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé

Navigation côtière 1 Partie 5

Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.

CYCLE 3 : Alternatives Faire des choix dans un programme en C 1- AIGUILLAGE SIMPLE sur CONDITION : if-else 2-AIGUILLAGE MULTIPLE sur CONDITIONS if-else.

YASS : Recherche de similarités dans les séquences d'ADN

Sélection doligonucléotides spécifiques à laide de familles de graines AS Indexation de Texte et Découverte de Motifs Lina (Nantes) mai 2004.

Alignement de séquences multiples

IFT3355: Infographie Projections

Matrices de substitution

Plan d’expérience dynamique pour la maximisation

Algorithme et programmation

Prédiction de la structure 3-D des protéines

Laboratoire de Bioinformatique des Génomes et des Réseaux Université Libre de Bruxelles, Belgique Introduction Statistics.

UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles

Introduction à la génomique structurelle

Représentation des systèmes dynamiques dans l’espace d’état

Programmation linéaire en nombres entiers Algorithme de la subdivision successive («Branch and Bound Algorithm»)

Courbes de Bézier.

1.1 LES VECTEURS GÉOMÉTRIQUES

Protein data bank (PDB) : structures (oct 2007) SCOP (Structural Classification Of Proteins): 971 folds (major structural similarity) 1586 super-families.

Passage entre quaternions et matrice des cosinus directeurs Transition from Quaternions to Direction Cosine Matrices.

1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.

Donnez l’heure “Time”… it’s a ticking!.

Programmation dynamique

Programmation linéaire en nombres entiers : les méthodes de troncature

La banque UniprotKB et le logiciel Blast

Recherche heuristique dans les bases de données L’algorithme BLAST

Différencier: NOMBRE PREMIER vs. NOMBRE COMPOSÉ

Alignements de séquences par paires

1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )

Formation Bio-informatique IRD

Alignement de séquences biologiques

Recherche par automates finis

Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.

Recherche heuristique dans les bases de données L’algorithme BLAST

Réalisation d’un arbre phylogénique à partir d’un fragment de séquence

Les banques de séquences nucléiques

Bio-Informatique Analyse de séquences nucléotidiques

BIO-INFORMATIQUE Analyse de séquences nucléotidiques - séance n°1 Illustration:

Transcription de la présentation:

Alignement de séquences biologiques Objectifs poursuivis Alignement de séquences: généralités Alignement de deux séquences Recherche rapide de similarités dans les banques de séquences Alignement de n séquences (alignement multiple) Recherche de motifs dans les séquences

Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études : Identification de gènes homologues Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines. Prédiction de structure (ARN, protéine) Prédiction de fonction Étude des processus créateurs de variabilité entre les séquences. Reconstitution des relations évolutives entre séquences. Choix d'amorces PCR Construction de contigs (séquençage) ...

Analyse comparative des gènes de b-actine de l'homme et de la carpe

Prédiction de structure d'ARN

Phylogénie moléculaire

Alignement: représentation Les résidus (nucléotides, acides-aminés) sont superposés de façon à maximiser la similarité entre les séquences. G T T A A G G C G – G G A A A G T T – – – G C G A G G A C A * * * * * * * * * * Mutations : Substitution (mismatch) Insertion Délétion Insertions ou délétions : indels (gap).

Quel est le bon alignement ? G T T A C G A G T T A C G A G T T - G G A G T T G - G A * * * * * * * * * * OU G T T A C - G A G T T - - G G A * * * * * Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable Autres choix possibles (exemple: erreurs de séquençage pour la construction de contigs)

Fonction de score de similarité G T T A A G G C G – G G A A A G T T – – – G C G A G G A C A * * * * * * * * * * Score = Exemple: identité = 1 mismatch = 0 gap = -1 Score = 10 - 4 = 6

Modèle d'évolution (ADN) Transition: A <-> G T <-> C Transversions : autres substitutions p(transition) > p(transversion) G T T A C G A G T T A C G A G T T - G G A G T T G - G A * * * * * * * * . * *

Matrice de substitution (ADN) Gap = -1 G T T A C G A G T T A C G A G T T - G G A G T T G - G A 1 1 1 -1 0 1 1 1 1 1 .5 -1 1 1 score = 4 score = 4.5

Modèle d'évolution (protéines) Code génétique Asp (GAC, GAU)  Tyr (UAC, UAU) : 1 mutation Asp (GAC, GAU)  Cys (UGC, UGU) : 2 mutations Asp (GAC, GAU)  Trp (UGG) : 3 mutations Propriétés physico-chimiques des acides-aminés (acidité, hydrophobicité, encombrement stérique, etc.) Matrices de Dayhoff (PAM), BLOSUM: mesures des fréquences de substitutions dans des alignements de protéines homologues PAM 60, PAM 120, PAM 250 (extrapolations à partir de PAM 15) BLOSUM 80, BLOSUM 62, BLOSUM 40 (basé sur des alignements de blocs) Substitutions conservatrices

Matrice de substitution (protéines) D (Asp) E(Glu) F(Phe) G(Gly) W(Trp) M R D W - G F M R - D W G F M R - W D G F M R W D - G F * * * * * * * * * * Substitutions multiples (exemple: D  E  D)

Pondération des gaps TGATATCGCCA TGATATCGCCA TGAT---TCCA TGAT-T--CCA **** *** **** * *** Gap de longueur k: Pénalités linéaires: w = do + de k do : pénalité pour l'ouverture d'un gap de : pénalité pour l'extension d'un gap

Pondération des gaps (plus réaliste) Estimation des paramètres sur des alignements "vrais" (par exemple basés sur l'alignement de structures connues) Gap de longueur k: Pénalités logarithmiques: w = do + de log(k) w = f(log(k), log(PAM), résidus, structure) PAM: la probabilité d'un gap augmente avec la distance évolutive Résidus, structure: la probabilité d'un gap est plus forte dans une boucle (hydrophile) que dans le cœur hydrophobe des protéines

Similarité globale, locale

Similarité, distance, homologie Deux séquences sont homologues ssi elles ont un ancêtre commun 30% d'identité entre deux protéines => homologie, sauf si Fragment similaire court (< 100 aa) Biais compositionnel (régions de faible complexité, par exemple riche en Pro, Ala)

Le nombre d'alignements Waterman (1984) a donné la formule récursive permettant de calculer le nombre total d’alignements possibles entre deux séquences comportant m et n résidus : D’autre part, Laquer (1978) a démontré que : Le nombre total d’alignements possibles entre deux séquences de même longueur croît de façon exponentielle.

Algorithmes d'alignement de deux séquences Algorithme: description d'une suite d'opérations pour atteindre un objectif Calculer l'ensemble de tous les alignements possibles et garder celui de meilleur score Trop long (nombre d'alignements = f(exp(L)) Pas efficace (on recalcule souvent les mêmes valeurs) G T T A C G A G T T A C G A G T T - G G A G T T G - G A * * * * * * Algorithme de programmation dynamique Calcul de proche en proche de l'alignement optimal

Définition de la matrice de chemins Les alignements peuvent être représentés sous la forme d’une trajectoire dans une matrice de chemins. Pour chaque trajectoire on peut calculer un score et il faut donc trouver celle qui optimise ce score. Soit deux séquences A et B de longueurs respectives m et n définissant une matrice de chemin S. Dans chaque case de cette matrice on va stocker S(i, j), le score optimum de la trajectoire permettant d’arriver à cette case.

Exemple de matrice de chemin

Construction récursive de la matrice Soit la case de coordonnées (i, j). Quelle que soit la trajectoire retenue, elle passera forcément par l’une des trois cases la précédant, de coordonnées (i–1, j), (i–1, j–1), (i, j–1). Supposons que l’on connaisse les scores optimums des trois cases précédentes, dans ce cas la valeur optimum du score dans la case (i, j) sera égale à : Needleman et Wunsh, 1970

Bords de la matrice Les cases situées sur le bord du haut ou le bord gauche de la matrice ne possèdent plus le total requis de trois cases précédentes. Pour pallier ce problème on ajoute une ligne (0, j) et une colonne (i, 0) supplémentaires. Le balayage de la matrice ne se faisant plus qu’avec des indices ≥ 1 on ne rencontre plus de cases nécessitant un traitement particulier.

Bords de la matrice (suite) La ligne et la colonne supplémentaires doivent être initialisées pour pouvoir construire la matrice. Il existe plusieurs manières de faire selon la façon dont on veut comptabiliser les gains ou pertes d’éléments au niveau des extrémités. En particulier, il faut savoir si on veut pénaliser ou non les éléments terminaux non appariés (ce que l’on appelle les extrémités flottantes). - - - A T T C G T A T - - - T C G T A T G A T T C G T A T G A T T C G T * * * * * * * * * * * *

Bords de la matrice (fin) Pénalisation des gaps terminaux Pas de pénalisation des gaps terminaux

Identité: +1 Mismatch: +0 Gap interne: -2 Gap terminal: +0

Alignement local (Smith-Waterman) Initialisation des bords de la matrice de chemin à 0

Temps de calcul et occupation de la mémoire pour l'alignement de deux séquences de longueur n et m Needleman-Wunsh Temps: O(n m) Espace mémoire: O(n m) Amélioration: éliminer les chemins qui s'éloignent trop de la diagonale Smith-Waterman Amélioration de Smith-Waterman Espace mémoire: O(n)

Dot Plot Représentation graphique de régions d'identité ou de similarité entre deux séquences Utilisation de fenêtres et de seuils pour réduire le bruit de fond Visualisation des inversion, duplications, palindromes

Recherche rapide de similarités dans les banques de séquences Comparaison d'une séquence à toute une banque de données de séquences, comparaisons entre deux banques … Algorithmes exhaustifs (Smith-Waterman) DAP, BLITZ, SSEARCH, … Algorithmes basés sur des heuristiques FASTA 1 - recherche de ‘ k-tuplets ’ identiques 2 - alignement global, ancré sur la région similaire BLAST 1 - recherche de ‘ mots ’ similaires 2 - extension des blocs similaires

BLAST

Alignement par bloc ou alignement global : comparaison BLAST / FASTA

Stratégies de recherche de similarités: ADN ou protéine ? Limites des recherches de similarité au niveau ADN Alphabet réduit (4 lettres) Dégénérescence du code génétique Mais … tout n'est pas codant régions régulatrices, ARN structuraux, ... Deux brins!

Différentes versions de BLAST adaptées à différents problèmes blastp: protéine/protéine blastn: ADN/ADN (utile pour non-codant) blastx: ADN-traduit/protéine (utile pour séquences codantes non-identifiées; plus sensible que blastn) tblastn: protéine/ADN-traduit (utile pour rechercher des homologues de gènes protéiques dans un génome non-entièrement annoté; plus sensible que blastn)

Choix de la matrice de substitutions Différentes matrices de substitutions, adaptées à différentes distances évolutives BLOSUM 62: convient pour une large gamme de distances évolutives Combiner plusieurs matrices

Évaluation statistique de la similarité Parmi les similarités qui ont été détectées, quelles sont celles qui reflètent des relations biologiquement importantes, quelles sont celles qui sont simplement dues au hasard ? Distribution des scores d'alignements locaux optimaux entre séquences non homologues Probabilité qu'une similarité de score S soit simplement due au hasard Nombre d'occurrences Score

Traitement du bruit de fond: filtres et masques Similarités sans intérêt biologique Séquences de faible complexité (protéines, ADN): 40% des protéines ADN: microsatellites 15% du total des résidus exemple: CACACACACACACACACA Ala, Gly, Pro, Ser, Glu, Gln logiciels de filtrage: SEG, XNU, DUST RSPPR--KPQGPPQQEGNNPQGPPPPAGGNPQQPQAPPAGQPQGPP . ::: : :: : : ::::: : :: :.: :: : ::::: QGPPRPGNQQCPPPQGG--PQGPPRP--GNQQRP--PPQGGPQGPP Séquences abondantes 3000 Immunoglobulines dans GenBank 106 Alu, 105 L1 dans le génome humain logiciels de masquage: XBLAST, RepeatMasker

Bilan: quelle approche adopter ? algorithme matrices de substitution, pondération des gaps stratégie de recherche (nucléique, protéique) traitement du bruit de fond complétude des banques de données 1 - logiciel rapide, paramètres par défaut 2 - filtrage éventuel 3 - changement des paramètres (matrices, W, k, etc.) 4 - changement d'algorithme 5 - répéter la recherche régulièrement

Alignement multiple: programmation dynamique La généralisation de l’algorithme précédent au traitement simultané de plus de deux séquences est théoriquement possible mais inexploitable en pratique. Pour un alignement de n séquences le nombre de chemins possibles pour chaque case est de 2n – 1. On a une croissance exponentielle du temps de calcul et de l'espace mémoire requis en fonction du nombre de séquences. Problème du choix d ’une fonction de score Utilisation de méthodes heuristiques.

Alignement progressif Approche consistant à construire itérativement l’alignement multiple en groupant des alignements de paires de séquences. Ce genre de méthodes comporte trois étapes : L’alignement des paires de séquences. Le groupement des séquences. Le groupement des alignements (alignement progressif). CLUSTAL (Thompson et al., 1994), le programme d’alignements multiples le plus utilisé à l’heure actuelle utilise cette approche.

Pénalités initiales pour les gaps CLUSTAL utilise une fonction de pénalité linéaire pour les gaps. De plus, les valeurs initiales de do et de sont corrigées en fonction de nombreux facteurs : Le degré de similarité entre les séquences : do µ %identité(A, B) La longueur des séquences : do µ log[min(m, n)] La différence de longueur entre les deux séquences : de µ 1.0 + |log[n/m]| Ces pondérations sont prises en compte au moment de l’alignement des paires de séquences.

Pénalités en fonction de la position CLUSTAL introduit également des pondérations qui sont dépendantes de la position des gaps. Diminution de la pénalité à l’emplacement de gaps préexistants. Augmentation de la pénalité au voisinage (8 résidus) de gaps préexistants. Réduction de la pénalité au niveau de régions contenant des suites d’acides aminés hydrophiles (≥ 5 résidus). Modification spécifiques en fonction des acides aminés présents (e.g., la pénalité est plus faible avec Gly, Asn, Pro). Ces pondérations sont prises en compte au moment du groupement des alignements.

Alignement progressif: pas toujours optimal Un seul des ces trois alignements est optimal

Global Alignments, Block alignments

Dialign Morgenstern et al. 1996 PNAS 93:12098 Search for similar blocks without gap Select the best combination of consistent similar blocks (uniforms or not) : heuristic (Abdeddaim 1997) Alignment anchored on blocks Slower than progressive alignment, but better when sequences contain large indels Do not try to align non-conserved regions

Local Multiple Alignments MEME MATCH-BOX PIMA

Overview ClustalW Dialign T-coffee MEME

Éditeur d ’alignement multiple

Special cases Alignment of coding DNA sequences L F L F CTT TTC CTT TTC CTC --- --- CTC L - - L alignment of protein sequences back-translation of the protein alignment into a DNA alignment Alignment cDNA / genomic DNA: SIM4 Alignment protein / genomic DNA : GeneWise

Limits of pairwise comparison (BLAST, FASTA, ...) Seq A CGRRLILFMLATCGECDTDSSE … HICCIKQCDVQDIIRVCC :: : ::: :: : : Insulin CGSHLVEALYLVCGERGFFYTP … EQCCTSICSLYQLENYCN ::: : : : :: : : Seq B YQSHLLIVLLAITLECFFSDRK … KRQWISIFDLQTLRPMTA Pairwise comparison: Insulin / Seq A : 25% identity Insulin / Seq B : 25% identity

Insulin gene family: sequence alignment B-chain A-chain INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...[x]58 ....SGRHRFDPFCCEVICDDGTSVKLCT INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......[x]51 ....AAATNPARYCCLSGCTQQDLLTLCPY RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........[x]109 ....PYVALFEKCCLIGCTKRSLAKYC BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........[x]25 ........GIVDECCLRPCSVDVLLSYC BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........[x]23 ........GVVDECCFRPCTLDVLLSYCG BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........[x]25 ........GIVDECCYRPCTTDVLKLYCDKQI BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........[x]25 ........GIADECCLQPCTNDVLLSYC LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........[x]58 ........GVFDECCRKSCSISELQTYCGRR MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV.......[x]29 ....QGTTNIVCECCMKPCTLSELRQYCP MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV.......[x]44 ....QRTTNLVCECCFNYCTPDVVRKYCY MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......[x]30 ....ESRPSIVCECCFNQCTVQELLAYC MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......[x]44 ....QRTTNLVCECCYNVCTVDVFYEYCY MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...[x]86 ..EVMAEPSLVCDCCYNECSVRKLATYC ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......[x]31 ........GLVEECCYNVCDYSQLESYCNPYS INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....[x]35 ........GIVEQCCTSICSLYQLENYCN IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........[x]12 ........GIVDECCFRSCDLRRLEMYCAPLK IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........[x]12 ........GIVEECCFRSCDLALLETYCATPA *. .* ** * . *

Biomolecular Sequence Motif Descriptors Exact word: e.g. EcoRI restriction site GAATTC Consensus: e.g. TATA box: TATAWAWR Regular expression: e.g. insulins PROSITE pattern C-C-{P}-x(2-4)-C-[STDNEKPI]-x(3)-[LIVMFS]-x(3)-C Weight matrix: position-specific weighting of substitutions Generalised profiles (hidden markov models) : position-specific weighting of substitutions and indels

Example of weight matrix Splice donnor sites of vertebrates: frequency (%) of the four bases at each position log transformation  weight matrix Base Position -3 -2 -1 +1 +2 +3 +4 +5 +6 A 33 60 8 0 0 49 71 6 15 C 37 13 4 0 0 3 7 5 19 G 18 14 81 100 0 45 12 84 20 T 12 13 7 0 100 3 9 5 46 Cons. M A G G T R A G T

Searching for distantly related homologues in sequence databases 1- search for homologues (e.g. BLAST) 2- align homologues (e.g. CLUSTAL, MEME) 3- compute a profile from the multiple alignment 4- compare the profile to a sequence database (e.g. MAST, pfsearch) pfsearch: http://www.isrec.isb-sib.ch/profile/profile.html MEME/MAST: http://meme.sdsc.edu/meme/website/

PSI-BLAST Position-Specific Iterated BLAST 1- classical BLAST search 2- compute a profile with significant BLAST hits 3- BLAST search based on the profile 4 -repeat steps 2-3 up to convergence More sensitive than Smith-Waterman 40 times faster

Comparison of a sequence to a database of protein motifs Databases: PROSITE, PFAM, PRODOM, …, INTERPRO Search tools: ProfileScan : http://hits.isb-sib.ch/cgi-bin/PFSCAN