Alignements de séquences par paires

Slides:



Advertisements
Présentations similaires
La recherche de chemin optimal
Advertisements

Microsoft Excel LibreOffice Calc
Chap. 4 Recherche en Table
Chapitre annexe. Récursivité
Yacine DIAGNE GUEYE ENDA ENERGIE
Evaluation dheuristiques pour lalignement de séquences génomiques Stéphane Guyetant Séminaire Symbiose du 23/01/03.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Regroupement (clustering)
Test statistique : principe
Correction des flats-fields Nadège Meunier Atelier MTR, 17 janvier 2006, Tarbes.
I. Recherche du gène correspondant aux séquences initiales.
UMLV 1 Problème G = (S, A) graphe (orienté) Calculer H = (S, B) où B est la clôture réflexive et transitive de A. Note : (s,t) B ssi il existe un chemin.
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Master Génie Biologique et Informatique, première année
Méthodes de comparaison entre séquences multi-échelles végétales
Défi écriture BEF Couverture. Défi écriture BEF Page 1.
Le remplacement moléculaire
A.Faÿ 1 Recherche opérationnelle Résumé de cours.
Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM
Plus rapide chemin bicritère : un problème d’aménagement du territoire
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Sensibilité de graines espacées du type Subset seed Gregory Kucherov, Laurent Noé, Mikhaïl Roytberg LORIA (Nancy) 9-10 décembre 2004, Lille AS Indexation.
Christelle Scharff IFI 2004
OCaml - Les listes L3 MI.
2. Théorie de la consommation (demande) (suite)
Caractérisation structurale d ’un régulateur transcriptionnel du « Quorum Sensing » chez Brucella abortus.
Principes de la technologie orientée objets
Algorithmes Branch & Bound
Initiation à la conception de systèmes d'information
Les algorithmes: complexité et notation asymptotique
2-1 CIRCUITS ÉLECTRIQUES SIMPLES
ARN késako ? Julie BERNAUERAdrien GUILHOT-GAUDEFFROY Yann PONTYMireille REGNIER EQUIPE PROJET AMIB Inria Saclay 28 Septembre 2012.
1.2 COMPOSANTES DES VECTEURS
Méthode des k plus proches voisins
Phylogenetik Conception, développement et tests d’un logiciel en java
Alignement de séquences (suite)
2.1 LONGUEURS ET DISTANCES Cours 4 1.
La droite dans R2 Montage préparé par : André Ross
Systèmes d’équations du premier degré à deux variables
Prédiction de la structure 3-D des protéines
Les fichiers indexés (Les B-arbres)
Les pointeurs Modes d’adressage de variables. Définition d’un pointeur. Opérateurs de base. Opérations élémentaires. Pointeurs et tableaux. Pointeurs et.
Courbes de Bézier.
Gestion de Fichiers Hachage Extensible.
Expression du Génome Le transcriptome.
LE CHOIX DU CONSOMMATEUR ET LA DEMANDE
Chapitre 3 Syntaxe et sémantique.
Prédiction d’interactions protéine-protéine
Programmation dynamique
Atelier de formation : MAT optimisation II (les graphes).
Programmation linéaire en nombres entiers : les méthodes de troncature
Recherche heuristique dans les bases de données L’algorithme BLAST
printemps des sciences
Mise en forme en Mathématiques
Présentation de la méthode des Eléments Finis
Coupes efficaces pour la relaxation lagrangienne
ANALYSE METHODE & OUTILS
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
DEMARCHE ERGONOMIQUE.
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Programmation dynamique
Consommations d’antibiotiques.… en questions Quelles données ? Quelles données ? –Origine ? –Modalités de recueil ? Quels résultats ? Quels résultats.
Rappels de statistiques descriptives
Alignement de séquences biologiques
Recherche par automates finis
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.
Recherche heuristique dans les bases de données L’algorithme BLAST
CHAPITRE 2 LES SITUATIONS FONCTIONNELLES
Les banques de séquences nucléiques
Transcription de la présentation:

Alignements de séquences par paires TP Alignements de séquences par paires

Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études : Identification de gènes homologues Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines. Prédiction de fonction, Prédiction de structure (ARN, protéine) ( ...

Applications des alignements Approches qui utilisent des alignements Alignments multiples Profiles et HMM (pour rechercher les familles de protéineset les domaines) Prédiction structure/fonction Structures 3D Analyses Phylogénétiques Construction de matrices de substitutions Recherche par similarité (BLAST par exemple)

Quelques définitions Identité Similarité Homologie Proportion de paires de résidus identiques entre 2 séquences. Généralement exprimée sous forme de pourcentage. Cette valeur dépend énormément de l'algorithme d'alignement. Similarité Proportion de paires de résidus similaires entre 2 séquences. Une matrice de substitution permet de décrire qui est similaire à qui. Cette valeur dépend énormément de l'algorithme d'alignement et de la matrice de similarité utilisée. Homologie Deux séquences sont homologues seulement si elles ont un ancêtre commun. IL N'Y A PAS DE POURCENTAGE D'HOMOLOGIE : les séquences sont homologues ou elles ne le sont pas. Des séquences homologues ont souvent mais pas toujours la même fonction... ... Elles ne sont pas forcément non plus très similaires : la structure est conservées plus que la séquence.

L’alignement de séquences 3 situations sont possibles pour une position donnée d’un alignement: les caractères sont les mêmes: Identité les caractères ne sont pas les mêmes: Substitution l’une des positions est un espace :Insertion / Délétion(gaps) Seq A GARTVARH--TSTH Seq B GARHLDTHTTP--H Identité Substitution Délétion Insertion

Similarité globale, locale Les alignements globaux sont plus souvent utilisés quand les séquences mises en jeu sont similaires et de taille égale.. Les alignements locaux sont plus souvent utilisés quand deux séquences dissemblables sont soupçonnées de posséder des motifs semblables malgré l'environnement. Des méthodes hybrides, des méthodes semi-locales, s'avèrent parfois utiles

Quel est le bon alignement ? G T T A C G A G T T A C G A G T T - G G A G T T G - G A * * * * * * * * * * OU G T T A C - G A G T T - - G G A * * * * * Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable

Fonction de score de similarité G T T A A G G C G – G G A A A G T T – – – G C G A G G A C A * * * * * * * * * * Score = Exemple: identité = 1 mismatch = 0 gap = -1 Score = 10 - 4 = 6

Alignements Nombre d'alignements Il existe de nombreuses façons d'aligner deux séquences Exemple de deux alignements alternatifs CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA Ou bien : CGATGCAGACGTCA |||||||| CGATGCAAGACGTCA Le nombre possibles d'alignements de 2 sequences de longueur 1000 : plus de 10600 alignements avec indels (Avogadro 1024, nombre d'atomes dans l'univers : 1080)

Qu'est ce qu'un bon alignement ? Il faut pouvoir évaluer la signification biologique d'un alignement Intuitivement nous savons que cet alignement: CGAGGCACAACGTCA ||| ||| |||||| CGATGCAAGACGTCA Est meilleur que celui ci : ATTGGACAGCAATCAGG | || | | ACGATGCAAGACGTCAG Nous pouvons formaliser cela en utilisant un système de score.

Score d'alignment. TPEA ¦| | APGA Les matrices de substitutions des acides aminés. Exemple : PAM250 Généralement utilisée : Blosum62 Le calcul du score brut TPEA ¦| | APGA 1 + 6 + + 2 = 9 Un alignement moyen sur une grande longueur peut donner un meilleur score qu'un alignement très bon sur une courte longueur, et INVERSEMENT ! Pour comparer différents alignements il faut avoir utiliser le même système de score et utiliser une fonction de score normalisée (p-value, e-value).

Gaps : indels Insertions or délétions Exemple Les protéines (et encore plus des molécules comme les ARNr) contiennent souvent des régions dans lesquelles des résidus ont été ajoutés ou perdus. Ceci peut correspondre à : Des domaines peu fonctionnels. Des mutations à effet phénotypique. Exemple GCATGCATGCAACTGCAT ||||||||| GCATGCATGGGCAACTGCAT L'alignement est grandement amélioré par insertion d'un indel. GCATGCATG--CAACTGCAT ||||||||| ||||||||| GCATGCATGGGCAACTGCAT

Modèles de Gap GARFIELDTHE----CAT GARFIELGHPELASTCAT Fonction Constante pour pénaliser les gaps K: coût de l’insertion d’un gaps Nbr: le nombre de gaps Fonction affine pour pénaliser les gaps attribuer des coûts différents(Gap open et Gap extended) pour ouvrir un gap et pour étendre un gap existant Extension gap Ouverture de gap GAP GARFIELDTHE----CAT GARFIELGHPELASTCAT

Exemples de calcul de score. Bonus pour un match : 1 Malus pour un mismatch : 0 Malus d'ouverture d'indel : 10 Malus d'extension d'indel : 1 CGATGCAGCAGCAGCATCG |||||| ||||||| CGATGC------AGCATCG CGATGCAGCAGCAGCATCG || || |||| || || | CG-TG-AGCA-CA--AT-G ouverture extension 13 x 1 - 10 - 6 x 1 = -3 13 x 1 - 5 x 10 - 6 x 1 = -43

Obtenir un alignement Algorithmes d'alignement Les modes d'alignement Un tel programme calcule l'alignement qui produit le meilleur score après avoir choisi un système de score. (Comme par exemple on cherche le meilleur chemin dans la matrice précdente). Les modes d'alignement Global : On aligne complètement une séquence 1 avec une séquence 2 Local : On cherche des alignements optimaux entre des sous séquences de 1 et des sous séquences de 2 Implémentation (Algorithmes) Programmation dynamique Global Needleman-Wunsch Local Smith-Waterman + phylogenie : Clustall

Les algorithmes exacts Simple example (Needleman-Wunsch) Système de socre Match : 2 Mismatch : -1 Gap penalty: -2 F(i-1,j) F(i,j) s(xi,yj) F(i-1,j-1) -d F(i,j-1) F(i,j): score à la position i, j s(xi,yj): match ou mismatch (matrice de substitution ) pour les residus xi et yj d: malus pour gap (valeur positive) GA-TTA || || GAATTC 0 - 2 2 + 2 0 - 2 Note Il faut conserver la trace des scores pour chaque élément de la matrice. L'alignement est trouvé quand la matrice complète a été calculée. Le temps de calcul est proportionnel au produit des longeurs des séquencs.

Exemple:Alignement de protéines avec de longues insertion/délétion. >Proteine1 MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPA VIAEIKKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQA RDACTLPVLRKDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGM DVLVEVHDIDELERAIQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVS ESGILTSADVQRLRAAGVNAFLVGEAFMRATEPGESLREFFIT >Proteine2 MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTV SAACAIRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFN VPYLKAIPMAGAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDL QHPFLLAGGITPENVFDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRA DGRRLFGVA >Proteine3 MQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECK KASPSKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFRGSFNFLPIVSQIAPQP ILCKDFIIDPYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVS NEEEQERAIALGAKVVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTY AQVRELSHFANGFLIGSALMAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAG AIYGGLIFVATSPRCVNVEQAQEVMAAAPLQYVGVFRNHDIADSVDKAKVLSLVA VQLHGNEEQLYIDTLREALPAHVAIWKALSVGETLPAREFQHVDKYVLDNGQGGS GQRFDWSLLNGQTLGNVLLAGGLGADNCVEAAQTGCAGLDFNSAVESQPGIKDAR LLASVFQTLRAY

Exemple:Alignement de protéines avec de longues insertion/délétion. 1. Proteine1 : une protéine de Xylella fastidiosa Elle a une seule fonction enzymatique: indole-3-glycerol phosphate synthase (IGPS). Cette fonction a pour numéro EC : 4.1.1.48. 2. Proteine2 : Une protéine de Xylella fastidiosa Elle a une seule fonction enzymatique: N-(5'-phosphoribosyl) anthranilate isomérase, de la famille des trpF. Cette fonction porte le numéro EC : 5.3.1.24. 3. Proteine3 : Une protéine de Escherichia coli Elle a deux fonctions enzymatiques. Ces deux fonctions sont celles portées individuellement par les deux protéines de Xylella fastidiosa. La partie N-terminal porte la fonction EC 4.1.1.48 La partie C-terminal porte la fonction EC 5.3.1.24.

Résultat trouvé par CLUSTAL