Prédiction de la structure 3-D des protéines

Slides:



Advertisements
Présentations similaires
Chap. 4 Recherche en Table
Advertisements

Non linéarités liées à la thermique
© Copyright 2007 Arumtec. All rights reserved. Présentation Etude déligibilité
Cartographie fonctionnelle en MEEG, EEG-IRMf et SEEG
Classification et prédiction
Classification et prédiction
Regroupement (clustering)
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Regroupement (clustering)
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
RECONNAISSANCE DE FORMES
Calculs de complexité d'algorithmes
Test statistique : principe
C1 Bio-statistiques F. KOHLER
Inférence statistique
Les TESTS STATISTIQUES
Outils chimiques pour létude des biomolécules 2 ème partie : Outils chimiques théorique : Modélisation Moléculaire 2) La modélisation moléculaire : optimisation.
1. Les caractéristiques de dispersion. 11. Utilité.
Les TESTS STATISTIQUES
Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.
Colloque Traitement et Analyse de séquences : compte-rendu
Initiation à la bioinformatique
Le remplacement moléculaire
La structure des protéines II
Modélisation des systèmes non linéaires par des SIFs
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Chapitre VII :Commande par retour d’état
Bioinformatique =?? génomique protéomique
Réglage et protection des réseaux électriques
Caractérisation structurale d ’un régulateur transcriptionnel du « Quorum Sensing » chez Brucella abortus.
Application des algorithmes génétiques
YASS : Recherche de similarités dans les séquences d'ADN
Yoann Beausse Journée Bioinformatique des Génopoles
Classification Multi Source En Intégrant La Texture
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
Régression linéaire simple
Fonctions de partition
Présenté par Mathieu Almeida, Amine Ghozlane
Introduction à la Théorie géométrique de la diffraction
Bioinformatique et Biologie Structurale I/ – Principes et techniques A/ Linformation structurale B/ Les différentes techniques de détermination de structure.
GPA789 Analyse et conception orientées objet 1 Professeur: Tony Wong, Ph.D., ing. Chapitre 6 Correspondance UML et C++
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Universté de la Manouba
Structure discriminante (analyse discriminante)
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
Prédiction d’interactions protéine-protéine
électroencéphalographie Estimation des conductivités in vivo
Programmation dynamique
Recherche heuristique dans les bases de données L’algorithme BLAST
La Modélisation Moléculaire
Présentation de la méthode des Eléments Finis
Objectif de l’IPMVP : « Mesurer et Vérifier les économies d’énergie, donner la preuve de ce que l’on annonce »
Alignements de séquences par paires
1 Une méthode itérative pour l'unfolding des données expérimentales, stabilisée dynamiquement(*) Bogdan MALAESCU LAL LLR 28/09/2009 (*arxiv: )
Couche limite atmosphérique
Alignement de séquences biologiques
Protéine.
PREVISION DE LA GEOMETRIE DES MOLECULES
Présenté par Mathieu Almeida, Amine Ghozlane
Méthode des moindres carrés (1)
Changement de représentation et alignement de séquences. Hugues DELALIN Encadrement: E. Mephu Nguifo.
UNIVERSITE DE PICARDIE JULES VERNE Faculté de Pharmacie
Recherche heuristique dans les bases de données L’algorithme BLAST
Les banques de séquences nucléiques
CHMI 4206 Bioinformatique appliquée
Dr. Florent Barbault, ITODYS (CNRS UMR 7086) La mécanique moléculaire.
Transcription de la présentation:

Prédiction de la structure 3-D des protéines

Introduction Swissprot Protein Data Bank +/- 200.000 séquences +/- 30.000 structures Analyse de séquence Recherche de fonction Analyse d’hydrophobicité (PO, TM, H amphip.) Prédiction de sites d’interactions Prédiction de sites antigéniques Prédiction de structures secondaires … Analyse de structure 3D Etude des interactions (3D / 4D) Etude du site actif Docking Dynamique, modifications Etude des interactions avec une membrane Ingénierie des protéines Etude du folding …

Détermination expérimentale de la structure d’une protéine Détermination expérimentale coûteuse et pas toujours possible…

Prédiction de structures 3D Modélisation par homologie : Identification d’une protéine de structure connue de séquence homologue Fold recognition ou threading : Se base également sur la connaissance de structures 3D de protéines. On essaie de déterminer le fold de la protéine. Ab initio : Construction de modèles 3D sur base de la séquence par simulation des forces qui gouvernent le repliement pour trouver la structure de plus basse énergie.

Principe de la modélisation par homologie Structures mieux conservées que séquences ! Si  homologie entre séquences =>  homologie entre structures => prédiction modèle 3D par homologie possible

Principe de la modélisation par homologie Protéine homologue dans la PDB ??? Si identité > 30% => OK Si 20% < identité < 30 % => + difficile / risqué Si identité < 20% => +++ difficile / impossible Estimation : 28% des séquences ont au moins 25% ID avec une protéine de structure connue (PDB)

! Étapes 1 et 2 déterminantes ! Etapes de la prédiction du modèle 3D Identification d’une protéine de structure connue de séquence homologue (ou plusieurs !) Alignement Target / Template(s) Construction du modèle 3D Optimisation du modèle 3D Validation du modèle 3D ! Étapes 1 et 2 déterminantes !

1. Recherche de séquence(s) homologue(s) dans la PDB Cfr. cours sur les méthodes d’alignement. Utilisation d’un algorithme pour chercher des protéines de structure connue qui ont une séquence homologue à notre séquence target et qui pourront ainsi être utilisées comme template.

4. Comparaison de séquences : les alignements = une des premières étapes dans l’analyse des séquences = comparaison de séquences dans le but de repérer les endroits où se trouvent des régions identiques ou très similaires entre des séquences et d’en déduire celles qui sont significatives et qui correspondent à un sens biologique de celles qui sont observées par hasard. Séquence1 LRTMPDSYGWPLVGPLSDRLDYFFFQITRAEKNIPPTFGN ..***. ** .. * . * . .* . .* .* ** Séquence2 IKTMPERYGSEIISPGDEGWLYLYHNIEHFQKYLPIYLGN Séquence1 LRTMPDSYGWPLVGPLSDRLDYFFFQITRAEKNIPPTFGN *** ** * * * * * ** Séquence2 IKTMPERYGSEIISPGDEGWLYLYHNIEHFQKYLPIYLGN Séquence1 LRTMPDSYGWPLVGPLSDRLDYFFFQITRAEKNIPPTFGN Séquence2 IKTMPERYGSEIISPGDEGWLYLYHNIEHFQKYLPIYLGN % identité = 30% % similarité = 57% similarité  homologie homologie si ancêtre commun homologie mesurée par similarité

Quelqu'un a t-il déjà rencontré ce type de séquences ? Alignements Objectif : Révéler des informations importantes sur la structure, la fonction l’évolution de ma(mes) séquence(s) d’intérêt Quelqu'un a t-il déjà rencontré ce type de séquences ? Si oui, je vais pouvoir avoir rapidement accès à toutes ses connaissances !!

Alignements : principes Principe des alignements Durant l’évolution, substitutions de résidus Subsitution homologue Substitution non homologue insertions / délétions de résidus Séquence1 LRTMPDSYGWPLVGPSDRDLYLFHQITRAEKNIPPTFGNF ..***. ** .. * * * . Séquence2 IKTMPERYGSEIISPGDEKELYLYHNIEHFQKYLPIYLGN Séquence1 LRTMPDSYGWPLVGPSD-RDLYLFHQITRAEKNIPPTFGNF ..***. ** .. * * ..***.*.* . .* .* ** Séquence2 IKTMPERYGSEIISPGDEKELYLYHNIEHFQKYLPIYLGN- Représente une insertion-délétion (indel ou gap) => Calcul d’un score pour évaluer la qualité de l’alignement

Détermination d’un score Alignements : principes Détermination d’un score Utilisation de matrice de substitution Calcul d’un score score global = la somme des scores élémentaires Score =  se Introduction de gap (avec pénalité) Pénalité pour l’insertion d’un gap (x) Pénalité pour l’extension d’un gap (y) (svt x = 10 y) P = coût global du gap de longueur L P = x + yL Score =  se -  P Le score élémentaire (se) = la valeur donnée directement dans la matrice

Alignements : principes Matrices de substitution Identité Homologie *Similarités physico-chimiques *Matrice d’évolution (probabilité qu’un A.A. soit muté en un autre après un temps d’évolution donné) (PAM, Blosum) *Matrice basée sur la comparaison des séquences (Gonnet)

Alignements : principes The PAM250 scoring matrix

Alignements : principes Matrices protéiques utilisées Pam 120 Pam 250 blossum 50 blossum 62 blossum 80 Gonnet matrix Le choix d'une matrice protéique Pas de consensus, mais ce qui est généralement reconnu... Matrices Blosum > matrices Pam Matrice Blosum62 = la meilleure pour la détection de la majorité des similarités protéiques faibles. Matrice Blosum45 = la meilleure pour la détection de la majorité des similarités protéiques faibles et longues.

Alignement global  alignement local Alignements : principe Alignement global  alignement local

Alignements : évaluation !!! ce critère doit être relié à la longueur de la similitude au nombre d’insertion introduite Généralement reconnu : Des séquences protéiques de 100 aa ou plus possédant au moins 25% d’identité entre elle ont certainement un ancêtre commun. On peut douter d’un alignement s’il nécessite plus d’une insertion en moyenne pour 20 acides aminés.

Alignements : évaluation E-value E = Y Z K e-S s = score authentique Y = longueur de la séquence Z = taille de la banque K et  = constante E = Probabilité d'observer au hasard  ce score à travers la banque de séquences considérée. Plus la E-value est faible, plus l'alignement est significatif. Fasta Blast Pour les programmes d’alignements suivants, on considère que :

Alignements : type Type d’alignement Alignement entre une séquence et une banque Fasta Blast Alignement entre deux séquences = alignement pairé SIM Alignement entre plusieurs séquences = alignement multiple ClustalW Match-box Dialign 2

2. Alignement des séquences target / template Si un ou plusieurs template ont été identifiés, il faut générer un alignement entre les séquences target et template. Questions : Quel(s) algorithme(s) utiliser ? Quels paramètres utiliser ? Comment juger de la pertinence des résultats ? Comment améliorer l’alignement ?

2. Alignement des séquences target / template Quel(s) algorithme(s) utiliser ? Quels paramètres utiliser ? Comment juger de la pertinence des résultats ? Comment améliorer l’alignement ? Clustal, MatchBox,… comparaisons et combinaisons possibles alignement structural si plusieurs templates en fonction des cas… % ID, % homologie, gaps et positions alignement de résidus particuliers Homologie HCA Structures secondaires,… cfr. ci-dessus

3. Construction du modèle 3-D séquence Target structure Template alignement Target/Template Construction d’un modèle 3D 4. Optimisation du modèle 3-D Optimisation de la géométrie par minimisation énergétique 5. Validation du modèle 3-D Calcul de paramètres pour juger de la validité du modèle Confrontation à des données expérimentales

Modeller séquence Target structure Template alignement modèle 3D Comment ? => Contraintes spatiales = fonction de densité de probabilité (pdf) Contraintes : basées sur l’alignement stéréochimiques utilisateur éventuelles

Principe de développement de Modeller Utilisation d’une base de données de protéines de structure connue correspondant à des protéines homologues réparties en familles. Cette base de donnée sert à déterminer : les paramètres (caractéristiques) relevants à utiliser lors de la prédiction comment utiliser ces paramètres Les paramètres relevants sont déterminés par des méthodes statistiques (sans à priori). Une fois les paramètres relevants déterminés, la base de données est utilisée pour déterminer les fonctions de densité de probabilité qui décrivent le lien entre les paramètres.

Contraintes basées sur l’alignement Notion de « caractéristique » = paramètre = propriété associée à un élément simple ou relation entre plusieurs éléments = relative à un résidu, à plusieurs résidus, à une protéine, ou à deux séquences Exemples : acide aminé, accessibilité au solvant dans la structure, distance entre deux C, résolution de la structure, identité entre séquences,… Définition de 21 caractéristiques

1 r Amino acid residue type 2 f Main-chain dihedral angle f 3 y Main-chain dihedral angle y 4 t Secondary structure class of a residue 5 M Main-chain conformation class of a residue 6 a Fractional content of residues in the main-chain conformation class A 7 ci Side-chain dihedral angle ci, i = 1, 2, 3, 4 8 Side-chain dihedral angle ci class, i = 1, 2, 3, 4 9 Residue solvant accessibility 10 Average accessibility of two residues in one protein 11 s Residue neighbourhood difference between two proteins 12 Average residue neighbourhood difference between two proteins 13 i Fractional sequence identity between two proteins 14 d Ca-Ca distance 15 Dd Difference between two Ca-Ca distances in two proteins 16 h Main-chain N-O distance 17 Dh Difference between two main-chain N-O distances in two proteins 18 b Average residue Biso (atomic isotropic temperature factor) 19 R Resolution of X-ray analysis 20 g Distance of a residue from a gap in alignement 21 Average distance of a residue from a gap

Contraintes basées sur l’alignement Qu’est-ce qu’une contrainte ? Contrainte = fonction (pdf) qui établit une relation entre différentes caractéristiques Formulation des contraintes ? 1. Quantification de l’association entre les caractéristiques caractéristiques dépendantes ou indépendantes ? 2. Définition d’une fonction mathématique expression de la contrainte = pdf

Formulation des contraintes ? Banque de 17 familles de protéines de structure connue = 80 protéines alignées Table multidimensionnelle des fréquences relatives observées pour la caractéristique x en fonction des caractéristiques a, b, c,… caractéristiques dépendantes ou indépendantes ? Tests statistiques pour mesurer la dépendance de x par rapport à a, b, c,…

Contraintes basées sur l’alignement Résultat : 4 types de contraintes sont définies : - sur les distances C-C - sur les distances O-N (main-chain) - sur la conformation de la chaîne principale - sur la conformation des chaînes latérales Exemple : Contrainte sur distance C- C dans Target exprimée sour forme de fonction de densité de probabilité (pdf)… => probabilité que dist(C- C) = x dépend de - distance entre C équivalents dans Template - accessibilité des C équivalents dans Template - homologie de séquence Target/Template - distance moyenne aux gaps dans l’alignement

Contraintes locales (en terme de séquence) => Contraintes globales Comment combiner les contraintes des caractéristiques pour la molécule ? pdfs des caractéristiques => pdf moléculaire « Variable Target Function Approach » pondération des pdfs des caractéristiques au cours de la recherche de la structure de plus grande probabilité Contraintes locales (en terme de séquence) => Contraintes globales

Evaluation de Modeller Choix de la structure Template ! Qualité de la structure Template ! Qualité de l’homologie ! Qualité de l’alignement ! Résidus enfouis mieux prédits que résidus accessibles Zones de faible homologie moins bien prédites

Swiss Model & Swiss PDB Viewer Serveur de modélisation par homologie automatisée accessible à l’adresse : http://swissmodel.expasy.org/ ou via Swiss PDB Viewer (Deep View)

Modeller  Swiss Model Modeller : Swiss Model : L’entièreté de la structure de la protéine est modélisée en utilisant des contraintes dérivées des structures templates. Swiss Model : La prédiction de la structure de la protéine se base sur un découpage de la protéine en des régions conservées et des régions variables qui sont modélisées séparément. => assemblage de fragments basés sur les structures templates.

Swiss Model : méthode 1. Identification de fragments de structure conservée 2. Construction du cœur du modèle : Position moyenne des atomes du backbone du cœur des templates avec pondération en fonction de la similarité séquence target / template Les régions non conservées (boucles) sont laissées pour plus tard…

Swiss Model : méthode 2. Construction du cœur du modèle 3. Modélisation des boucles : recherche de fragments compatibles dans une banque de donnée de boucles (Loop-database) reconstruction ab initio pour les boucles manquantes

Swiss Model : méthode 3. Modélisation des boucles 4. Positionnement des chaînes latérales On recherche la conformation la plus probable pour chaque chaîne latérale en utilisant : les structures homologues des banques de rotamères des critères énergétiques

Swiss Model : méthode 4. Positionnement des chaînes latérales 5. Minimisation énergétique régularisation de la géométrie (longueurs de liaisons et angles) suppression des conflits stériques

Prédiction de structures 3D Modélisation par homologie : Identification d’une protéine de structure connue de séquence homologue Fold recognition ou threading : Se base également sur la connaissance de structures 3D de protéines. On essaie de déterminer le fold de la protéine. Ab initio : Construction de modèles 3D sur base de la séquence par simulation des forces qui gouvernent le repliement pour trouver la structure de plus basse énergie.

Certaines protéines (même non-homologues) adoptent le même fold. = Type de repliement Certaines protéines (même non-homologues) adoptent le même fold. La PDB regroupe environ 30.000 structures, ce qui fait environ 4.000 folds.

Fold recognition On essaie de prédire le fold compatible avec la séquence de la protéine sans tenir compte de l’homologie de séquence Méthode : Identification du template (fold de la protéine) Alignement Target / Template(s) Construction du modèle 3D Optimisation du modèle 3D Validation du modèle 3D Idem que pour modélisation par homologie On impose différents folds à la séquence On calcule un score pour mesurer l’adéquation structure  séquence On optimise l’alignement pour la structure ayant le meilleur score On effectue une analyse statistique des résultats

Validation des structures 3D Comparaison des modèles prédits Comparaison au(x) Template(s) Stéréochimie acceptable ? (Procheck) conflits stériques longueurs de liaison, angles de valence,… carte de Ramachandran … Mesure de l’adéquation entre la structure et la séquence Confrontation à des résultats expérimentaux

Comparaison de structures 3 modèles prédits par Modeller

Stéréochimie (Procheck)

Stéréochimie (Procheck)