Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et.

Slides:



Advertisements
Présentations similaires
LES NOMBRES PREMIERS ET COMPOSÉS
Advertisements

Le moteur
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
Approche graphique du nombre dérivé
Qui a le nombre qui vient après 8 ?
Introduction aux classes empiétantes François Brucker Brest (Breizh)
Classe : …………… Nom : …………………………………… Date : ………………..
Mardi 12 décembre h30 (50 min) La phylogénie, ses concepts et ses applications à la génomiqueLa phylogénie, ses concepts et ses applications à la.
Les nombres.
ACTIVITES Le calcul littéral (3).
Les Prepositions.
Phylogénie et distances génétique
SYMETRIE CENTRALE OU SYMETRIE PAR RAPPORT A UN POINT.
Identités remarquables : introduction Les 3 identités remarquables
Construction de Box-Plot ou diagrammes en boîtes ou boîtes à moustaches Construire une boîte à moustaches …
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Université Paul Sabatier - Toulouse 3 - Département de GMP Enquête Insertion Professionnelle – Promotion
Le noyau Pages 22 /
Chapitre 4 Les échelles.
Bioinformatique =?? génomique protéomique
Évolution honoraires, revenus des spécialités cliniques.
Probabilités.
Biologie 11F Révision Pour Respiration Cellulaire et Photosynthèse
Évolution et diversité du vivant
SUJET D’ENTRAINEMENT n°3
Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff,
OLAP : Un pas vers la navigation
1.2 COMPOSANTES DES VECTEURS
SUJET D’ENTRAINEMENT n°2
LES NOMBRES PREMIERS ET COMPOSÉS
Prédiction de la structure 3-D des protéines
Chapitre 4 Réduction des endomorphismes
La Saint-Valentin Par Matt Maxwell.
Arbres Rouge noir Démo : INF3105 Structures de données et algorithmes
Protéines.
Gilbert TOUT NEST QUE CALCUL Vous vous êtes certainement déjà demandé ce que voulait dire « se donner à 100% » ?
Notre calendrier français MARS 2014
LE CHOIX EN CONTEXTE D’INCERTITUDE
Annexe 1 VISITE SUR
Quelle heure est-il ??. THE TIME: OCLOCK IL EST HEURE IL EST + + HEURES etc.
Hybridation sp3 du carbone
Prédiction d’interactions protéine-protéine
C'est pour bientôt.....
Veuillez trouver ci-joint
Enquête de satisfaction n°3 Février 2010 Enquête téléphonique réalisée auprès de 600 Ouvrants droit ayant utilisé un ou plusieurs services de lAgospap.
Les Nombres! de 0 à 20.
2.2 PRODUIT SCALAIRE ET CALCUL D’ANGLES
SUJET D’ENTRAINEMENT n°4
C. TERPEREAU – P. TERPEREAU
Articulation école-collège
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
Multiplier par 5 ou 50 Mathématiques – Calcul mental  Entraînement n° 1.
1 Modèle pédagogique d’un système d’apprentissage (SA)
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
LES COURSES SUR PISTE.
CALENDRIER-PLAYBOY 2020.
Chapitre 1 Correction des exercices.
USAM BRIDGE H O W E L L -CLASSIQUE
6 Nombres et Heures 20 vingt 30 trente 40 quarante.
9 paires séries de 3 étuis ( n° 1 à 27 )
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Alignements de séquences par paires
 Sois très attentif !!!!  Tu vas voir défiler des questions de calcul ou des petits problèmes.  Tu auras 20 secondes pour répondre à chaque question.
Protéine.
Transcription de la présentation:

Prédiction de sites dinteraction des protéines par analyse darbres phylogénétiques Stéfan Engelen Génomique Analytique, INSERM U511 Université Pierre et Marie Curie

2 Les protéines Suite linéaire dacides aminés représentés par des lettres … LNSVEFSSFECPSARGFHM… 20 acides aminés différents Longueur typique aux alentours de 300 AA, intervalle de 100 à 5000 AA Responsables de la plupart des fonctions dune cellule : transport de molécules (transporteur) coupure de molécules, protéines (enzyme) … 2

3 Structure des protéines 3 Chaîne dacides-aminés (1D) Chaîne déléments structuraux réguliers (2D) Structure 3D dune chaîne dacides-aminés. Structure 3D de plusieurs chaînes dacides-aminés.

4 Structure des protéines Une protéine se replie dans une structure unique, qui est dépendante seulement de la séquence (C. Anfinsen, 1973). Protéines homologues : Séquences dorganismes différents ayant divergées au cours de lévolution à partir dun ancêtre commun par substitution, délétion ou insertion dAA Les structures des protéines homologues sont plus conservées au niveau de la structure 3D que des séquences Fonction quasi identique Cœur (AA non accessibles) des protéines homologues assez conservé 4

5 Les protéines 5 Surface moins conservée avec des régions fonctionnelles conservées En structure pour maintenir des interactions (emboîtement) avec dautres composants moléculaires En séquence pour maintenir une réaction moléculaire particulière

6 Intégration des données dévolution JET au docking moléculaire (MAXDO) Barnase/barstar Réduction de lespace des calculs passage à une échelle plus grande possible Projet global MAXDO seul : 150 protéines interactions 1 machine :14 siècles Grille WCG : 7 mois (1000 à 5000 internautes) JET + MAXDO 4000 protéines interactions

7 JET : Joint Evolutionary trees Séquence requête possédant une structure 3D connue Recherche des homologues : PSI-BLAST Échantillonnage aléatoire des séquences N T groupes de S T séquences N T Alignement multiple : CLUSTALW Construction de N T arbres phylogénétiques : NJ (Neighbor Joining) … AGFHICVQVYENK … PSI-BLAST … AGFHICVQVYENK … … CHGAGFHICVYHMNK … … GFICVHICNK … N séquences … AGFHICVQVYENK … … CHGAGFHICVYHMNK … … GFICVHICNK … N T groupes de S T séquences Séquence requête N T arbres phylogénétiques

8 JET : Joint Evolutionary trees Évaluation de la conservation des résidus (acides aminés) au sein de chaque arbre : calcul des traces Clusterisation des résidus les plus conservés sur la surface de la structure requête

9 Échantillonnage aléatoire des séquences Motivation : ensemble de séquences obtenues par PSI-BLAST Répartition non uniforme en terme didentité Familles de séquences sous ou sur représentées Nombre de séquences grand

10 Échantillonnage aléatoire des séquences Motivation : ensemble de séquences obtenues par PSI-BLAST Répartition non uniforme en terme didentité Familles de séquences sous ou sur représentées Nombre de séquences grand Répartition des séquences de dans 4 groupes didentité par rapport à la séquence référence (20-40, 40-60, 60-80, 80-98)

11 Échantillonnage aléatoire des séquences Motivation : ensemble de S N séquences obtenues par PSI-BLAST Répartition non uniforme en terme didentité Familles de séquences sous ou sur représentées Nombre de séquences grand Répartition des séquences de dans 4 groupes didentité par rapport à la séquence référence (20-40, 40-60, 60-80, 80-98) Piochage aléatoire de S T /4 séquences dans chaque groupe

Échantillonnage aléatoire des séquences Motivation : ensemble de S N séquences obtenues par PSI-BLAST Répartition non uniforme en terme didentité Familles de séquences sous ou sur représentées Nombre de séquences grand Répartition des séquences de dans 4 groupes didentité par rapport à la séquence référence (20-40, 40-60, 60-80, 80-98) Piochage aléatoire de S T /4 séquences dans chaque groupe Réalisé N T fois N T groupes N T groupes

Échantillonnage aléatoire des séquences Motivation : ensemble de S N séquences obtenues par PSI-BLAST Répartition non uniforme en terme didentité Familles de séquences sous ou sur représentées Nombre de séquences grand Répartition des séquences de dans 4 groupes didentité par rapport à la séquence référence (20-40, 40-60, 60-80, 80-98) Piochage aléatoire de S T /4 séquences dans chaque groupe Réalisé N T fois N T groupes de séquences N T groupes

14 Alignement multiple et construction darbres phylogénétiques Alignement multiple de chaque groupe de séquences avec CLUSTALW N T alignement de S T séquences N T matrices de distances Construction darbres par Neighbor Joining (NJ) à partir des matrices de distances N T arbres métriques N T groupes CLUSTALW NJ N T alignements N T arbres

15 Évaluation de la conservation des résidus : calcul des séquences consensus et backtraces Séquences consensus des feuilles = séquences de lalignement Arbre des séquences consensus

16 Évaluation de la conservation des résidus : calcul des séquences consensus et backtraces consensus(n) = consensus(fils_g(n)) consensus(fils_d(n)) Arbre des séquences consensus

17 Évaluation de la conservation des résidus : calcul des séquences consensus et backtraces backtrace(n) = consensus(n) – consensus (père(n)) Arbre des séquences backtraces Arbre des séquences consensus

18 Évaluation de la conservation des résidus : calcul des séquences consensus et backtraces Arbre des séquences consensus Arbre des séquences backtraces

19 Évaluation de la conservation des résidus : calcul des séquences consensus et backtraces Arbre des séquences consensus Arbre des séquences backtraces

20 Évaluation de la conservation des résidus : calcul des séquences consensus et backtraces Arbre des séquences consensus Arbre des séquences backtraces

21 Évaluation de la conservation des résidus : calcul des séquences consensus et backtraces Arbre des séquences consensus Arbre des séquences backtraces

22 Évaluation de la conservation des résidus : calcul des séquences consensus et backtraces Arbre des séquences consensus Arbre des séquences backtraces

23 Évaluation de la conservation des résidus : calcul des séquences consensus et backtraces Arbre des séquences consensus Arbre des séquences backtraces

24 Évaluation de la conservation des résidus : calcul des séquences consensus et backtraces Arbre des séquences consensus Arbre des séquences backtraces

25 Évaluation de la conservation des résidus : calcul des traces Notion de rang pour les nœud internes : Rang(racine)=1 Rang(i)=n si pour tout nœud j tel que d racine,j <d racine,i on a Rang(j) < n et au moins un nœud j tel que Rang(j)=n-1

26 Évaluation de la conservation des résidus : calcul des traces Soit un noeud x de rang n, on coupe l'arbre aux positions correspondant à la distance d(racine,x). Si un résidu est backtrace dans au moins 2 des sous arbres résultant alors il est trace de niveau n. Motivation : Pemet de récupérer les conservations locales de larbre

27 Évaluation de la conservation des résidus : calcul des traces Comparaison avec trace de ET (Evolutionary trace, O.Lichtarge)

28 Évaluation de la conservation des résidus : calcul des traces Un score de conservation d j est calculé sur lensemble des arbres pour chaque résidus de la séquence Plus les résidus sont conservés, plus la trace augmente

29 Clusterisation des résidus traces : motivations Les résidus à linterface entre deux protéines forment des patches sur la surface des protéines Clusterisation des résidus de surface Les résidus aux interfaces des protéines sont plus conservés que les autres résidus de surface Clusterisation des résidus montrant une trace significative Seulement 39% des résidus dune interface montrent une conservation significative Clusterisation des résidus selon la trace pour former une graine que lon étend ensuite Les résidus les plus conservés sont presque toujours à linterface Clusterisation des résidus par trace décroissante

30 Clusterisation des résidus : algorithme Étape 1: Trier par trace décroissante les résidus de surface et de trace > seuil_residu Étape 2 (création graine): Pour chaque résidu i dans lordre du tri Elargissement dun cluster si : résidu assez proche du cluster (5A) d cluster après ajout du résidu > seuil_graine Création dun nouveau cluster si: le résidu ne clusterise pas avec un cluster d i > seuil_graine

31 Clusterisation des résidus : algorithme Étape 3 : Sélection des graines de taille > seuil_taille Étape 4 : Collecte des résidus voisins aux graines Si pas de voisins FIN Étape 5 : Extension des graines : ajout des résidus voisins dans lordre du tri Respect des règles de létape 2 en remplaçant seuil_graine par seuil_cluster Retour à létape 4

32 Clusterisation des résidus : seuils Les résidus clusterisent différemment et plus ou moins bien en fonction de la structure considérée Seuil_taille calculé par génération aléatoire de clusters sur la structure considérée = variable en fonction de la structure de la protéine La distribution des traces peut varier (protéines très conservées ou inversement) Seuil_residu, seuil_graine et seuil_clusters fixé avec des niveaux de confiance sur la distribution des valeurs de traces

33 JET : Résultats 33