La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin

Présentations similaires


Présentation au sujet: "Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin"— Transcription de la présentation:

1 Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin
Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Par domaines protéiques on entend les sous unités structurales des protéines Nicolas Terrapon Olivier Gascuel /03/2017 Laurent Bréhélin

2 Problématique Prédire la composition en domaines des protéines de Plasmodium falciparum. Les domaines sont les unités structurelles et fonctionnelles des protéines. Différentes techniques existantes : BLAST, modélisation déterministe ou probabiliste.

3 Bases de données Interpro [Mulder 07]
Centralise les informations issus de 10 bases :

4 [Bateman 08] Hidden Markov Models (HMMs) : outils puissants pour la détection de domaines. modèles de domaines. Certains domaines annotés dans la GO. Seuils permettant d’affirmer qu’un domaine est présent. P. falciparum : seulement 1421 domaines distincts dans 50% de ses protéines (Yeast : 2369 domaines dans 76% de ses protéines).

5 Détection par co-occurrence
Principe : Relâcher les seuils de Pfam : plus de détections mais plus de faux positifs. Filtre : co-occurrence de domaines. Fondements : Les domaines apparaissent avec très peu d’autres domaines favoris. Nombre de paires de domaines Pfam observées dans les protéines d’Uniprot : sur ~12,5 millions paires possibles (1,6‰).

6 Détection par co-occurrence
Etablir une liste de paires de domaines fortement co-occurrents (PDFC) La présence de l’un doit être un indice fort pour la présence de l’autre. Construit sur la composition en domaines de toutes les protéines d’Uniprot grâce à un test statistique (Fisher). Pour chaque protéine de P. falciparum : Répertorier ses domaines Interpro connus. Déterminer ses domaines Pfam potentiels (en relâchant les seuils).

7 Détection par co-occurrence
Présence d’un domaine A connu. A

8 Détection par co-occurrence
On détecte un domaine potentiel B. A B?

9 Détection par co-occurrence
La paire (A,B) appartient à la liste des PDFC. A B?

10 Détection par co-occurrence
La paire (A,B) appartient à la liste des PDFC. A B On valide B !

11 Contrôler le taux d’erreur
Validation de nouveaux domaines chez Plasmodium falciparum (H1). Estimation du nombre de domaines que la méthode validerait si tous les domaines potentiels étaient distribués au hasard (H0). Estimation du False Discovery Rate FDR = # domaines validés sous H0 # domaines validés sous H1

12 Résultats FDR ≤10% 10%<… ≤ 20% 20%<… ≤ 30% 284 89 109 76 22 28
Nouveaux domaines 284 89 109 Domaines jamais vus chez Pf. 76 22 28 Nouvelles annotations GO 55 18 29

13 Page Web

14 Page Web

15 Page Web

16 Page Web

17 MERCI DE VOTRE ATTENTION!

18 Contrôler le taux d’erreur
Procédure de shuffling Ensemble de protéines avec leurs domaines connus et potentiels 1 Collecter les domaines potentiels ? ? ? ? ? ? ? ? ? ? 2 4 Assigner aléatoire- ment les domaines aux protéines Itérer et faire la moyenne des résultats FDR Appliquer notre méthode et compter le nombre de validations # erreurs estimées ? # domaines validés ? ? 3 ? ?

19 Contrôler le taux d’erreur
Estimation du nombre de domaines que la méthode validerait si tous les domaines potentiels étaient faux. Mise en place d’une procédure de shuffling: Domaines connus sont fixes. Les domaines potentiels sont redistribués aléatoirement. On applique notre méthode de validation et on compte le nombre de domaines qu’elle valide. On réitère la procédure et on moyenne. Estimation du False Discovery Rate = # erreurs estimées # domaines validés

20 Expérimentations Simulations sur la levure :
Identifier les domaines composants les protéines de S. cerevisae en utilisant les seuils de Pfam. Création de 4 jeux de séquences artificielles de divergence croissante : dérive des séquences protéiques de la levure (programme seqgen). Identification des domaines dans les séquences divergentes : certains domaines sont perdus. Relâchement des seuils de Pfam et application de notre méthode de validation par co-occurrence : retrouve-t-on les domaines perdus? Dernier *: en utilisant comme base de connaissance les domaines encore détectés

21 Expérimentations Simulations sur la levure : 0.1 2407 149 145 134 274
Taux Subst. Dom. Réf. Perte dom. Potent. retrouv. Dom. retrouv. Dom. inédits Estim. FDR Taux nv GO 0.1 2407 149 145 134 274 11.5% 15% 0.25 346 301 265 171 9.2% 7.8% 0.5 907 645 491 60 5.4% 3.1% 0.75 1436 747 501 12 4% 0.3%


Télécharger ppt "Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin"

Présentations similaires


Annonces Google