Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin

Slides:



Advertisements
Présentations similaires
Introduction aux statistiques Intervalles de confiance
Advertisements

QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Corrélation Position du problème Définition covariance (X,Y) r =
Tests et Validation du logiciel
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Risques d’erreur statistique et test statistique
Localisation fine de QTL par déséquilibre de liaison Simon BOITARD Durée : octobre 2003-septembre 2006 Laboratoire : BIA (biométrie et intelligence artificielle)
Test statistique : principe
Reconnaissance de la parole
Reconnaissance Automatique de la Parole
Introduction aux statistiques
Hibou Grand Duc Saison 2008 / Quelques chiffres 147 observations ont été recueillies. 20 personnes ont transmis des données. 61 sites ont été prospectés.
Inférence statistique
Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER
Comparaison de deux pourcentages observés
Tests non paramétriques
Tests de comparaison de pourcentages
Nombre de sujets nécessaires en recherche clinique
Les tests statistiques. Une situation à risques
3. Analyse et estimation du mouvement dans la vidéo
Colloque Traitement et Analyse de séquences : compte-rendu
Analyse et diagnostic Développement d’Outils
Reconnaissance de la parole
1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.
DEA instrumentation et commande
Tests de comparaison de moyennes
Cycle de vie dun logiciel Origine des erreurs La spécification 50% 40% 10% Le design Le codage.
Modélisation de déclenchement d’avalanche par réseaux de neurones
Filtrage-Analyse Spectrale des Images
21/10/2010 AG Fédération MIRA 1. Marc Artzrouni Laurent Bordes 5 PR (dont 2 dans MIRA) Edurne Biritxinaga-Etchart Noëlle BRU 10 MC (dont 2 dans MIRA)
DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,
Régression linéaire simple
Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d ’articles Interprétation des tests statistiques.
Corrélation et régression linéaire simple
Reconnaissance Vocale
Corrélation Principe fondamental d’une analyse de corrélation
Compléter une équation chimique
LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
Diagnostic utilisant les tests d’hypothèses structurés.
Travaux de thèse de Julien FRANCOIS
Objectifs du chapitre 8: Puissance statistique
Prédiction d’interactions protéine-protéine
Problèmes inverses en électroencéphalographie
Lien entre alpha et bêta
La régression multiple
Recherche heuristique dans les bases de données L’algorithme BLAST
Découverte de correspondances entre ontologies distribuées
printemps des sciences
Etienne Danchin & Amandine Campan Présentation interne, pôle Santé des Plantes, Sophia - Antipolis Mercredi 21 avril 2010 Grille PACA ProActive : retour.
Régression linéaire multiple : hypothèses & interprétation
LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.
ANALYSE DES DISPOSITIFS D ’ EVALUATION ET DE LEUR EMPLOI DANS LA GOUVERNANCE DES SYSTEMES EDUCATIFS DE DOUZE PAYS DE LA C ONFEMEN D AKAR, 20 & 21 MAI 2014.
Théorème de la limite centrale l’inférence statistique
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Point méthodologie: méthode capture-recapture
Réunion MODULOME 28/05/2008 Christine ROUSSEAU L'analyse des CRISPR et des gènes associés comme répétitions locales et voisine MODULOME.
RAISONNEMENT À PARTIR DE CAS R à PC. PLAN DU TRAVAIL Introduction Introduction Raisonnement analogique Raisonnement analogique Principe et étapes de R.
Réunion MODULOME 15/10/2007 Christine ROUSSEAU Recherche des CRISPRs : Résultats MODULOME.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Projet GenoTo3D Apprentissage automatique appliqué à la prédiction de la structure tertiaire des protéines GenoTo3D Guermeur Y 1, Benabdelsem K 2, Bréhélin.
Recherche heuristique dans les bases de données L’algorithme BLAST
Un segment peut contenir plusieurs gènes les gènes sont nombreux et/ou en interaction leurs effets sont inégaux et instables les mutations se fixent séquentiellement.
Échantillonnage (STT-2000)
Aide mémoire Il existe une droite et une seule qui passe par deux points distincts.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
CHMI 4206 Bioinformatique appliquée
Introduction aux statistiques Intervalles de confiance
Jean Gaudart1 Détection de clusters spatiaux d'évènements Jean Gaudart Labo. Biostatistiques Faculté de Médecine de Marseille.
Transcription de la présentation:

Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Par domaines protéiques on entend les sous unités structurales des protéines Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin

Problématique Prédire la composition en domaines des protéines de Plasmodium falciparum. Les domaines sont les unités structurelles et fonctionnelles des protéines. Différentes techniques existantes : BLAST, modélisation déterministe ou probabiliste.

Bases de données Interpro [Mulder 07] Centralise les informations issus de 10 bases :

[Bateman 08] Hidden Markov Models (HMMs) : outils puissants pour la détection de domaines. 10 340 modèles de domaines. Certains domaines annotés dans la GO. Seuils permettant d’affirmer qu’un domaine est présent. P. falciparum : seulement 1421 domaines distincts dans 50% de ses protéines (Yeast : 2369 domaines dans 76% de ses protéines).

Détection par co-occurrence Principe : Relâcher les seuils de Pfam : plus de détections mais plus de faux positifs. Filtre : co-occurrence de domaines. Fondements : Les domaines apparaissent avec très peu d’autres domaines favoris. Nombre de paires de domaines Pfam observées dans les protéines d’Uniprot : 20 000 sur ~12,5 millions paires possibles (1,6‰).

Détection par co-occurrence Etablir une liste de paires de domaines fortement co-occurrents (PDFC) La présence de l’un doit être un indice fort pour la présence de l’autre. Construit sur la composition en domaines de toutes les protéines d’Uniprot grâce à un test statistique (Fisher). Pour chaque protéine de P. falciparum : Répertorier ses domaines Interpro connus. Déterminer ses domaines Pfam potentiels (en relâchant les seuils).

Détection par co-occurrence Présence d’un domaine A connu. A

Détection par co-occurrence On détecte un domaine potentiel B. A B?

Détection par co-occurrence La paire (A,B) appartient à la liste des PDFC. A B?

Détection par co-occurrence La paire (A,B) appartient à la liste des PDFC. A B On valide B !

Contrôler le taux d’erreur Validation de nouveaux domaines chez Plasmodium falciparum (H1). Estimation du nombre de domaines que la méthode validerait si tous les domaines potentiels étaient distribués au hasard (H0). Estimation du False Discovery Rate FDR = # domaines validés sous H0 # domaines validés sous H1

Résultats FDR ≤10% 10%<… ≤ 20% 20%<… ≤ 30% 284 89 109 76 22 28 Nouveaux domaines 284 89 109 Domaines jamais vus chez Pf. 76 22 28 Nouvelles annotations GO 55 18 29

Page Web

Page Web

Page Web

Page Web

MERCI DE VOTRE ATTENTION!

Contrôler le taux d’erreur Procédure de shuffling Ensemble de protéines avec leurs domaines connus et potentiels 1 Collecter les domaines potentiels ? ? ? ? ? ? ? ? ? ? 2 4 Assigner aléatoire- ment les domaines aux protéines Itérer et faire la moyenne des résultats FDR Appliquer notre méthode et compter le nombre de validations # erreurs estimées ? # domaines validés ? ? 3 ? ?

Contrôler le taux d’erreur Estimation du nombre de domaines que la méthode validerait si tous les domaines potentiels étaient faux. Mise en place d’une procédure de shuffling: Domaines connus sont fixes. Les domaines potentiels sont redistribués aléatoirement. On applique notre méthode de validation et on compte le nombre de domaines qu’elle valide. On réitère la procédure et on moyenne. Estimation du False Discovery Rate = # erreurs estimées # domaines validés

Expérimentations Simulations sur la levure : Identifier les domaines composants les protéines de S. cerevisae en utilisant les seuils de Pfam. Création de 4 jeux de séquences artificielles de divergence croissante : dérive des séquences protéiques de la levure (programme seqgen). Identification des domaines dans les séquences divergentes : certains domaines sont perdus. Relâchement des seuils de Pfam et application de notre méthode de validation par co-occurrence : retrouve-t-on les domaines perdus? Dernier *: en utilisant comme base de connaissance les domaines encore détectés

Expérimentations Simulations sur la levure : 0.1 2407 149 145 134 274 Taux Subst. Dom. Réf. Perte dom. Potent. retrouv. Dom. retrouv. Dom. inédits Estim. FDR Taux nv GO 0.1 2407 149 145 134 274 11.5% 15% 0.25 346 301 265 171 9.2% 7.8% 0.5 907 645 491 60 5.4% 3.1% 0.75 1436 747 501 12 4% 0.3%