Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin

Slides:

Advertisements

Présentations similaires

Introduction aux statistiques Intervalles de confiance

Advertisements

QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS

Corrélation Position du problème Définition covariance (X,Y) r =

Tests et Validation du logiciel

Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.

Risques d’erreur statistique et test statistique

Localisation fine de QTL par déséquilibre de liaison Simon BOITARD Durée : octobre 2003-septembre 2006 Laboratoire : BIA (biométrie et intelligence artificielle)

Test statistique : principe

Reconnaissance de la parole

Reconnaissance Automatique de la Parole

Introduction aux statistiques

Hibou Grand Duc Saison 2008 / Quelques chiffres 147 observations ont été recueillies. 20 personnes ont transmis des données. 61 sites ont été prospectés.

Inférence statistique

Faculté de médecine de Nancy - SPI-EAO - Pr. F. KOHLER

Comparaison de deux pourcentages observés

Tests non paramétriques

Tests de comparaison de pourcentages

Nombre de sujets nécessaires en recherche clinique

Les tests statistiques. Une situation à risques

3. Analyse et estimation du mouvement dans la vidéo

Colloque Traitement et Analyse de séquences : compte-rendu

Analyse et diagnostic Développement d’Outils

Reconnaissance de la parole

1 Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV.

DEA instrumentation et commande

Tests de comparaison de moyennes

Cycle de vie dun logiciel Origine des erreurs La spécification 50% 40% 10% Le design Le codage.

Modélisation de déclenchement d’avalanche par réseaux de neurones

Filtrage-Analyse Spectrale des Images

21/10/2010 AG Fédération MIRA 1. Marc Artzrouni Laurent Bordes 5 PR (dont 2 dans MIRA) Edurne Biritxinaga-Etchart Noëlle BRU 10 MC (dont 2 dans MIRA)

DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,

Régression linéaire simple

Faculté de Médecine Lyon-Sud Module Optionnel de préparation à la lecture critique d ’articles Interprétation des tests statistiques.

Corrélation et régression linéaire simple

Reconnaissance Vocale

Corrélation Principe fondamental d’une analyse de corrélation

Compléter une équation chimique

LES ERREURS DE PRÉVISION e t = X t - P t X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6…X1X2X3X4 X5 X6… P5P6P5P6P5P6P5P6 e5e6e5e6e5e6e5e6.

1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.

Diagnostic utilisant les tests d’hypothèses structurés.

Travaux de thèse de Julien FRANCOIS

Objectifs du chapitre 8: Puissance statistique

Prédiction d’interactions protéine-protéine

Problèmes inverses en électroencéphalographie

Lien entre alpha et bêta

La régression multiple

Recherche heuristique dans les bases de données L’algorithme BLAST

Découverte de correspondances entre ontologies distribuées

printemps des sciences

Etienne Danchin & Amandine Campan Présentation interne, pôle Santé des Plantes, Sophia - Antipolis Mercredi 21 avril 2010 Grille PACA ProActive : retour.

Régression linéaire multiple : hypothèses & interprétation

LRI-INRIA Saclay LRI- UMR CNRS Univ Paris-Sud et UR-INRIA Saclay 12 Equipes au LRI - 7 projets INRIA Equipe IASI-GEMO (IA et BD) « Gestion de données et.

ANALYSE DES DISPOSITIFS D ’ EVALUATION ET DE LEUR EMPLOI DANS LA GOUVERNANCE DES SYSTEMES EDUCATIFS DE DOUZE PAYS DE LA C ONFEMEN D AKAR, 20 & 21 MAI 2014.

Théorème de la limite centrale l’inférence statistique

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Point méthodologie: méthode capture-recapture

Réunion MODULOME 28/05/2008 Christine ROUSSEAU L'analyse des CRISPR et des gènes associés comme répétitions locales et voisine MODULOME.

RAISONNEMENT À PARTIR DE CAS R à PC. PLAN DU TRAVAIL Introduction Introduction Raisonnement analogique Raisonnement analogique Principe et étapes de R.

Réunion MODULOME 15/10/2007 Christine ROUSSEAU Recherche des CRISPRs : Résultats MODULOME.

20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.

Projet GenoTo3D Apprentissage automatique appliqué à la prédiction de la structure tertiaire des protéines GenoTo3D Guermeur Y 1, Benabdelsem K 2, Bréhélin.

Recherche heuristique dans les bases de données L’algorithme BLAST

Un segment peut contenir plusieurs gènes les gènes sont nombreux et/ou en interaction leurs effets sont inégaux et instables les mutations se fixent séquentiellement.

Échantillonnage (STT-2000)

Aide mémoire Il existe une droite et une seule qui passe par deux points distincts.

Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.

CHMI 4206 Bioinformatique appliquée

Introduction aux statistiques Intervalles de confiance

Jean Gaudart1 Détection de clusters spatiaux d'évènements Jean Gaudart Labo. Biostatistiques Faculté de Médecine de Marseille.

Transcription de la présentation:

Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Par domaines protéiques on entend les sous unités structurales des protéines Nicolas Terrapon Olivier Gascuel 26/03/2017 Laurent Bréhélin

Problématique Prédire la composition en domaines des protéines de Plasmodium falciparum. Les domaines sont les unités structurelles et fonctionnelles des protéines. Différentes techniques existantes : BLAST, modélisation déterministe ou probabiliste.

Bases de données Interpro [Mulder 07] Centralise les informations issus de 10 bases :

[Bateman 08] Hidden Markov Models (HMMs) : outils puissants pour la détection de domaines. 10 340 modèles de domaines. Certains domaines annotés dans la GO. Seuils permettant d’affirmer qu’un domaine est présent. P. falciparum : seulement 1421 domaines distincts dans 50% de ses protéines (Yeast : 2369 domaines dans 76% de ses protéines).

Détection par co-occurrence Principe : Relâcher les seuils de Pfam : plus de détections mais plus de faux positifs. Filtre : co-occurrence de domaines. Fondements : Les domaines apparaissent avec très peu d’autres domaines favoris. Nombre de paires de domaines Pfam observées dans les protéines d’Uniprot : 20 000 sur ~12,5 millions paires possibles (1,6‰).

Détection par co-occurrence Etablir une liste de paires de domaines fortement co-occurrents (PDFC) La présence de l’un doit être un indice fort pour la présence de l’autre. Construit sur la composition en domaines de toutes les protéines d’Uniprot grâce à un test statistique (Fisher). Pour chaque protéine de P. falciparum : Répertorier ses domaines Interpro connus. Déterminer ses domaines Pfam potentiels (en relâchant les seuils).

Détection par co-occurrence Présence d’un domaine A connu. A

Détection par co-occurrence On détecte un domaine potentiel B. A B?

Détection par co-occurrence La paire (A,B) appartient à la liste des PDFC. A B?

Détection par co-occurrence La paire (A,B) appartient à la liste des PDFC. A B On valide B !

Contrôler le taux d’erreur Validation de nouveaux domaines chez Plasmodium falciparum (H1). Estimation du nombre de domaines que la méthode validerait si tous les domaines potentiels étaient distribués au hasard (H0). Estimation du False Discovery Rate FDR = # domaines validés sous H0 # domaines validés sous H1

Résultats FDR ≤10% 10%<… ≤ 20% 20%<… ≤ 30% 284 89 109 76 22 28 Nouveaux domaines 284 89 109 Domaines jamais vus chez Pf. 76 22 28 Nouvelles annotations GO 55 18 29

Page Web

Page Web

Page Web

Page Web

MERCI DE VOTRE ATTENTION!

Contrôler le taux d’erreur Procédure de shuffling Ensemble de protéines avec leurs domaines connus et potentiels 1 Collecter les domaines potentiels ? ? ? ? ? ? ? ? ? ? 2 4 Assigner aléatoire- ment les domaines aux protéines Itérer et faire la moyenne des résultats FDR Appliquer notre méthode et compter le nombre de validations # erreurs estimées ? # domaines validés ? ? 3 ? ?

Contrôler le taux d’erreur Estimation du nombre de domaines que la méthode validerait si tous les domaines potentiels étaient faux. Mise en place d’une procédure de shuffling: Domaines connus sont fixes. Les domaines potentiels sont redistribués aléatoirement. On applique notre méthode de validation et on compte le nombre de domaines qu’elle valide. On réitère la procédure et on moyenne. Estimation du False Discovery Rate = # erreurs estimées # domaines validés

Expérimentations Simulations sur la levure : Identifier les domaines composants les protéines de S. cerevisae en utilisant les seuils de Pfam. Création de 4 jeux de séquences artificielles de divergence croissante : dérive des séquences protéiques de la levure (programme seqgen). Identification des domaines dans les séquences divergentes : certains domaines sont perdus. Relâchement des seuils de Pfam et application de notre méthode de validation par co-occurrence : retrouve-t-on les domaines perdus? Dernier *: en utilisant comme base de connaissance les domaines encore détectés

Expérimentations Simulations sur la levure : 0.1 2407 149 145 134 274 Taux Subst. Dom. Réf. Perte dom. Potent. retrouv. Dom. retrouv. Dom. inédits Estim. FDR Taux nv GO 0.1 2407 149 145 134 274 11.5% 15% 0.25 346 301 265 171 9.2% 7.8% 0.5 907 645 491 60 5.4% 3.1% 0.75 1436 747 501 12 4% 0.3%