Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand

Slides:



Advertisements
Présentations similaires
LES NOMBRES PREMIERS ET COMPOSÉS
Advertisements

1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
AUTRES ASPECTS DU GPS Partie I : tolérance de Battement
Licence pro MPCQ : Cours
Distance inter-locuteur
Classification et prédiction
Classification et prédiction
Calculs de complexité d'algorithmes
Répondez à ces quelques questions
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Cest parti ! 4x 28 x 25 Levez la tête ! 3 x 0 x 18.
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Systèmes Experts implémentation en Prolog
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
Estimation de la survie comparaison des courbes de survie FRT C3.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
variable aléatoire Discrète
Initiation à la programmation et algorithmique cours 3
Modèle affine Montage préparé par : André Ross
JACK JEDWAB ASSOCIATION DÉTUDES CANADIENNES MAI 2013 LE DÉCLIN DU FRANÇAIS OU DE LANGLAIS AU QUÉBEC? OPINIONS DU RDC (RESTE DU CANADA)
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
-17 Anticipations économiques en Europe Septembre 2013 Indicateur > +20 Indicateur 0 a +20 Indicateur 0 a -20 Indicateur < -20 Union européenne total:
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
CALENDRIER PLAYBOY 2020 Cliquez pour avancer.
le profil UML en temps réel MARTE
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Classification Multi Source En Intégrant La Texture
2-1 CIRCUITS ÉLECTRIQUES SIMPLES
Présentation générale
Cours de physique générale I Ph 11
Les puissances de 10 - Sommaire
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
1.2 COMPOSANTES DES VECTEURS
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Titre : Implémentation des éléments finis sous Matlab
Les formes normales.
Tableaux de distributions
Tableaux de distributions
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Partie 1: Ondes et Particules.
Mesurer l’intensité du courant électrique
1 Enseigner les mathématiques grâce à lenvironnement Cabri UREM UNIVERSITE LIBRE DE BRUXELLES 18 Avril 2007 Enseigner les mathématiques grâce à lenvironnement.
RACINES CARREES Définition Développer avec la distributivité Produit 1
Journées de Rencontre Jeune Chercheurs
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Les modèles linéaires (Generalized Linear Models, GLM)
1.1 LES VECTEURS GÉOMÉTRIQUES
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Maintenant que tu as compris, on va passer aux exercices Prends une feuille, un stylo, une règle.
2. Théorie de la consommation (demande)
Titre : Implémentation des éléments finis en Matlab
Inéquations du premier degré à une inconnue
SUJET D’ENTRAINEMENT n°4
Sous-espaces vectoriels engendrés
ASI 3 Méthodes numériques pour l’ingénieur
Mise en forme en Mathématiques
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
chapitre -1- OPERATIONS [B] REGLES DE PRIORITE (f n°103) lundi 15 septembre 2014  rappels de 6°  du nouveau en 5°  applications  exercices  Page.
Equation différentielle de 2ème ordre
Les Chiffres Prêts?
Elles avaient envahi le jardin, mais derrière... 1.
Rappels de statistiques descriptives
Partie II: Temps et évolution Energie et mouvements des particules
Transcription de la présentation:

Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand Découverte de e-dépendances fonctionnelles : Application à des données de biopuces Alexandre Aussem, Jean-Marc Petit LIMOS, Clermont-Ferrand BDA 2002, Evry

Plan Les biopuces Les DFs sur des données de biopuces Intérêts Données produites Analyse des données de biopuces Techniques non supervisées classiques Les DFs sur des données de biopuces Relaxation de la satisfaction des DFs Un nouveau problème d’inférence Adaptation d’un cadre conçu pour les DFs Premiers résultats expérimentaux Conclusion et perspectives

Notions de biologie Génome : ensemble de tous les gènes humains Présent dans toute cellule humaine Transcriptome : sous ensemble de gènes actifs dans une cellule, i.e. les gènes qui sont transcrits en ARN messager (ARNm) dans une cellule Expression d‘un gène = transcription du gène en ARNm Protéome : sous ensemble de protéines dans une cellule, i.e. de ARNm qui sont traduits en protéines ARNm pour Acide Ribo Nucléique Cellules acinus : exprime le gène de la trypsine mais pas le gène de l‘insuline

Qu’est qu’une biopuce ? Dispositif pour mesurer le transcriptome d’une cellule Donne les gènes qui s’expriment dans un type cellulaire donné Intérêts des biopuces Permet de mesurer le transcriptome de différents types de cellule Permet de trouver des différences dans le profile d‘expression e.g. trouver des gènes sur ou sous exprimés dans des cellules tumorales vs cellules normales Protocole Le code ADN de différents gènes est synthétisé sur une plaque en verre L‘ARNm issu d‘une cellule spécifique est marqué avec un marqueur fluorescent La biopuce est incubée avec cet ARNm L‘intensité de fluorescence pour chaque gène est mesurée grâce à un scanner laser (proportionnelle à l‘activité du gène dans la cellule) ADN : Acide Desoxyribo Nucléique Révolutionne la façon de travailler des biologistes Mesure du niveau d’expression de milliers de gènes en une seule expérience Perspectives nombreuses Thérapies adaptées à la génétique des patients

Exemple : 8 gènes, 6 expériences YHR051W YKL181W YHR124W YHL020C YGR072W YGR145W YGR218W YGL041C Exp1 0.03 0.33 0.36 -0.01 0.20 0.11 0.24 0.06 Exp2 0.30 -0.20 0.08 -0.43 -1.15 -0.23 0.23 Exp3 0.37 -0.12 0.21 0.22 -1.03 0.12 Exp4 0.38 -0.30 -0.10 -0.36 -0.76 0.04 Exp5 -0.14 0.07 0.00 -0.39 -1.12 0.26 Exp6 -0.07 0.25 -0.42 -0.18 0.19

Les données issues des biopuces Tableaux à 2 dimensions : gènes x expériences Beaucoup de gènes (jusqu’à 30 000) Peu d’expérience (quelques centaines) Valeurs réelles uniquement Données bruitées, comportant des valeurs nulles, peu fiables

Analyse des données de biopuces Peut être vu comme un problème de découverte de connaissance dans les données Quelles techniques de fouille de données utiliser ? Techniques supervisées E.g. prédire le comportement d’un gène avec un arbre de décision Techniques non supervisées E.g. regroupement, règles d’association Ce que souhaite les biologistes ? Très ouverts Les implications entre gènes frappent leur bon sens, e.g. : Si G1 et G3 sont sur exprimés alors G2 l’est aussi

Les problèmes posés pour déterminer des implications Si implication = règles d’association Discrétisation des données Transformation des données dans {0,1} Le nombre de gènes augmentent  Si implication = dépendances fonctionnelles Pas besoin de discrétiser  Hélas, chaque gène est une clé 

Idée de base Considérer les DFs comme une connaissance sur les données Au même titre que les règles d’association … Prendre en compte les caractéristiques des données de biopuces Relaxer la définition de la satisfaction d’une DF => e-DF Adapter un cadre d’inférence au problème de fouille de données sous jacent

Relaxer la définition de la satisfaction d’une DF Rappel : On relaxe l’égalité, on obtient les e-DFs

Exemples avec un seuil à 0.05 G0 G1 G2 G3 G4 G5 G6 G7 Exp1 0.03 0.33 0.36 -0.01 0.20 0.11 0.24 0.06 Exp2 0.30 -0.20 0.08 -0.43 -1.15 -0.23 0.23 Exp3 0.37 -0.12 0.21 0.22 -1.03 0.12 Exp4 0.38 -0.30 -0.10 -0.36 -0.76 0.04 Exp5 -0.14 0.07 0.00 -0.39 -1.12 0.26 Exp6 -0.07 0.25 -0.42 -0.18 0.19 et beaucoup d’autres …

G1 détermine G7 Exp1 Exp2 Exp3 Exp4 Exp5 Exp6 Entre l’expérience 3 et 6, le niveau d’expression de G1 et G7 est le même. Ailleurs, les couples ne vérifient pas la condition

G3, G4 déterminent G5 Exp1 Exp2 Exp3 Exp4 Exp5 Exp6 Entre l’expérience 2 et 5, le niveau d’expression de G3, G4 et G5 est le même. Entre l’expérience 1 et 3, G4 ne varie pas alors que G5 varie Entre l’expérience 3 et 6, G3 ne varie pas alors que G5 varie

Une nouvelle tâche d’inférence « Etant donnés une relation à valeurs réelles r et un seuil e, déterminer les DFs e-satisfaites dans r » Peut on utiliser les techniques développées pour l’inférence des DFs ?

Opérateur de fermeture Soient G un ensemble fini de gènes et r une relation On définit .r+ une application sur P(G) comme : .r+ est un opérateur de fermeture sur P(G) pour r  Bonne nouvelle 

Opérateur de fermeture, fermés et implications Équivalence entre un système de fermeture et des implications Des algorithmes existent pour passer de l’un à l’autre Les ensembles en accord sont inclus dans les fermés Il suffit de calculer ces fermés particuliers puis d’utiliser une technique d’inférence classique les ensembles en accord

Comment calculer une représentation des fermés ? Pour deux tuples t1 et t2, on peut calculer le fermé correspondant, i.e. l’ensemble des gènes qui varient dans la limite du seuil e Pour une relation r, on calcule p(p-1)/2 fermés

Exemple avec un seuil à 0.05 Exemple pour G7 1 0.03 0.33 0.36 -0.01 0.20 0.11 0.24 0.06 2 0.30 -0.20 0.08 -0.43 -1.15 -0.23 0.23 3 0.37 -0.12 0.21 0.22 -1.03 0.12 4 0.38 -0.30 -0.10 -0.36 -0.76 0.04 5 -0.14 0.07 0.00 -0.39 -1.12 0.26 6 -0.07 0.25 -0.42 -0.18 0.19 Agree = { {} {G3} {G4} {G6} {G2,G7} {G3,G4,G5} {G4,G7} {G0} {G1,G3,G7} {G0,G4} } Exemple pour G7 e-DF exclues : {G3,G4,G5} {G6} {G0,G4} e-DF : {G7} {G5,G6} {G4,G6} {G3,G6} {G2} {G1} {G0,G6} {G0,G5} {G0,G3}

Couverture canonique Des ensembles en accord, déduire la plus petite famille génératrice GEN (inf-irréductible) Pour un gène G donné Déterminer les éléments de GEN qui ne contiennent pas G Calculer l’ensemble des parties gauches minimales qui détermine G Exponentiel en le nombre de gènes

Premiers résultats expérimentaux Test sur des données issues du Web Données de la levure Sélection de 180 gènes, 50 expériences Beaucoup de règles de la forme Beaucoup de clés Validation en cours, pas encore de résultats concrets Partenaire : LOM, Laboratoire du centre anti-cancéreux de Clermont-Ferrand Etape difficile liée en partie au domaine traitée

Conclusion et Perspectives Premier bilan A partir d’une nouvelle application Nouvelle mesure de l’interaction des gènes Évite la discrétisation des données Définition d’un nouveau problème de fouille Justification et mise en œuvre d’une technique d’inférence Difficile d’interpréter simplement la K extraite Travail en cours Validation avec des experts Autres définitions de la satisfaction d’une DF pour mieux prendre en compte les besoins des biologistes Classement des règles extraites Perspective principale : modifier la définition de la satisfaction d’une DF pour mieux prendre en compte les interactions entre gènes