La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 CIB : Centre Intégré de Bioinformatique E-G. Talbi CIB – Génopole de Lille.

Présentations similaires


Présentation au sujet: "1 CIB : Centre Intégré de Bioinformatique E-G. Talbi CIB – Génopole de Lille."— Transcription de la présentation:

1 1 CIB : Centre Intégré de Bioinformatique E-G. Talbi CIB – Génopole de Lille

2 2 Maladies multi-factorielles Plate-formes

3 3 Qui : - Comité pilotage : E-G. Talbi, C. Dhaenens, R. Beuscart - Ingénieurs : J. Soula, V. Cognat, B. Planquelle, M-P. Vanhoecke - Support logistique et scientifique du LIFL et du CERIM Bi-localisation : - LIFL – USTL - CERIM - Services à la Faculté de Médecine Institutions USTL - Lille2 - CNRS CIB : Plateforme Bioinformatique Travaux réalisés :

4 4 Plan présentation Organisation matérielle Formation, Service CIB – Séquencage & génotypage CIB – Protéomique CIB - Transcriptome

5 5 Architecture du réseau Firewall Zone sécurisée (Créé « from scratch ») - Cluster de 2 Quadriprocesseurs ALPHA Unix Tru 64 (4*667Mhz), - Espace de Stockage de 432 Giga Byte (RAID 1 et RAID 5) - SGBD Oracle 8i (134 utilisateurss) Renater network access 12 Mbits/s Serveur web

6 6 Réseau physique Autre machine utilisée : IBM SP3 au CRI (64 proc) – Intelligent Miner

7 7 Formations Formations générales Bioinformatique (CIB – CNRS) Autour du Web – 1 jour - 13 personnes UNIX / Réseau – 2 jours - 18 personnes Banque de données – 2 jours - 31 personnes Base de données – 2 jours - 15 personnes Analyse de séquences – 2 jours - 26 personnes Phylogénie – 2 jours - 18 personnes Enseignement DESS Bioinformatique (Depuis 2001) Encadrement de stagières (Ingénieurs, DESS, Maitrise, DEA, …)

8 8 Analyse statistiques de données issues des biopuces 10 au 12 septembre 2003 Objectifs de la formation : donner aux biologistes les bases suffisantes en statistiques pour comprendre et appréhender les différentes méthodes danalyse des données de biopuces. Les aider dans la mise en place dun protocole danalyse des données. Public visé : biologistes lillois utilisant la technologie des puces à ADN Programme : Alternance Cours / TP - Représentation et Normalisation des données - Analyse différentielle des données - Classification supervisée et non supervisée Formateurs : - Jacques Van Helden, Université Libre de Bruxelles - Stéphane Robin, OMIM - INA-PG de Versailles - Cyrille Dalmasso, INSERM - Villejuif Nombre de participants : - 27 inscrits en cours - 17 inscrits en TP Formation spécifique (CIB – CNRS – INSERM)

9 9 Mise à disposition doutils Base de données : Human Genome Data Base (online) : Santa Cruz (CA) Ensembl Gene Ontology Logiciels : 180 Open Source Software (online) : alignement, phylogeny, sequence analysis, … Site Web : Outil de communication et déchanges : forum de discussion, listes de diffusion, serveur ftp, newgroups,

10 10 Coopération entre plateformes Bioinformatique Protéomique Transcriptome Séquençage et génotypage Sélection dattributs et Clustering : Recherche de facteurs de prédisposition de maladie multifactorielles (obésité, diabètes de type II). LGMM (Lab. Génétique des Maladies Multifactorielles), IBL – P. Froguel, S. Gallina

11 11 Contexte : Etudes familiales Analyses dinteraction : co-transmission de gènes Objectif Localiser un ou plusieurs gènes de prédisposition à certaines maladies : diabète ou obésité Données : Pour chaque famille : comparaison de lhéritage de gènes (marqueurs) et de facteurs environnementaux 3652 marqueurs génétiques et 2 facteurs environnementaux pour une centaine dindividus Interactions génétiques et environnementales

12 12 Hypothèses : Beaucoup dattributs (loci et facteurs environnementaux) Existence de valeurs manquantes Contexte dapprentissage non supervisé Objectif : Découvrir des groupes dattributs cause de la maladie ( corrélations entre attributs ) Groupe 1 : loci 1 et loci 20 et loci 50 Groupe 2 : loci 17 et loci 43 et loci 75 Interactions génétiques et environnementales

13 13 Selection dattributs Clustering N attributs Groupes m attributs N >> m Réalisation Algorithme génétique K-mean ou algorithme génétique Approche 2 phases

14 14 Chapitre douvrage : L. Jourdan, C. Dhaenens, E-G. Talbi, "Discovery of genetic and environmental interactions in disease data using evolutionary computation", Evolutionary Computation in Bioinformatics, Edited by G. B. Fogel and D. W. Corne, Morgan Kauffmann Publishers, USA, Journaux : L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, A data mining approach to discover genetic and environmental factors involved in multi-factorial diseases, Knowledge-based Systems, Vol.15, No.4, pp , May Conférences : L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, "A branch and bound procedure to analyze multifactorial diseases", European Mathematical Genetics Meeting EMGM2001, Lille, April L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, An optimization approach to mine genetic data, Int. Conf. On Mathematics and Engineering Techniques in Medecine and Biological Sciences METMBS2001, Edited by F. Valafar, Las-Vegas, USA, June Publications

15 15 Coopération entre plateformes Bioinformatique Protéomique Transcriptome Règles dassociation : Etude de déséquilibre de liaison (linkage desequilibrium ) LGMM (Lab. Génétique des Maladies Multifactorielles), IBL – P. Froguel, C. Dina Séquençage et génotypage

16 16 Objectif : Trouver des ensembles dhaplotypes pouvant expliquer le diabète de type II Données : Pour chaque individu : La valeur de ces SNPs et son statut Pour chaque SNP: fréquence allélique Pour chaque combinaison de SNPs: leur déséquilibre Contraintes : Snips dun haplotype doivent être indépendants : Différence de fréquence < threshold1. Linkage disequilibrium > threshold2. Etude de linkage disequilibrium

17 17 Méthode de recherche : Algorithme génétique adaptatif multi- population Fonction dévaluation spécifique basée sur deux logiciels classiques : CLUMP et EH-DIALL Résultat Règles telles que : SNP 10 =1-2 ET SNP 20 =2-2 ALORS Status=ill SNP 17 =1-1 ET SNP 45 =2-2 ALORS Status=ill Publication L. Jourdan, C. Dhaenens, E-G. Talbi, Discovering haplotypes in linkage disequilibrium mapping with an adaptive genetic algorithm, EvoBio2003, EuroGP2003, LNCS 2611, pp , Approche

18 18 Coopération entre plateformes Bioinformatique Protéomique Transcriptome Séquençage et génotypage Classification : Analyses de spectres (glycannes, proteines) Centre Commun de Spectrométrie de Masse – J. Lemoine, C. Rollando.

19 19 Analyse de spectres Reconstruction de larbre du glycanne à partir dun spectre Haut débit : 80 Go/mois de nouvelles données Gel 2D (Electrophorèses) Spectrum Interprétation de spectres de glycannes

20 20 Intégration contraintes biologiques Utilisation dévaluations heuristiques Besoin de paralléliser et distribuer lalgorithme Utilisation support dexécution sur GRILLES Moteur dinterprétation Recherche Combinatoire: coûteux en temps et espace Données incertaines Nombreuses solutions théoriques Algorithme Branch and Bound Brevet déposé

21 21 BD spectres de glycannes Relation avec banque de données publiques (internet) Interface de visualisation et Edition Moteur dinterprétation Plateforme visuelle pour linterprétation de glycannes Disponible sur demande

22 22 Coopération entre plateformes Bioinformatique Protéomique Transcriptome Séquençage et génotypage Base de données : Gels bidimentionnels Laboratoire de Biologie du Développement (CNRS) – H. Hondermarck,

23 23 Banque de Gels Bidimensionnels publiées dans la littérature donnant accès à Données « Publiques » Données « Privées » propres à chaque équipe et confidentielles pour les équipes de la génopole ET pour des équipes extérieures accès sécuriséaccès publique Gels Bi-dimensionnels Objectif Mettre en place une plate-forme permettant de stocker et dexploiter la masse de données disponibles

24 24 Pour chaque gel, on dispose donc : dune ou plusieurs images de listes des spots (rapports) de spectres de masses (identification, séquençage des protéines) Gels Bi-dimensionnels Nature des données

25 25 Base de données associée : MySQL, Interface PHP Contrôle/sécurisation des accès aux informations (contraintes base publiques/privées) : Utilise lannuaire LDAP de la génopole Outils permettant deffectuer des recherche à partir des données stockées Formulaires daffichage et dajout/modification dinformations : images de gel, listes des spots, carte didentité des protéines, spectre de masse, … Gels Bi-dimensionnels Réalisations

26 26 Gels Bi-dimensionnels Interface Disponibilité :

27 27 Gels Bi-dimensionnels Formulaire affichage

28 28 Coopération entre plateformes Bioinformatique Protéomique Transcriptome Séquençage et génotypage Classification visualisation du protéome : DIACELL Laboratoire de Biologie du Développement – H. Hondermarck.

29 29 Visualisateur DIACELL Trois types de cellules (cancer du sein) Normales Cancéreuses non métastasiques (MCF-7) Cancéreuses métastasiques (MDA-MB-231) 3 types de visualisation Projection 2D Enveloppe convexe Projection 3D

30 30 Recherche de lenveloppe convexe (données non précises) 2D 3D

31 31 Coopération entre plateformes Bioinformatics Protéomique Transcriptome Séquençage et génotypage GdlArray : Base de données, outils de design de puces et outils danalyse de données (datamining) 2 plateformes de biopuces : Institut Pasteur de Lille, Lille 2 (INSERM, CHR)

32 32 GdLarray Bases de données régionales pour les biopuces et sa suite logicielle

33 33 Plateforme Biopuces Base de données Biopuces GdLarray Sélection de Clones XX-Frag Sélection doligos 1. Sélection des sondes 2. Design des expériences Matériel biologique & puces (contrôle du schéma de spottage) Imagene Jaguar Outils du CIB 3. Traitement des données (normalisation, …) Bases de données médicales Base de données Publiques (NCBI, EMBL, …) Fonctions, annotations, bibliographie Pathway Genespring 4. DATA MINING (clustering, règles XW-Apriori, …)

34 34 Etudes des recommandations MIAME (Mars 2002) Ebauche dun schéma conceptuel en réponse aux besoins des équipes de la Génopole (Mai 2002) Adaptation de la plateforme BASE (MySQL, PHP, normalisation, clustering, visualisation) sous Oracle 8i (version en Mars 2003 / version en Septembre 2003) Formation des biologistes à son utilisation : octobre 2003 Création de la Base de données Etapes du projet

35 35 Création de la Base de données Étude des données et du schéma

36 36 Deux modes dadministration En mode graphique : TORA (ToolKit for Oracle) – GNU GPL En mode ligne : Scripts shell/SQL Gestion des utilisateurs (sécurité, confidentialité) Par le mécanisme de rôles Oracle Création de la Base de données Développement doutils dadministration CLUSTER 2 quadri processeurs ES40 Alpha Oracle 8i Entreprises Plusieurs unités de disques en RAID1 et 5 Architecture 3-tiers

37 37 La base est accessible sur le site web de la Génopole :

38 38 Outils de design de puces Sélection de sondes : XXfrag Sélection de clônes Sélection doligos Sélection de primers : FindExpress Outil de positionnement des sondes

39 39 Sélection de sondes - XXfrag Ce programme permet de : Récupérer des fragments appartenant aux régions dintérêt du génome(chromosome, bras). Choisir les fragments selon le type de puce que l´on désire créer (cDNA, génomique..). Sélectionner ces fragments selon leur taille, la distance entre chacun ou leur nombre. Vérifier la spécificité des fragments sélectionnés afin d´éviter les hybridations croisées. XXfrag : Design de fragments dADNc le long des chromosomes du génome Humain Application à lHybridation Génomique Comparative (CGH) (INSERM, CHR)

40 40 Sélection de sondes - XXfrag Publication : C. Hubans, J-P. Kerkaert, M-P. Vanhoecke, XX_FRAG : Design of cDNA sequences for microarrays-application to CGH, ECCB2002 European Conference on Computational Biology, Saarbrucken, Germany, Oct 2002

41 41 Sélection de clones : Sélection de clones dintérêt dans la banque du CNS – Application à la maladie dAlzheimer (IPL) Principe : la sélection de clones spécifiques est basée sur la recherche de similarité (BLAST) entre les séquences de clones et les séquences des loci dintérêt. Programme : Entrée : liste des identifiants de loci dans LocusLink Choix des paramètres : - paramètres de Blast - seuil de similarité - seuil de spécificité Programmes complémentaires : -Recherche de similarité entre loci -Annotation des séquences choisies à partir des données fonctionnelles issues de Gene Ontology Sélection de clones

42 42 Sélection des clones : BLAST des séquences de clones contre la banque de loci (seuil de similarité de 50%) Annotation des clones par le CNS Clone-ORFs pair (A) Loci dintérêt Détermination des couples Clone-ORFs (B) Couples Clone-ORFs trouvés par BLAST (B) Couples Clone-ORFs communs CNS+BLAST (A) + (B) Couples Clone-ORFs trouvés uniquement dans le fichier dannotation du CNS (A) BLAST sans seuil de similarité Couples Clone-ORFs trouvés par BLAST Couples Clone-ORFs non trouvés Spécificité : BLAST entre les séquences de clones sélectionnés et les séquences dARNm humains (Seuil de similarité à 30%) Couples Clone-ORFs spécifiques Couples Clone-ORFs non spécifiques

43 43 Sélection de clones Publication : Lambert JC, Testa T, Cognat V, Soula J, Hot D, Lemoine Y, Gaypay G, Amouyel P., Interest and limitation of public databases for microarray design: a critical approach of gene predictions The Pharmacogenomics Journal, in press.

44 44 Sélection doligos : Aide à la sélection doligo chez Qiagen et MWG – Application à la maladie dAlzheimer (IPL) Principe : les oligos dintérêts sont sélectionnés dans la liste doligo de fournisseurs (Qiagen & MWG) à partir dune liste didentifiants de loci LocusLink ou de séquences Refseq et/ou Genbank Sélection doligos

45 45 FindExpress : Sélection de primers (octamères) dans des amplicons (Laboratoire des Biopuces – IPL) Objectifs : Recherche dun minimum doctamères - spécifiques aux régions amplifiées par PCR - ne matchant pas lADN ribosomique - Couvrant tous les amplicons Primers PCR Recherche des amplicons Recherche de tous les octamères Oter ceux matchant ADN ribosomique Recherche du minimum doctamères permettant de recouvrir tous les amplicons Gènes Sélection de primers - FindExpress

46 46 Outil pour le positionnement des sondes : - Laboratoire des Biopuces - IPL Cet outil permet : 1. De visualiser le positionnement des sondes sur la puce à partir du schéma des microplaques et des paramètres de spotting 2. De définir le contenu des microplaques à partir du schéma voulu de la puce (position spécifique de sondes et paramètres de spotting) Outil développé en java. Installation locale dans les laboratoires Robot étudié : GMS 417 Affymetrix Outil de positionnement des sondes

47 47 i j u Lame Micro plaque Le Robot prend les gènes dans les puits de la microplaque et les dépose sur la lame. on veut prévoir ou fixer davance la position de certains gènes sur la lame Contrôle du schéma de spottage Positionnement du problème

48 48 Placement de gènes à des points particuliers Calcul de la microplaque associée au schéma Aide au design de puces Fonctionnalités

49 49 Traitement et analyse de données Normalisation Extraction des connaissances (Data mining) Clustering Règles dassociation

50 50 Liens vers des outils de Normalisation disponibles sur le web à partir du site de la génopole Développement dun outil permettant : Correction des données Plusieurs méthodes de normalisation : (Régression linéaire uniforme, Lowess, Normalisation de Chen, Newton, Chursap) Représentation graphique Normalisation par secteur Analyse des réplicats (lame, spots) Utilisation de R (Outil Statistique présentant un module « statistiques pour biopuces ») Développement dune interface graphique Normalisation des données

51 51 Données dentrées Interface Graphique 1. Saisie des données et choix de la méthode Méthodes de Clustering 2. envoi des données pour méthode choisie 3. Envoi résultats Du clustering Résultats 6. Envoi dun fichier de résultats à lutilisateur 4. envoi des données et résultats pour exécution analyse statistique Analyses Statistiques 5. envoi des résultats statistiques pour affichage Bibliothèque de clustering Schéma général Méthodes développées : Algorithmes évolutionnaires, hiérarchiques, partitionnement, …

52 52 Décrire le clustering obtenu et juger sa qualité Analyse de fréquence Analyse fréquences globales sur les données dentrée. Analyse de fréquences relativement à chaque Cluster. Analyse de la variance Sapplique aux variables numériques. Mesure linfluence du Clustering sur cette variable. Inertie intra Clusters Mesure la compacités des clusters. Inertie inter Clusters Mesure la séparation des clusters Bibliothèque de clustering Analyses statistiques

53 53 Browse... Bibliothèque de clustering Application internet

54 54 Règles dassociation

55 55 Généralité de lapproche Données dexpression souvent traitées par classification/clustering Mais 3 inconvénients majeurs: 1.Un gène participants à plusieurs relations sera classé dans un et un seul groupe 2.Impossible de mettre en évidence des relations entre gènes appartenant à un même groupe 3.Classification effectuée par rapport à lensemble des conditions expérimentales Les règles dassociation permettent de dépasser ces inconvénients

56 56 Les règles dassociation Objectif : Découvrir des motifs, corrélations, à partir densembles ditems (attributs) contenus dans des bases de données. Forme : if C then P C (Condition) = terme 1 et terme 2 et… et terme n P (Conséquence) = terme n+1 terme i = 2 mesures principales % de transactions qui contiennent simultanément C et P Support(C) P)Support(C& C C&P R)Confiance(

57 57 Problématique(s) Règles dassociation peuvent fournir différents résultats Traitement Expression de certains gènes Tr1 {Gène A, Gène B } [Creighton - Hanash, 03] Relations entre gènes (cas général) {Gène A, Gène B, Gène C } Gène D [Kotala et al, 01] Relations entre gènes (pour certaines situations) [Becquet et al, 02] {(Gène A, Gène B ) dans situation y} Gène D dans situation y Comportement de gènes Caractéristiques fonctionnelles Caractéristiques structurelles {Gène dans situation y} Fonction X[OPAC, IT-Omics, 03]

58 58 Approches de résolution Problème combinatoire de grande taille Méthodes exactes Approches heuristiques Problèmes de petites tailles Problèmes de grandes tailles Enumération intelligente Algorithme Apriori Heuristiques dédiées Métaheuristiques Intégration des deux approches au sein du CIB (parallèle, grid computing) nombre dattributs

59 59 Partenaires : LIFL – Lille, Prism – Versailles, ID-IMAG - Grenoble Projet ACI Projet ACI-GRID ( ) : « Challenges en Optimisation combinatoire sur Grilles de machines »

60 60 Objectif : repousser les limites quant à la taille des problèmes traités (GRID computing) Eclat [Zaki95] – Version améliorée Pas besoin de re-parcourir la base de données à chaque étape Pas besoin de faire plusieurs passes sur la base de données Variante plus efficace Exploitation verticale de la base Découpage de la base de données en partitions indépendantes sur la base de la notion de préfixe XW-Apriori Développement dApriori sur XtremWeb

61 61 Calcul distribué pair à pair (peer to peer, Grid computing) Modèle de vol de cycles Support sécurisé (Sandbox, SSL, Coordinator authentication) Indépendant du système dexploitation (Linux, Windows, MacOS) Tolérance aux pannes (Sauvegarde / restauration des applications) Migration de fichiers binaires Ordonnancement dynamique des tâches XW-Apriori XtremWeb - Caractéristiques

62 62 Un ensemble de machines exécutant des démons XtremWeb Un serveur Plusieurs workers volontaires pour lexécution de tâches Un ensemble de clients pouvant soumettre des tâches au serveur Worker Client Internet Server XtremWeb network Hôtes répartis sur Internet XW-Apriori XtremWeb - Architecture

63 63

64 64 Publications (Parallélisme / Grid computing pour la génomique) E-G. Talbi, C. Dhaenens, N. Melab, S. Cahon, Towards grid data mining : Application for genomics, 1st HealthGrid Conference, France, Jan S. Cahon, E-G. Talbi, "PARADISEO : A parallel and distributed library for metaheuristics", PAREO2002 Parallel Processing in Operations Research, Guadeloupe, France, Mai E-G. Talbi, Grid combinatorial optimization, Tutorial GRID School, Aussois, Dec XW-Apriori

65 65 Limitations de Apriori Méthode de type énumérative Basée essentiellement sur le Support et la Confiance Impossible de trouver les règles rares dans un grand espace de recherche

66 66 Approche multicritère Evaluation des règles Règles dassociation Problème classique de datamining Etudié par différentes communautés : statistique, apprentissage, optimisation combinatoire,… de multiples indicateurs ont été proposés pour mesurer la qualité des règles [Hilderman et Hamilton, 1999], [Tan et Kumar, 2002], [Adomavicius, 2002], [Lenca et al, 2003],… Comment choisir le bon indicateur ? Pas de critère universel

67 67 Quelques principaux critères MesureFormule Effet Support S % transactions qui contiennent C et P Confiance C Probabilité conditionnelle Intérêt I Privilégie les motifs rares (ayant un support faible) Conviction V Mesure la faiblesse de (C, not P) V >> :: P se passe avec C Piatetsky- Shapiros PS Mesure la dépendance Surprise R Cherche des règles étonnantes Mesure linfirmation(C, NOT P)

68 68 Processus complet Analyse statistique : ACP (Analyse en Composantes Principales): support, confiance, interet, surprise, conviction, biological criteria, … Modele multicritère du problème Design dalgorithmes distribués doptimisation multicritères Pareto Utilisation de la plateforme ParadisEO Problème doptimisation à grandes échelles

69 69 La plate-forme EO en quelques mots Contributions : Geneura TEAM (Espagne), INRIA (France), LIACS (Pays-bas), LIFL (France) Une librairie Open Source C++ «tout objet » (Template) Indépendante de tout paradigme (métaheuristique) Flexible / problème traité Composants génériques (opérateurs de recherche, sélection, remplacement, terminaison, …) Nombreux services Visualisation, Définition de paramètres en ligne, Sauvegarde/reprise de létat dexécution, …

70 70 Contributions (OPAC-LIFL) EO (bibliothèque dalgorithmes évolutionnaires : AG, GP, ES, …) Extension aux algorithmes à base de solutions uniques Méthodes de descente Recuit simulé Recherche tabou Coopération (hybridation synchrone, asynchrone, …) Ex. Coopération insulaire ParadisEO (Métaheuristiques parallèles et distribuées) Parallélisme (Partitionnement des solutions, données, recherches, …) Parallélisme : Accélérer le temps de recherche + Sattaquer à des problèmes de grandes tailles Coopération : Améliorer la qualité des solutions et la robustesse AE pour l'Optimisation multicritère

71 71 Règles dassociation : La visualisation 3D

72 72 Règles dassociation : Le N- Dimensional Line

73 73 Règles dassociation : Le Double Decker Plot

74 74 Journaux : L. Jourdan, C. Dhaenens, E-G. Talbi, « ASGARD : un algorithme génétique pour les règles dassociation », Extraction de Connaissance et Apprentissage, ECA Hermès, Vol.16(6), pp , Conférences : M. Khabzaoui, L. Jourdan, C. Dhaenens, E-G. Talbi, Approche évolutionnaire multicritère pour les règles dassociation en génomique, ROADEF, M. Khabzaoui, C. Dhaenens, A. NGuessan, E-G. Talbi, Etude exploratoire des critères de qualité des règles dassociation, Journées de statistique, 2003 L. Jourdan, C. Dhaenens, E-G. Talbi, « Rules extraction in linkage disequilibrium mapping with an adaptive genetic algorithm», ECCB2003, European Conference on Computational Biology, Paris, France, Sept Publications

75 75 Un exemple concret Expérimentations sur puces à ADN Puces à façon / puces Affymetrix 2748 / gènes étudiés 15 patients et 15 témoins Comparaison des deux approches Rechercher de façon spécifique dans les locis dintérêt Rechercher de façon systématique Utiliser plusieurs technologies de micropuces Projet ACI / IMPG (Soumis en sept 2003) Alzheimine : Recherche de gènes dintérêt pour la maladie dAlzheimer, LIFL, Pasteur Lille (P. Amouyel, Y. Lemoine, J-C.. Lambert, D. Hot), LRI (M. Sebag).

76 76 Un exemple concret Recherche de marqueurs prédisposition maladies cardiovasculaires Expérimentations sur puces à ADN Puces Affymetrix gènes étudiés 10 patients plus ou moins à risque Mise en correspondance de données hétérogènes Expérimentations sur puces à ADN Données structurelles (localisation cytogénétique, …) BD publiques Données fonctionnelles (Groupe GO, Famille PFAM, …) GENBANK, Action Bioingénierie – GenHomme Network ( ) Data mining platform from heterogeneous data for cardiovascular diseases, IT-OMICS, GENFIT, LIFL.

77 77 Perspectives Recherche multicritère de règles dassociation (données hétérogènes : expression génique, médicales, fonctionnelles, structurelles, …) Prise en compte dattributs multivalués Groupe GO : Les gènes peuvent appartenir à plusieurs groupes GO Famille PFAM (Protein Families) Analyse post-optimale des règles Comment représenter la connaissance extraite à laide des règles Comment déduire de lensemble des règles produites, les plus intéressantes pour le problème

78 78 Perspectives Perspectives court-terme : Données Biopuces Clusters, Règles Prédiction de fonction dun gène, Recherche de motifs dans les régions promotrices. Perspectives moyen-terme : Des règles dassociation à linférence de réseaux géniques Identification optimale de modèles (weight matrices, boolean network model, équations différentielles, …) pour les réseaux de régulation en utilisant des méthodes doptimisation. Gene 1 Gene x Gene 4 Gene 3Gene 2 Positive regulation Negative regulation


Télécharger ppt "1 CIB : Centre Intégré de Bioinformatique E-G. Talbi CIB – Génopole de Lille."

Présentations similaires


Annonces Google