La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CIB : Centre Intégré de Bioinformatique

Présentations similaires


Présentation au sujet: "CIB : Centre Intégré de Bioinformatique"— Transcription de la présentation:

1 CIB : Centre Intégré de Bioinformatique
E-G. Talbi CIB – Génopole de Lille

2 Plate-formes Maladies multi-factorielles

3 CIB : Plateforme Bioinformatique
Qui - Comité pilotage : E-G. Talbi, C. Dhaenens, R. Beuscart - Ingénieurs : J. Soula, V. Cognat, B. Planquelle, M-P. Vanhoecke - Support logistique et scientifique du LIFL et du CERIM : Institutions Bi-localisation - LIFL – USTL CERIM - Services à la Faculté de Médecine USTL - Lille2 - CNRS : Travaux réalisés :

4 Plan présentation Organisation matérielle Formation, Service
CIB – Séquencage & génotypage CIB – Protéomique CIB - Transcriptome

5 Architecture du réseau
(Créé « from scratch ») Cluster de 2 Quadriprocesseurs ALPHA Unix Tru 64 (4*667Mhz), Espace de Stockage de 432 Giga Byte (RAID 1 et RAID 5) SGBD Oracle 8i (134 utilisateurss) Renater network access 12 Mbits/s Serveur web Firewall Zone sécurisée

6 Réseau physique Autre machine utilisée : IBM SP3 au CRI (64 proc) – Intelligent Miner

7 Formations Formations générales Bioinformatique (CIB – CNRS)
Autour du Web – 1 jour personnes UNIX / Réseau – 2 jours - 18 personnes Banque de données – 2 jours - 31 personnes Base de données – 2 jours - 15 personnes Analyse de séquences – 2 jours - 26 personnes Phylogénie – 2 jours - 18 personnes Enseignement DESS Bioinformatique (Depuis 2001) Encadrement de stagières (Ingénieurs, DESS, Maitrise, DEA, …)

8 Formation spécifique (CIB – CNRS – INSERM)
Analyse statistiques de données issues des biopuces 10 au 12 septembre 2003 Objectifs de la formation : donner aux biologistes les bases suffisantes en statistiques pour comprendre et appréhender les différentes méthodes d’analyse des données de biopuces. Les aider dans la mise en place d’un protocole d’analyse des données. Public visé : biologistes lillois utilisant la technologie des puces à ADN Programme : Alternance Cours / TP - Représentation et Normalisation des données - Analyse différentielle des données - Classification supervisée et non supervisée Formateurs : - Jacques Van Helden, Université Libre de Bruxelles - Stéphane Robin, OMIM - INA-PG de Versailles - Cyrille Dalmasso, INSERM - Villejuif Nombre de participants : - 27 inscrits en cours - 17 inscrits en TP

9 Mise à disposition d’outils
Base de données : Human Genome Data Base (online) : Santa Cruz (CA) Ensembl Gene Ontology Logiciels : 180 Open Source Software (online) : alignement, phylogeny, sequence analysis, … Site Web : Outil de communication et d’échanges : forum de discussion, listes de diffusion, serveur ftp, newgroups,

10 Coopération entre plateformes
Séquençage et génotypage Protéomique Bioinformatique Transcriptome Sélection d’attributs et Clustering : Recherche de facteurs de prédisposition de maladie multifactorielles (obésité, diabètes de type II). LGMM (Lab. Génétique des Maladies Multifactorielles), IBL – P. Froguel, S. Gallina

11 Interactions génétiques et environnementales
Contexte : Etudes familiales Analyses d’interaction : co-transmission de gènes Objectif Localiser un ou plusieurs gènes de prédisposition à certaines maladies : diabète ou obésité Données : Pour chaque famille : comparaison de l’héritage de gènes (marqueurs) et de facteurs environnementaux 3652 marqueurs génétiques et 2 facteurs environnementaux pour une centaine d’individus

12 Interactions génétiques et environnementales
Hypothèses : Beaucoup d’attributs (loci et facteurs environnementaux) Existence de valeurs manquantes Contexte d’apprentissage non supervisé Objectif : Découvrir des groupes d’attributs cause de la maladie (corrélations entre attributs) Groupe 1 : loci 1 et loci 20 et loci 50 Groupe 2 : loci 17 et loci 43 et loci 75

13 Approche 2 phases Réalisation Groupes K-mean ou algorithme génétique
Selection d’attributs Groupes Clustering m attributs N attributs N >> m Réalisation Our approach will be decomposed into two phases : A feature selection phase and a clustering phase Algorithme génétique K-mean ou algorithme génétique

14 Publications Chapitre d’ouvrage :
L. Jourdan, C. Dhaenens, E-G. Talbi, "Discovery of genetic and environmental interactions in disease data using evolutionary computation", Evolutionary Computation in Bioinformatics, Edited by G. B. Fogel and D. W. Corne, Morgan Kauffmann Publishers, USA, 2002. Journaux : L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, “A data mining approach to discover genetic and environmental factors involved in multi-factorial diseases”, Knowledge-based Systems, Vol.15, No.4, pp , May 2002. Conférences : L. Jourdan, C. Dhaenens, E-G. Talbi, S. Gallina, "A branch and bound procedure to analyze multifactorial diseases", European Mathematical Genetics Meeting EMGM’2001, Lille, April 2001. L. Jourdan, C. Dhaenens, E-G . Talbi, S. Gallina, “An optimization approach to mine genetic data”, Int. Conf. On Mathematics and Engineering Techniques in Medecine and Biological Sciences METMBS’2001, Edited by F. Valafar, Las-Vegas, USA, June 2001.

15 Coopération entre plateformes
Séquençage et génotypage Protéomique Bioinformatique Transcriptome Règles d’association : Etude de déséquilibre de liaison (linkage desequilibrium) LGMM (Lab. Génétique des Maladies Multifactorielles), IBL – P. Froguel, C. Dina

16 Etude de linkage disequilibrium
Objectif : Trouver des ensembles d’haplotypes pouvant expliquer le diabète de type II Données : Pour chaque individu : La valeur de ces SNPs et son statut Pour chaque SNP: fréquence allélique Pour chaque combinaison de SNPs: leur déséquilibre Contraintes : Snips d’un haplotype doivent être indépendants : Différence de fréquence < threshold1. Linkage disequilibrium > threshold2.

17 Approche Résultat Publication
Méthode de recherche : Algorithme génétique adaptatif multi-population Fonction d’évaluation spécifique basée sur deux logiciels classiques : CLUMP et EH-DIALL Résultat Règles telles que : SNP10=1-2 ET SNP20= ALORS Status=ill SNP17=1-1 ET SNP45= ALORS Status=ill Publication L. Jourdan, C. Dhaenens, E-G. Talbi, “Discovering haplotypes in linkage disequilibrium mapping with an adaptive genetic algorithm”, EvoBio’2003, EuroGP2003, LNCS 2611, pp , 2003.

18 Coopération entre plateformes
Séquençage et génotypage Protéomique Bioinformatique Transcriptome Classification : Analyses de spectres (glycannes, proteines) Centre Commun de Spectrométrie de Masse – J. Lemoine, C. Rollando.

19 Interprétation de spectres de glycannes
Gel 2D (Electrophorèses) Spectrum Analyse de spectres Reconstruction de l’arbre du glycanne à partir d’un spectre Haut débit : 80 Go/mois de nouvelles données

20 Moteur d’interprétation
Recherche Combinatoire: coûteux en temps et espace Données incertaines Nombreuses solutions théoriques Algorithme Branch and Bound Besoin de paralléliser et distribuer l’algorithme Utilisation support d’exécution sur GRILLES Intégration contraintes biologiques Utilisation d’évaluations heuristiques Brevet déposé

21 Plateforme visuelle pour l’interprétation de glycannes
BD spectres de glycannes Relation avec banque de données publiques (internet) Interface de visualisation et Edition Moteur d’interprétation Disponible sur demande

22 Coopération entre plateformes
Séquençage et génotypage Protéomique Bioinformatique Transcriptome Base de données : Gels bidimentionnels Laboratoire de Biologie du Développement (CNRS) – H. Hondermarck,

23 Gels Bi-dimensionnels Objectif
Mettre en place une plate-forme permettant de stocker et d’exploiter la masse de données disponibles Banque de Gels Bidimensionnels accès sécurisé donnant accès à accès publique Données « Privées » Données « Publiques » propres à chaque équipe et confidentielles publiées dans la littérature pour les équipes de la génopole ET pour des équipes extérieures

24 Gels Bi-dimensionnels Nature des données
Pour chaque gel, on dispose donc : d’une ou plusieurs images de listes des spots (rapports) de spectres de masses (identification, séquençage des protéines)

25 Gels Bi-dimensionnels Réalisations
Base de données associée : MySQL, Interface PHP Contrôle/sécurisation des accès aux informations (contraintes base publiques/privées) : Utilise l’annuaire LDAP de la génopole Outils permettant d’effectuer des recherche à partir des données stockées Formulaires d’affichage et d’ajout/modification d’informations : images de gel, listes des spots, carte d’identité des protéines, spectre de masse, …

26 Gels Bi-dimensionnels Interface
Disponibilité :

27 Gels Bi-dimensionnels Formulaire affichage

28 Coopération entre plateformes
Séquençage et génotypage Protéomique Bioinformatique Transcriptome Classification visualisation du protéome : DIACELL Laboratoire de Biologie du Développement – H. Hondermarck.

29 Visualisateur DIACELL
Trois types de cellules (cancer du sein) Normales Cancéreuses non métastasiques (MCF-7) Cancéreuses métastasiques (MDA-MB-231) 3 types de visualisation Projection 2D Enveloppe convexe Projection 3D

30 2D 3D Recherche de l’enveloppe convexe (données non précises)

31 Coopération entre plateformes
Séquençage et génotypage Bioinformatics Protéomique Transcriptome GdlArray : Base de données, outils de design de puces et outils d’analyse de données (datamining) 2 plateformes de biopuces : Institut Pasteur de Lille, Lille 2 (INSERM, CHR)

32 Bases de données régionales pour les biopuces et sa suite logicielle
GdLarray Bases de données régionales pour les biopuces et sa suite logicielle

33 3. Traitement des données
Plateforme Biopuces Sélection de Clones XX-Frag d’oligos 1. Sélection des sondes 2. Design des expériences Matériel biologique & puces (contrôle du schéma de spottage) Base de données Biopuces GdLarray Base de données Publiques (NCBI, EMBL, …) Fonctions, annotations, bibliographie Imagene Jaguar Outils du CIB 3. Traitement des données (normalisation, …) 4. DATA MINING (clustering, règles XW-Apriori, …) Bases de données médicales Pathway Genespring

34 Création de la Base de données Etapes du projet
Etudes des recommandations MIAME (Mars 2002) Ebauche d’un schéma conceptuel en réponse aux besoins des équipes de la Génopole (Mai 2002) Adaptation de la plateforme BASE (MySQL, PHP, normalisation, clustering, visualisation) sous Oracle 8i (version en Mars 2003 / version en Septembre 2003) Formation des biologistes à son utilisation : octobre 2003

35 Création de la Base de données Étude des données et du schéma

36 Création de la Base de données Développement d’outils d’administration
Deux modes d’administration En mode graphique : TORA (ToolKit for Oracle) – GNU GPL En mode ligne : Scripts shell/SQL Gestion des utilisateurs (sécurité, confidentialité) Par le mécanisme de rôles Oracle Architecture 3-tiers CLUSTER 2 quadri processeurs ES40 Alpha Oracle 8i Entreprises Plusieurs unités de disques en RAID1 et 5

37 La base est accessible sur le site web de la Génopole :

38 Outils de design de puces
Sélection de sondes : XXfrag Sélection de clônes Sélection d’oligos Sélection de primers : FindExpress Outil de positionnement des sondes

39 Sélection de sondes - XXfrag
XXfrag : Design de fragments d’ADNc le long des chromosomes du génome Humain Application à l’Hybridation Génomique Comparative (CGH) (INSERM, CHR) Ce programme permet de : Récupérer des fragments appartenant aux régions d’intérêt du génome(chromosome, bras). Choisir les fragments selon le type de puce que l´on désire créer (cDNA, génomique..). Sélectionner ces fragments selon leur taille, la distance entre chacun ou leur nombre. Vérifier la spécificité des fragments sélectionnés afin d´éviter les hybridations croisées.

40 Sélection de sondes - XXfrag
Publication : C. Hubans, J-P. Kerkaert, M-P. Vanhoecke, “XX_FRAG : Design of cDNA sequences for microarrays-application to CGH”, ECCB’2002 European Conference on Computational Biology, Saarbrucken, Germany, Oct 2002

41 Sélection de clones Sélection de clones : Sélection de clones d’intérêt dans la banque du CNS – Application à la maladie d’Alzheimer (IPL) Principe : la sélection de clones spécifiques est basée sur la recherche de similarité (BLAST) entre les séquences de clones et les séquences des loci d’intérêt. Programme : Entrée : liste des identifiants de loci dans LocusLink Choix des paramètres : - paramètres de Blast - seuil de similarité - seuil de spécificité Programmes complémentaires : Recherche de similarité entre loci Annotation des séquences choisies à partir des données fonctionnelles issues de Gene Ontology

42 BLAST des séquences de clones contre la banque de loci
Sélection des clones : BLAST des séquences de clones contre la banque de loci (seuil de similarité de 50%) Annotation des clones par le CNS Clone-ORFs pair (A) Loci d’intérêt Détermination des couples Clone-ORFs (B) Couples Clone-ORFs trouvés par BLAST (B) Couples Clone-ORFs communs CNS+BLAST (A) + (B) Couples Clone-ORFs trouvés uniquement dans le fichier d’annotation du CNS (A) BLAST sans seuil de similarité Couples Clone-ORFs non trouvés Spécificité : BLAST entre les séquences de clones sélectionnés et les séquences d’ARNm humains (Seuil de similarité à 30%) Couples Clone-ORFs spécifiques Couples Clone-ORFs non spécifiques

43 Sélection de clones Publication : Lambert JC, Testa T, Cognat V, Soula J, Hot D, Lemoine Y, Gaypay G, Amouyel P., “Interest and limitation of public databases for microarray design: a critical approach of gene predictions” The Pharmacogenomics Journal, in press.

44 Sélection d’oligos Sélection d’oligos : Aide à la sélection d’oligo chez Qiagen et MWG – Application à la maladie d’Alzheimer (IPL) Principe : les oligos d’intérêts sont sélectionnés dans la liste d’oligo de fournisseurs (Qiagen & MWG) à partir d’une liste d’identifiants de loci LocusLink ou de séquences Refseq et/ou Genbank

45 Sélection de primers - FindExpress
FindExpress : Sélection de primers (octamères) dans des amplicons (Laboratoire des Biopuces – IPL) Objectifs : Recherche d’un minimum d’octamères spécifiques aux régions amplifiées par PCR ne matchant pas l’ADN ribosomique - Couvrant tous les amplicons Gènes Primers PCR Recherche des amplicons Recherche de tous les octamères Oter ceux matchant ADN ribosomique Recherche du minimum d’octamères permettant de recouvrir tous les amplicons

46 Outil de positionnement des sondes
Outil pour le positionnement des sondes : - Laboratoire des Biopuces - IPL Cet outil permet : 1. De visualiser le positionnement des sondes sur la puce à partir du schéma des microplaques et des paramètres de spotting 2. De définir le contenu des microplaques à partir du schéma voulu de la puce (position spécifique de sondes et paramètres de spotting) Outil développé en java. Installation locale dans les laboratoires Robot étudié : GMS 417 Affymetrix

47 Contrôle du schéma de spottage Positionnement du problème
Le Robot prend les gènes dans les puits de la microplaque et les dépose sur la lame. on veut prévoir ou fixer d’avance la position de certains gènes sur la lame i j u Lame Micro plaque

48 Aide au design de puces Fonctionnalités
Placement de gènes à des points particuliers Calcul de la microplaque associée au schéma

49 Traitement et analyse de données
Normalisation Extraction des connaissances (Data mining) Clustering Règles d’association

50 Normalisation des données
Liens vers des outils de Normalisation disponibles sur le web à partir du site de la génopole Développement d’un outil permettant : Correction des données Plusieurs méthodes de normalisation : (Régression linéaire uniforme, Lowess, Normalisation de Chen, Newton, Chursap) Représentation graphique Normalisation par secteur Analyse des réplicats (lame, spots)  Utilisation de R (Outil Statistique présentant un module « statistiques pour biopuces ») Développement d’une interface graphique

51 Bibliothèque de clustering Schéma général
Données d’entrées Méthodes de Clustering 2. envoi des données pour méthode choisie 1. Saisie des données et choix de la méthode 3. Envoi résultats Du clustering Interface Graphique 4. envoi des données et résultats pour exécution analyse statistique Analyses Statistiques 6. Envoi d’un fichier de résultats à l’utilisateur 5. envoi des résultats statistiques pour affichage Résultats Méthodes développées : Algorithmes évolutionnaires, hiérarchiques, partitionnement, …

52 Bibliothèque de clustering Analyses statistiques
Décrire le clustering obtenu et juger sa qualité Analyse de fréquence Analyse fréquences globales sur les données d’entrée. Analyse de fréquences relativement à chaque Cluster. Analyse de la variance S’applique aux variables numériques. Mesure l’influence du Clustering sur cette variable. Inertie intra Clusters Mesure la compacités des clusters. Inertie inter Clusters Mesure la séparation des clusters

53 Bibliothèque de clustering Application internet
Browse...

54 Règles d’association

55 Généralité de l’approche
Données d’expression souvent traitées par classification/clustering Mais 3 inconvénients majeurs: Un gène participants à plusieurs relations sera classé dans un et un seul groupe Impossible de mettre en évidence des relations entre gènes appartenant à un même groupe Classification effectuée par rapport à l’ensemble des conditions expérimentales Les règles d’association permettent de dépasser ces inconvénients

56 Les règles d’association
Objectif : Découvrir des motifs, corrélations, à partir d’ensembles d’items (attributs) contenus dans des bases de données. Forme : if C then P C (Condition) = terme1 et terme2 et… et termen P (Conséquence) = termen+1 termei = <attributj, op, valeur> 2 mesures principales % de transactions qui contiennent simultanément C et P Support(C) P) Support(C& C C&P R) Confiance( =

57 Problématique(s) Règles d’association peuvent fournir différents résultats Traitement  Expression de certains gènes Tr1  {Gène A , Gène B } [Creighton - Hanash, 03] Relations entre gènes (cas général) {Gène A , Gène B , Gène C }  Gène D  [Kotala et al, 01] Relations entre gènes (pour certaines situations) [Becquet et al, 02] {(Gène A , Gène B ) dans situation y}  Gène D  dans situation y Comportement de gènes  Caractéristiques fonctionnelles  Caractéristiques structurelles {Gène  dans situation y}  Fonction X [OPAC, IT-Omics, 03]

58 Approches de résolution
Problème combinatoire de grande taille nombre d’attributs Problèmes de petites tailles Problèmes de grandes tailles Méthodes exactes Approches heuristiques Enumération intelligente Algorithme Apriori Heuristiques dédiées Métaheuristiques Intégration des deux approches au sein du CIB (parallèle, grid computing)

59 Projet ACI Projet ACI-GRID (2000-2003) : « Challenges en Optimisation
combinatoire sur Grilles de machines » Partenaires : LIFL – Lille, Prism – Versailles, ID-IMAG - Grenoble

60 XW-Apriori Développement d’Apriori sur XtremWeb
Objectif : repousser les limites quant à la taille des problèmes traités (GRID computing) Eclat [Zaki95] – Version améliorée Pas besoin de re-parcourir la base de données à chaque étape Pas besoin de faire plusieurs passes sur la base de données Variante plus efficace Exploitation verticale de la base Découpage de la base de données en partitions indépendantes sur la base de la notion de préfixe

61 XW-Apriori XtremWeb - Caractéristiques
Calcul distribué pair à pair (peer to peer, Grid computing) Modèle de vol de cycles Support sécurisé (Sandbox, SSL, Coordinator authentication) Indépendant du système d’exploitation (Linux, Windows, MacOS) Tolérance aux pannes (Sauvegarde / restauration des applications) Migration de fichiers binaires Ordonnancement dynamique des tâches Each peer can be an XW dispatcher, client or worker. All peers wait for a coordinator.

62 XW-Apriori XtremWeb - Architecture
Un ensemble de machines exécutant des démons XtremWeb Un serveur Plusieurs workers volontaires pour l’exécution de tâches Un ensemble de clients pouvant soumettre des tâches au serveur Server Hôtes répartis sur Internet XtremWeb network Client Each peer can be an XW dispatcher, client or worker. All peers wait for a coordinator. Internet Worker Client Worker Worker Worker

63

64 XW-Apriori Publications (Parallélisme / Grid computing pour la génomique) E-G. Talbi, C. Dhaenens, N. Melab, S. Cahon, “Towards grid data mining : Application for genomics”, 1st HealthGrid Conference, France, Jan 2003. S. Cahon, E-G. Talbi, "PARADISEO : A parallel and distributed library for metaheuristics", PAREO’2002 Parallel Processing in Operations Research, Guadeloupe, France, Mai 2002. E-G. Talbi, “Grid combinatorial optimization”, Tutorial GRID School, Aussois, Dec 2002.

65 Limitations de Apriori
Méthode de type énumérative Basée essentiellement sur le Support et la Confiance Impossible de trouver les règles rares dans un grand espace de recherche

66 Approche multicritère Evaluation des règles
Règles d’association Problème classique de datamining Etudié par différentes communautés : statistique, apprentissage, optimisation combinatoire,… de multiples indicateurs ont été proposés pour mesurer la qualité des règles [Hilderman et Hamilton, 1999], [Tan et Kumar, 2002], [Adomavicius, 2002], [Lenca et al, 2003],… Comment choisir le bon indicateur ? Pas de critère universel

67 Quelques principaux critères
Mesure Formule Effet Support S % transactions qui contiennent C et P Confiance C Probabilité conditionnelle Intérêt I Privilégie les motifs rares (ayant un support faible) Conviction V Mesure la faiblesse de (C, not P) V >> :: P se passe avec C Piatetsky-Shapiro’s PS Mesure la dépendance Surprise R Cherche des règles étonnantes Mesure l’infirmation(C, NOT P)

68 Processus complet Analyse statistique : ACP (Analyse en Composantes Principales): support, confiance, interet, surprise, conviction, biological criteria, … Modele multicritère du problème Design d’algorithmes distribués d’optimisation multicritères Pareto Problème d’optimisation à grandes échelles Utilisation de la plateforme ParadisEO

69 La plate-forme EO en quelques mots
Contributions : Geneura TEAM (Espagne), INRIA (France), LIACS (Pays-bas), LIFL (France) Une librairie Open Source C++ «tout objet » (Template) Indépendante de tout paradigme (métaheuristique) Flexible / problème traité Composants génériques (opérateurs de recherche, sélection, remplacement, terminaison, …) Nombreux services Visualisation, Définition de paramètres en ligne, Sauvegarde/reprise de l’état d’exécution, …

70 Contributions (OPAC-LIFL)
EO (bibliothèque d’algorithmes évolutionnaires : AG, GP, ES, …) AE pour l'Optimisation multicritère Extension aux algorithmes à base de solutions uniques ParadisEO (Métaheuristiques parallèles et distribuées) Méthodes de descente Parallélisme (Partitionnement des solutions, données, recherches, …) Recuit simulé Recherche tabou Coopération (hybridation synchrone, asynchrone, …) Ex. Coopération insulaire Parallélisme : Accélérer le temps de recherche + S’attaquer à des problèmes de grandes tailles Coopération : Améliorer la qualité des solutions et la robustesse

71 Règles d’association : La visualisation 3D

72 Règles d’association : Le N-Dimensional Line

73 Règles d’association : Le Double Decker Plot

74 Publications Journaux : Conférences :
L. Jourdan, C. Dhaenens, E-G. Talbi, « ASGARD : un algorithme génétique pour les règles d’association », Extraction de Connaissance et Apprentissage, ECA Hermès, Vol.16(6), pp , 2003. Conférences : M. Khabzaoui, L. Jourdan, C. Dhaenens, E-G. Talbi, “Approche évolutionnaire multicritère pour les règles d’association en génomique”, ROADEF, 2003. M. Khabzaoui, C. Dhaenens, A. N‘Guessan, E-G. Talbi, “Etude exploratoire des critères de qualité des règles d’association”, Journées de statistique, 2003 L. Jourdan, C. Dhaenens, E-G. Talbi, « Rules extraction in linkage disequilibrium mapping with an adaptive genetic algorithm», ECCB’2003, European Conference on Computational Biology, Paris, France, Sept 2003.

75 Un exemple concret Expérimentations sur puces à ADN
Projet ACI / IMPG (Soumis en sept 2003) “Alzheimine : Recherche de gènes d’intérêt pour la maladie d’Alzheimer”, LIFL, Pasteur Lille (P. Amouyel, Y. Lemoine, J-C.. Lambert, D. Hot), LRI (M. Sebag).  Expérimentations sur puces à ADN Puces à façon / puces Affymetrix 2748 / gènes étudiés 15 patients et 15 témoins Comparaison des deux approches Rechercher de façon spécifique dans les locis d’intérêt Rechercher de façon systématique Utiliser plusieurs technologies de micropuces

76 Un exemple concret Action Bioingénierie – GenHomme Network ( ) “Data mining platform from heterogeneous data for cardiovascular diseases”, IT-OMICS, GENFIT, LIFL.  Recherche de marqueurs prédisposition maladies cardiovasculaires Expérimentations sur puces à ADN Puces Affymetrix gènes étudiés 10 patients plus ou moins à risque Mise en correspondance de données hétérogènes Données structurelles (localisation cytogénétique, …) BD publiques Données fonctionnelles (Groupe GO, Famille PFAM, …) GENBANK,

77 Perspectives Recherche multicritère de règles d’association (données hétérogènes : expression génique, médicales, fonctionnelles, structurelles, …) Prise en compte d’attributs multivalués Groupe GO : Les gènes peuvent appartenir à plusieurs groupes GO Famille PFAM (Protein Families) Analyse post-optimale des règles Comment représenter la connaissance extraite à l’aide des règles Comment déduire de l’ensemble des règles produites, les plus intéressantes pour le problème

78 Perspectives Perspectives court-terme :
Données Biopuces  Clusters, Règles  Prédiction de fonction d’un gène, Recherche de motifs dans les régions promotrices. Perspectives moyen-terme : Des règles d’association à l’inférence de réseaux géniques Identification “optimale” de modèles (weight matrices, boolean network model, équations différentielles, …) pour les réseaux de régulation en utilisant des méthodes d’optimisation. Gene 1 Gene x Gene 4 Gene 3 Gene 2 Positive regulation Negative regulation


Télécharger ppt "CIB : Centre Intégré de Bioinformatique"

Présentations similaires


Annonces Google