La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Vers une génération automatique du mapping de sources biomédicales

Présentations similaires


Présentation au sujet: "Vers une génération automatique du mapping de sources biomédicales"— Transcription de la présentation:

1 Vers une génération automatique du mapping de sources biomédicales
Fleur Mougin, Christine Golbreich, Anita Burgun & Pierre Le Beux Laboratoire d'Informatique Médicale, Rennes 09/03/2004 WSM Rouen

2 Introduction Besoin des biologistes et médecins de disposer de l’information accessible sur Internet Sources biomédicales Multiple hétérogénéité Évolution très rapide Ajout fréquent  nécessité de créer un système homogène manipulant de l’information à jour 09/03/2004 WSM Rouen

3 Objectifs Système d’intégration virtuelle
Faciliter la collecte d’information Offrir un accès global Description explicite des sources : mapping Le plus automatiquement possible Pour faire face aux mises à jour et ajouts éventuels Définir un schéma par source 09/03/2004 WSM Rouen

4 Système de médiation Médiateur (SIMS, IM, Picsel, DWQ, TSIMMIS)
Composants Les sources Des adaptateurs associés Un (ou plusieurs) médiateur(s) Différents types de mapping (GAV, LAV, GLAV) Peer-to-peer Composants : les sources Principe Pas de schéma global Définition du mapping en fonction des schémas des sources 09/03/2004 WSM Rouen

5 Schéma des sources Rarement disponible ou sous une forme difficilement exploitable Aucun standard existant Identifier le schéma de la source en utilisant la structure sous-jacente des banques de données biomédicales Extraction à partir des pages Web du site de chaque source 2 méthodes différentes en fonction du format de sortie de l’outil d’interrogation des sources HTML XML 09/03/2004 WSM Rouen

6 Schéma de Swiss-Prot 09/03/2004 WSM Rouen

7 Format HTML : méthode (1/2)
Basée sur la similarité intra-pages Programmes CGI Même structure HTML Corpus 100 termes biomédicaux Genetics Home Reference ex : breast cancer 1, early onset + BRCA1 (HGNC) Interrogation de la source Dynamiquement Pour chaque terme du corpus  Constitution d’un échantillon de 100 pages Web 09/03/2004 WSM Rouen

8 Format HTML : méthode (2/2)
Traitement par page Nettoyage des en-tête et pied de page Nettoyage des balises HTML non informatives Extraction de couples (balise,termes) Traitement de l’échantillon Regroupement des couples (balise,termes) similaires Ceux présents dans + de 75% des pages sont gardés 09/03/2004 WSM Rouen

9 Principe 09/03/2004 WSM Rouen

10 Format XML : méthode Exploitation de la DTD Associée aux fichiers XML
Ontologie correspondant à une vue abstraite du domaine [1] Pour obtenir les métadonnées [1] Giraldo G., Reynaud C., Construction semi-automatique d'ontologies à partir de DTDs relatives à un même domaine, 13èmes journées francophones d'Ingénierie des Connaissances, Rouen, Mai 2002 09/03/2004 WSM Rouen

11 Premiers résultats Banques de données Termes obtenus
OMIM (gène ou pathologie) Swiss-Prot (protéine) Genecards (symbole du gène) Termes obtenus Attributs (schéma de BD) ou relations (RDF) Indiquent le type d’informations contenues dans la source 09/03/2004 WSM Rouen

12 Exemple OMIM 09/03/2004 WSM Rouen

13 Exemple Swiss-Prot 09/03/2004 WSM Rouen

14 Perspectives Étape suivante : définir le schéma de chaque source
Sous forme d’une ontologie locale Exploitation des termes extraits Les organiser Les trier Choix d’un vocabulaire commun Mapper les ontologies locales Systèmes existant (Prompt, Chimaera, …) ? 09/03/2004 WSM Rouen

15 Conclusion BioMeKE (GO et UMLS) Méthode simple
Extraire des métadonnées d’une source Pour réaliser un système d’intégration Gérer l’évolution du système 09/03/2004 WSM Rouen

16 Michel Dojat & Christine Golbreich
GDR STIC-SANTE : Journée Thématique Informatique Médicale dans le cadre du thème C : Systèmes d’information médicaux et bases de données Ontologies biomédicales partagées pour l’intégration de données et d’outils distribués Michel Dojat & Christine Golbreich 09/03/2004 WSM Rouen


Télécharger ppt "Vers une génération automatique du mapping de sources biomédicales"

Présentations similaires


Annonces Google