La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

09/03/2004WSM 2004 - Rouen Vers une génération automatique du mapping de sources biomédicales Fleur Mougin, Christine Golbreich, Anita Burgun & Pierre.

Présentations similaires


Présentation au sujet: "09/03/2004WSM 2004 - Rouen Vers une génération automatique du mapping de sources biomédicales Fleur Mougin, Christine Golbreich, Anita Burgun & Pierre."— Transcription de la présentation:

1 09/03/2004WSM Rouen Vers une génération automatique du mapping de sources biomédicales Fleur Mougin, Christine Golbreich, Anita Burgun & Pierre Le Beux Laboratoire d'Informatique Médicale, Rennes

2 09/03/2004WSM Rouen Introduction •Besoin des biologistes et médecins de disposer de l’information accessible sur Internet •Sources biomédicales –Multiple hétérogénéité –Évolution très rapide –Ajout fréquent  nécessité de créer un système homogène manipulant de l’information à jour

3 09/03/2004WSM Rouen Objectifs •Système d’intégration virtuelle –Faciliter la collecte d’information –Offrir un accès global •Description explicite des sources : mapping –Le plus automatiquement possible –Pour faire face aux mises à jour et ajouts éventuels •Définir un schéma par source

4 09/03/2004WSM Rouen Système de médiation •Médiateur (SIMS, IM, Picsel, DWQ, TSIMMIS) –Composants •Les sources •Des adaptateurs associés •Un (ou plusieurs) médiateur(s) –Différents types de mapping (GAV, LAV, GLAV) •Peer-to-peer –Composants : les sources –Principe •Pas de schéma global •Définition du mapping en fonction des schémas des sources

5 09/03/2004WSM Rouen Schéma des sources •Rarement disponible ou sous une forme difficilement exploitable •Aucun standard existant •Identifier le schéma de la source en utilisant la structure sous-jacente des banques de données biomédicales •Extraction à partir des pages Web du site de chaque source •2 méthodes différentes en fonction du format de sortie de l’outil d’interrogation des sources –HTML –XML

6 09/03/2004WSM Rouen Schéma de Swiss-Prot

7 09/03/2004WSM Rouen Format HTML : méthode (1/2) •Basée sur la similarité intra-pages –Programmes CGI –Même structure HTML •Corpus –100 termes biomédicaux –Genetics Home Reference –ex : breast cancer 1, early onset + BRCA1 (HGNC) •Interrogation de la source –Dynamiquement –Pour chaque terme du corpus  Constitution d’un échantillon de 100 pages Web

8 09/03/2004WSM Rouen Format HTML : méthode (2/2) •Traitement par page –Nettoyage des en-tête et pied de page –Nettoyage des balises HTML non informatives –Extraction de couples (balise,termes) •Traitement de l’échantillon –Regroupement des couples (balise,termes) similaires –Ceux présents dans + de 75% des pages sont gardés

9 09/03/2004WSM Rouen Principe

10 09/03/2004WSM Rouen Format XML : méthode Exploitation de la DTD –Associée aux fichiers XML –Ontologie correspondant à une vue abstraite du domaine [1] –Pour obtenir les métadonnées [1] Giraldo G., Reynaud C., Construction semi-automatique d'ontologies à partir de DTDs relatives à un même domaine, 13èmes journées francophones d'Ingénierie des Connaissances, Rouen, Mai 2002

11 09/03/2004WSM Rouen Premiers résultats •Banques de données –OMIM (gène ou pathologie) –Swiss-Prot (protéine) –Genecards (symbole du gène) •Termes obtenus –Attributs (schéma de BD) ou relations (RDF) –Indiquent le type d’informations contenues dans la source

12 09/03/2004WSM Rouen Exemple OMIM

13 09/03/2004WSM Rouen Exemple Swiss-Prot

14 09/03/2004WSM Rouen Perspectives •Étape suivante : définir le schéma de chaque source –Sous forme d’une ontologie locale –Exploitation des termes extraits •Les organiser •Les trier –Choix d’un vocabulaire commun •Mapper les ontologies locales –Systèmes existant (Prompt, Chimaera, …) ?

15 09/03/2004WSM Rouen Conclusion •BioMeKE (GO et UMLS) •Méthode simple –Extraire des métadonnées d’une source –Pour réaliser un système d’intégration –Gérer l’évolution du système

16 09/03/2004WSM Rouen GDR STIC-SANTE : Journée Thématique Informatique Médicale dans le cadre du thème C : Systèmes d’information médicaux et bases de données Ontologies biomédicales partagées pour l’intégration de données et d’outils distribués Michel Dojat & Christine Golbreich


Télécharger ppt "09/03/2004WSM 2004 - Rouen Vers une génération automatique du mapping de sources biomédicales Fleur Mougin, Christine Golbreich, Anita Burgun & Pierre."

Présentations similaires


Annonces Google