Représentation du Thésaurus MeSH et de la Terminologie CISMeF en OWL Lina Soualmia Laboratoire PSI – CNRS 2645 – INSA & Université de Rouen Equipe CISMeF CHU de Rouen & L@STICS
Journée Web Sémantique Médical - Rouen - Mars 2004 Plan Introduction CISMeF Prototype KnowQuE Choix de modélisation en OWL Travaux en cours lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 Introduction http://www.chu-rouen.fr/cismef/ 13 227 ressources Utilisation de standards pour la modélisation : Métadonnées : ajoutent de la sémantique aux données. Terminologie structurée: même rôle qu’une ontologie de domaine. Améliorer la recherche d’information lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
La Terminologie CISMeF Mots Clés (22 012) et Qualificatifs (84) du MeSH hépatite, diabète .. diagnostic, complications, prévention et contrôle.. hépatite/diagnostic Métatermes (104) : Spécialités médicales ou Sciences biologiques Cardiologie, Pédiatrie… Liens sémantiques avec les Mots Clés/Qualifs, Type de ressource. Types de ressources (144): Renseignent la nature de la ressource Cours, base de données, information patient... Le deuxième standard utilisé est une terminologie structurée. Les ressources sont indexés en fonction de cette terminologie. Il n’existe pas aujourd’hui d’équivalent UMLS en français. Ce sont donc les concepts et arborescences du MeSH, ainsi que leur traduction en français qui sont exploités. Le MeSH dans sa version 2003 est composé d ’environ 22 000 mots clés et de 84 qualificatifs. Les mots clés ont été regroupés en fonction de spécialités médicales intitulées métatermes. Ce sont des super-concepts qui fournissent une vision plus globale de l’ensemble des termes MeSH qui sont répartis dans plusieurs arborescences mais qui concernent une même spécialité. Une hiérarchie de types de ressources types de ressources a été modélisée, elle décrit la nature de la ressource. Les types de ressources sont des généralisations des types de publication de Medline. Les métatermes et les types de ressources ont été modélisés pour faciliter l’expression de requêtes complexes comme des recommandations en cardiologie ou des cours en virologie ce qui n’est pas possible avec la structure actuelle du MeSH. lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 KnowQuE Knowledge-based Query Expansion System [AIME03; FQAS 04; IPMU 04] Base Morphologique Flexions : {Cœur, Cœurs} , Dérivations : { Cœur, Cardiaque} Base de Règles d’Association hépatite B / prévention et contrôle vaccin anti-hépatite B Terminologie CISMeF en OWL-DL lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 Choix de Modélisation Passage base de données à une Ontologie Formelle en OWL-DL Représentation des concepts et relations : connaissances taxinomiques Intérêt: mécanismes de raisonnement puissants consistance classification automatique Structure de l’ontologie Concepts : Métatermes,Mots clés et Types de Ressources. Relations : Qualificatifs; domaine restreint par des contraintes. Les ressources sont des instances de concepts. lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Traduction Automatique Java/SQL Top-Down Distinction des relations Is-a et Part-Of (anatomie et régions géographiques) Désaccentuation Caractères illégaux (‘-’ ‘,’ ‘:’ ) et espaces Noms préfixés par un nombre 11-hydroxycorticostéroïdes _11_hydroxycorticosteroides lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 Concepts (Classes) <owl:Class rdf:ID="mt_cardiologie" /> <owl:Class rdf:ID="histoire_medecine"> <rdfs:subClassOf> <owl:Class rdf:about="#histoire" /> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:ID="hepatite_c_chronique"> <rdfs:subClassOf> <owl:Class> <owl:intersectionOf rdf:parseType="Collection"> <owl:Class rdf:about="#hepatite_c" /> <owl:Class rdf:about="#hepatite_chronique" /> </owl:intersectionOf> lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 Rôles (Relations) <owl:ObjectProperty rdf:ID="qu_contre_indications"> <rdfs:domain rdf:resource="#domain_qu_contre_indications" /> <rdfs:subPropertyOf> <owl:intersectionOf rdf:parseType="Collection"> <owl:ObjectProperty rdf:resource="#qu_pharmacologie" /> <owl:ObjectProperty rdf:resource="#qu_usage_therapeutique" /> </owl:intersectionOf> </rdfs:subPropertyOf> </owl:ObjectProperty> <owl:Class rdf:ID="abdomen"> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty rdf:resource="#partOf" /> <owl:someValuesFrom rdf:resource="#region_corps" /> </owl:Restriction> </rdfs:subClassOf> </owl:Class> lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 Domaines <owl:Class rdf:ID="domain_qu_contre_indications"> <owl:unionOf rdf:parseType="Collection"> <owl:Class rdf:about="#produits_chimiques_inorganiques" /> <owl:Class rdf:about="#composes_chimiques_organiques" /> <owl:Class rdf:about="#composes_heterocycliques" /> <owl:Class rdf:about="#hydrocarbures_polycycliques" /> …. <owl:Class rdf:about="#pesticides__noxa__polluants_environnement" /> <owl:Class rdf:about="#agents_regulateurs_reproduction" /> <owl:Class rdf:about="#antiinfectieux" /> <owl:Class rdf:about="#anesthesie_et_analgesie" /> <owl:Class rdf:about="#intervention_chirurgicale" /> </owl:unionOf> </owl:Class> lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 Ressources <owl:Class rdf:ID="R_00064"> <owl:intersectionOf rdf:parseType="Collection"> <owl:Class rdf:about="#adulte" /> <owl:Class rdf:about="#enfant" /> <owl:Class rdf:about="#soins_ambulatoires" /> <owl:Restriction> <owl:onProperty rdf:resource="#qu_therapeutique" /> <owl:someValuesFrom rdf:resource="#asthme" /> </owl:Restriction> </owl:intersectionOf> </owl:Class> lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 Fichier OWL résultat 23 420 concepts 9 861 Mots clés 104 Spécialités 144 Types de Ressources 13 227 Ressources 85 rôles 84 Qualificatifs 1 relation PartOf 25 MB Import sous Protégé Réduction à 3000 Ressources Import : 30 minutes lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Vérification de la Consistance ~ 4 heures Prétraitement des fichiers MeSH : BD structurée Distinction des notions Utilisation de l’opérateur d’intersection Ressources et Domaines ont des descriptions Indexation des Ressources manuelle lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004
Journée Web Sémantique Médical - Rouen - Mars 2004 Travaux en cours Arborescence anatomie prendre en compte les cas particuliers: [A11 ] Cellules, [A12] Liquides et sécrétions biologiques, [A15] Systèmes sanguins et immunitaires: cellule sanguine est une cellule Améliorer les descriptions Utiliser UMLS les relations du réseau sémantique : is_treated_by; is_complicated_by Projet ATONANT À partir des note scope La formalisation du MeSH est un processus en plusieurs étapes qui nécessite d’approfondir différentes questions : - la conception et le développement d’une méthodologie pour migrer le MeSH vers une ontologie formelle en OWL ; - l’étude sur la définition d’un schéma standard de description des ressources CISMeF en OWL - la poursuite de l’amélioration du MeSH commencée : pour le moment, le MeSH a été partiellement amélioré dans la terminologie CISMeF (en ajoutant deux nouveaux concepts – méta-terms, types de ressources - ), mais d’autres améliorations sont nécessaires pour aller vers une ontologie formelle plus rigoureuse qui puisse être le support de mécanismes de raisonnement, en particulier de classification, et de reconnaissance d’instances. Pour cela, un certain nombre de défauts du MeSH doivent encore être traités, par exemple : poursuivre le « nettoyage » entrepris du mélange des relations ‘EST-UN’ et ‘PARTIE-DE’. De plus, un certain nombre de mots-clés devraient avoir une ascendance plus détaillée, par exemple, le descripteur ‘erreur de diagnostic’ devrait être une spécialisation de ‘erreur médicale’ et de ‘diagnostic’, ce qui n’est pas le cas actuellement. Avec OWL, la représentation serait : ErreurMedicale enRapport.Diagnostic. Pour améliorer notre représentation des connaissances, nous avons prévu d’utiliser le réseau sémantique de l’UMLS, en particulier ses relations (qui sont le plus souvent les qualificatifs du MeSH). Certaines propriétés, comme certains éléments des métadonnées existantes dans la terminologie de CISMeF (titre, auteur, format, éditeur) pourraient être ajoutées aux concepts qui décrivent les ressources. La prochaine étape de ce projet sera l’amélioration de la représentation en OWL, afin de définir chaque individu (les ressources incluses dans CISMeF), et surtout de pouvoir bénéficier des services de raisonnement des logiques de description pour le processus de requête utilisé pour la recherche d’informations. la définition d'une méthode d'évaluation et de comparaison des résultats de la recherche de documents médicaux indexés par MESH et par une ontologie formelle lina.soualmia@chu-rouen.fr Journée Web Sémantique Médical - Rouen - Mars 2004