IC'2005 : Ingénierie des Connaissances Alignement d’ontologies pour OWL-Lite : l’apport d’un classifieur sémantique Raphaël Troncy1,Umberto Straccia1 Henrik Nottelmann2 Affectations: Italian ISTI IT Institute (National Research Center), ERCIM fellowship Institute of informatics and interactive systems, University of Duisburg-Essen, 47048 Duisbourg, Germany Mercredi 01 juin 2005 IC'2005 : Ingénierie des Connaissances
Motivations Hétérogénéité des systèmes d'information Ontologies : un moyen pour permettre leur interopérabilité Ontologies : une source d'hétérogénéité langage de représentation, degré de formalisation, … Web Sémantique [W3C] Ontologies OWL / RDF sur le web Comparer / fusionner des ontologies couvrant des domaines qui se recoupent différentes versions d'une même ontologie fournir un cadre formel et opérationnel pour aligner automatiquement des ontologies OWL : oPLMAP 01/06/2005 Raphaël Troncy - IC'2005
Aligner des ontologies Un opérateur de mise en correspondance [Euzenat, 2004; KnowledgeWeb, 2005] Entrées : un ensemble d'entités définies formellement Sorties : une relation caractérisant les mises en correspondance (ou appariements) entre entités (subsomption, équivalence, …) une valeur de confiance Méthode automatique / manuelle Inspiration provenant de nombreux travaux issus de communautés variées Schema matching, machine learning, data integration 01/06/2005 Raphaël Troncy - IC'2005
Euzenat – "Schema and Ontology Matching" - ESWC Tutorial 2005 Exemple Équivalence Subsomption Incompatibilité Euzenat – "Schema and Ontology Matching" - ESWC Tutorial 2005 01/06/2005 Raphaël Troncy - IC'2005
Plan Introduction du cadre formel Aligner automatiquement 2 ontologies Les classifieurs utilisés Les classifieurs classiques et probabilistes Le classifieur structurel et sémantique Évaluation Conclusion et perspectives 01/06/2005 Raphaël Troncy - IC'2005
Introduction du cadre formel Inspirations Travaux formels en échange d'information [Fagin et al., 2003] GLUE : combiner plusieurs composants spécialisés pour obtenir le meilleur résultat [Doan et al., 2003] Notations Un alignement : M = (T, S, ∑) S et T sont les ontologies source et cible ∑ est un ensemble de règles : αij Tj ← Si Soit I et J, les modèles (interprétations) de S et T T(I, ∑) est le résultat de l'application des règles de ∑ sur S Pr(∑, J, I) estime la probabilité que T(I, ∑) soit une valeur plausible pour T 01/06/2005 Raphaël Troncy - IC'2005
Introduction du cadre formel Approche Générer des ensembles ∑ contenant des règles de mise en correspondance Estimer la qualité de ces ensembles Estimer la probabilité d'une règle Combinaison des estimations de différents classifieurs 01/06/2005 Raphaël Troncy - IC'2005
Alignement automatique de 2 ontologies Évaluer la probabilité d'un ensemble sigma1: 1 Ici U est l ’ensemble des tuples et Pr(T) est la probabilité qu’un tuple soit dans J 01/06/2005 Raphaël Troncy - IC'2005
Alignement automatique de 2 ontologies Partitionnons l'ensemble ∑ Puis1,2: 1 Pour simplifier la notation, dans la suite on écrira: Si = Tj (I , ∑j,i) 2 Si ∑j est formé par les r sous-ensemble de règles 01/06/2005 Raphaël Troncy - IC'2005
Alignement automatique de 2 ontologies En conclusion : Pr(∑, J, I) est fonction de Pr(Si|Jj) Estimer la probabilité d'une règle1,2: Calculons les : w(Si, Jj, CLk) 1 En utilisant le Théorème des Probabilités Totales 2 Où CLk sont les classifieurs 01/06/2005 Raphaël Troncy - IC'2005
Les classifieurs utilisés Classifieur binaire Même nom / même URI / même stem Classifieur fonctionnant avec les individus Classifieur naïf de Bayes Classifieur kNN 01/06/2005 Raphaël Troncy - IC'2005
Le classifieur structurel et sémantique Si Rs et RT sont des noms de propriétés: Si AS et AT sont des noms de concepts1: 1 Où D = D(AS) * D(AT) 01/06/2005 Raphaël Troncy - IC'2005
Le classifieur structurel et sémantique Soit CS=(QR.C) et DT=(Q’R’.D), alors1: Si CS=(op C1…Cm) et DT=(op’ D1…Dm), alors2: 1 Où Q,Q’ sont les quantifieurs, R,R’ sont des noms de propriétés et C,D des expressions 2 Où op, op’ sont des constructeurs de concepts et n,m ≥ 1 01/06/2005 Raphaël Troncy - IC'2005
Le classifieur structurel et sémantique Quelques valeurs possibles pour wop et wQ Pour wop : Pour wQ : ⊓ ⊔ ¬ 1 1/4 1 1/4 n n m 1 1/3 m 01/06/2005 Raphaël Troncy - IC'2005
Le classifieur structurel et sémantique Démonstration
Évaluation De plus en plus d'outils et de méthodes très différentes pour aligner les ontologies [KW D2.2.3, 2005] difficile à comparer dans l'absolu pragmatisme : campagne d'évaluation et compétition I3CON : sur le modèle de la NIST Text Retrieval Conference EON : tests complets et systématiques éprouvant tout OWL OAEI : http://oaei.inrialpes.fr API d'alignement [Euzenat, 2004] format commun pour représenter / échanger les alignements outils pour évaluer ces alignements 01/06/2005 Raphaël Troncy - IC'2005
Évaluation : EON'2004 4 compétiteurs : Karlsruhe, INRIA, Fujitsu, Stanford 3 groupes de tests sur les ontologies bibliographiques : tests simples : identité, spécialisation/généralisation du langage tests systématiques : des éléments de l'ontologie de référence sont enlevés ou modifiés un à un test réels : comparaison avec 4 ontologies réelles disponibles sur le web Résultat : 2 groupes … mais des insuffisances dans les tests 01/06/2005 Raphaël Troncy - IC'2005
Évaluation : oPLMap Test 101 – 205 : comparaison d'une ontologie bibliographique avec son équivalente où chaque étiquette est remplacée par un synonyme Précision Rappel F-mesure Karlsruhe 0.47 0.60 0.53 INRIA 0.49 0.80 0.61 Fujitsu 0.79 0.63 0.70 Stanford 0.95 0.43 0.59 oPLMap 0.86 0.66 0.75 01/06/2005 Raphaël Troncy - IC'2005
Conclusion Introduction d'un cadre logique et probabiliste pour aligner automatiquement des ontologies OWL Présentation d'un nouveau classifieur basé sur la sémantique des entités OWL définies Évaluation empirique sur des ontologies réelles critères classiques de recherche d'information non prise en compte d'autres indicateurs : temps machine, mémoire, … 01/06/2005 Raphaël Troncy - IC'2005
Perspectives Participer à des campagnes complètes d'évaluation : OAEI Ajouter d'autres classifieurs à ce cadre utilisant des ressources terminologiques (WordNet) basés sur le texte : kNN Perfectionner le classifieur sémantique prendre en compte les autres constructeurs OWL prendre en compte d'autre langage de représentation des connaissances, des règles, … PB : name = firstName + lastName ? 01/06/2005 Raphaël Troncy - IC'2005