1 Réconciliation de références LRI (UMR 8623 CNRS) / INRIA-Futurs, équipe IASI/Gemo Université Paris-Sud XI
2 Différents problèmes de réconciliation Alignement/Réconciliation de schémas Réconciliation de données Apparier des données avec un schéma cible/annoter Détecter que deux descriptions de données représentent la même entité (ex: hôtel, gene, publication,...) => intégration de données provenant de différentes sources (élimination des redondances, combiner des éléments d’informations) => nettoyage d’une source de données
3 "A semantic enrichment … " Author Title H. Gagliardi PersName Author grimm/ ~ohaemmerle O. Haemmerle PersName Author N. Pernelle PersName "Discovery in Science " PublishedIn “LNAI-3735 " Notes Author F. Saïs PersName Author Title Hélène Gagliardi PersName Author Ollivier Haemmerle PersName Author Nathalie Pernelle PersName “DS’05 c PublishedIn Author Fatiha Saïs PersName "A semantic enrichment … " Author “E.DOT" InProject Source 1 Source 2 Reconcile ?( Reconcile ?( inria ) Reconcile ?( Reconcile ?("Discovery in Science ", “DS’05 ") Compare({"Hélène G.",“Ollivier H.", “Nathalie P.", "Fatiha S."}, {"H. Gagliardi", “O. Haemmerle", “N. Pernelle", "F. Saïs"})
4 Approche LN2R - Combinaison de 2 méthodes L2R : méthode logique partielle. Génération automatique de règles d’inférence qui traduisent la sémantique logique des connaissances déclarées en RDFS+ (+ disjonction, PF) Exemple : traduction de PF(R): R6.1(R): Reconcile(X, Y) R(X, Z) R(Y, W) Reconcile (Z, W) R6.1(Located): Reconcile(X, Y) Located (X, Z) Located (Y, W) Reconcile (Z, W) R6.2(A): Reconcile(X, Y) A(X, Z) A(Y, W) SynVals(Z, W) R6.2(MuseumName):Reconcile(X,Y) MuseumName (X, Z) MuseumName (Y,W) SynVals(Z, W) Utilisation de la résolution unitaire pour inférer des décisions de réconciliation et de non réconciliation correctes.
5 Approche LN2R - Combinaison de 2 méthodes N2R : méthode numérique itérative qui complète les résultats de L2R. Fondée sur un calcul de similarité informé et modélisé dans un système d’équations. Décision de réconciliation, fondée sur les scores de similarité. Approche LN2R automatique et déclarative, fondée sur la sémantique du schéma et des données. Testées sur 2 corpus dont le benchmark CORA.
6 N2R: illustration m1, m’1 c1, c’1 p1, p’1 “Le Louvre”, “Louvre” “Paris”, “La ville de Paris” “La Joconde”, “l’Européenne” x1 = max(max(max(b11, x3), x4), * x2) x2 = max(b21, x1) x3 = max(b31, * x1) x4 = max(b41, * x1) x1 x2 x3 b11 p1, p’2 “La Joconde”, “Joconde” x4 b41 b21 b31 = 1/(| CAttr | + | CRel |) = 0.02 b11 = 0.8, b21 = 0.3, b31 = 0.1, b41 = 0.7 x1x2x3x4 Initialisation0.0 Itération Itération Itération Solution : x1 = 0.8 x2 = 0.8 x3 = 0.4 x4 = 0.7