N.Mellouli-Nauwynck & M.Lamolle1 Intégration de bases de données hétérogènes N.Mellouli-Nauwynck M.Lamolle
N.Mellouli-Nauwynck & M.Lamolle2 Sommaire Contexte Définitions Problèmes d’intégration Etapes de l’intégration Exemple Outils d’intégration Etat de l’art Introduction à XML et Intégration de Bases de données hétérogènes
N.Mellouli-Nauwynck & M.Lamolle3 CONTEXTE
N.Mellouli-Nauwynck & M.Lamolle4 Contexte Conception ascendante de bases de données Fusion de bases de données réparties Conception incrémentale Conception d’entrepôts de données
N.Mellouli-Nauwynck & M.Lamolle5 Conception ascendante de bases de données Principe : chaque groupe d’utilisateurs construit sa vue de la base de données Avantages : validation précoce des vues parallélisme taille des vues Inconvénients : entraîne une phase supplémentaire d’intégration
N.Mellouli-Nauwynck & M.Lamolle6 Fusion de bases de données réparties Principe : rassembler les différentes parties d’un système distribué en une vue unique centralisée Intérêts : fournir une vision globale de la base répartie assurer la cohérence globale de la base Problèmes : les parties peuvent être conflictuelles les systèmes existent déjà
N.Mellouli-Nauwynck & M.Lamolle7 Conception incrémentale Principe : on conçoit un schéma de bases de données par ajout progressif d’information Avantages : validation intermédiaire prise en compte des modifications Inconvénients :
N.Mellouli-Nauwynck & M.Lamolle8 Conception d’entrepôts de données Principe : on produit une vue conceptuelle d’un entrepôt par intégration des bases sources Avantages : permettre une meilleure connaissance du contenu de l’entrepôt Inconvénients : l’entrepôt n’est pas uniquement une fusion (sélection, raffinement, etc.)
N.Mellouli-Nauwynck & M.Lamolle9 DEFINITIONS
N.Mellouli-Nauwynck & M.Lamolle10 Définition Confronter différentes perceptions du réel modélisées par des concepteurs humains
N.Mellouli-Nauwynck & M.Lamolle11 Réel Modélisation conceptuelle Schéma conceptuel Conception logique Schéma logique Conception physique B.D. Le cycle classique de conception de base de données
N.Mellouli-Nauwynck & M.Lamolle12 Intégration... Schéma conceptuel Conception logique Schéma logique Conception physique B.D. Réel M.C. Vue 1 Réel M.C. Vue 2 Réel M.C. Vue n L’intégration de vues une alternative à la modélisation conceptuelle classique
N.Mellouli-Nauwynck & M.Lamolle13 Quelques définitions Vue ou schéma local : dénomination des schémas sources Schéma résultant ou schéma global ou schéma intégré : schéma conceptuel résultant de l’intégration
N.Mellouli-Nauwynck & M.Lamolle14 Intégration de bases de données C’est l’intégration de bases de données existantes Elle comprend : la conception d ’un schéma global ou intégration de schémas l ’intégration des données (problèmes de conversion, formatage, etc.)
N.Mellouli-Nauwynck & M.Lamolle15 LES PROBLEMES D’INTEGRATION
N.Mellouli-Nauwynck & M.Lamolle16 Les problèmes d’intégration Conflits de terminologie Différentes définitions de classes Représentations équivalentes Définition de contraintes
N.Mellouli-Nauwynck & M.Lamolle17 10/02/97 VUE 1 synonymie homonymie Conflits de terminologie SALARIE CHERCHEUR travaille SUJET LIVRE concerne VUE 2 EMPLOYE VUE 2
N.Mellouli-Nauwynck & M.Lamolle18 Conflits de terminologie Sujet Salarié Employé Domaine de recherche Thème Employé TERMESCONCEPTS
N.Mellouli-Nauwynck & M.Lamolle19 Différentes définitions de classes inclusion de classes AUTOMOBILISTEpossède VOITURE PERSONNE possède VOITURE VUE 1 VUE 2
N.Mellouli-Nauwynck & M.Lamolle20 VUE 1 Différentes définitions de classes l intersection de classes PERSONNE prêt immobilier BANQUE PERSONNE prêt personnel BANQUE VUE 1 VUE 2
N.Mellouli-Nauwynck & M.Lamolle21 Conflits de définitions de classes Prêt Personne Automobiliste Prêts immobiliers Prêts personnels Personnes CONCEPTSPOPULATIONS
N.Mellouli-Nauwynck & M.Lamolle22 Terminologie et recouvrement de classes Les deux types de problèmes se présentent souvent de la même façon VUE 1 HOSPITALISE VUE 2 PATIENT NSS Nom Prénom Médecin NSS Nom Prénom Service Numlit Patient et Hospitalisé sont synonymes ? Patient et Hospitalisé sont-ils en recouvrement de classes ?
N.Mellouli-Nauwynck & M.Lamolle23 Equivalences de représentation (1) LIVREtitre EDITEURnom LIVRE titre éditeur VUE 1VUE 2
N.Mellouli-Nauwynck & M.Lamolle24 Equivalences de représentation (2) PERSONNE FEMME nom PERSONNE nom sexe VUE 1VUE 2 HOMME
N.Mellouli-Nauwynck & M.Lamolle25 Définition de contraintes EMPLOYE PROJET VUE 1 (1,1) (1,n) EMPLOYE PROJET VUE 2 (1,n)
N.Mellouli-Nauwynck & M.Lamolle26 LES ETAPES DE L ’INTEGRATION
N.Mellouli-Nauwynck & M.Lamolle27 Les étapes de l ’intégration Comparaison Mise en conformité Fusion Enrichissement du schéma
N.Mellouli-Nauwynck & M.Lamolle28 Comparaison des vues Mise en correspondance des éléments communs Identification des conflits de terminologie, de représentation, de contraintes, etc.
N.Mellouli-Nauwynck & M.Lamolle29 Mise en conformité
N.Mellouli-Nauwynck & M.Lamolle30 Fusion des schémas Les concepts communs aux deux schémas sont insérés une seule fois dans le schéma global Les autres concepts sont ajoutés au schéma global Il y a enrichissement mutuel des schémas : une entité se voit dotée des attributs des deux entités d ’origine
N.Mellouli-Nauwynck & M.Lamolle31 Enrichissement du schéma Dans le schéma global, des concepts nouveaux se trouvent en commun La phase d’enrichissement permet de définir d’éventuelles relations sémantiques entre ces concepts
N.Mellouli-Nauwynck & M.Lamolle32 UN EXEMPLE
N.Mellouli-Nauwynck & M.Lamolle33 Personne PatientPersonnel HospitaliséExterneMédecinInfirmière Médicament Laboratoire Service Posologie Fournit Rendez-vous AffectationRattaché Nom, prénom, N°SS, adresse Matricule, date-embauche, salaire Grade, type-contrat Spécialité, num-agrément Nom, code, téléphone Nom, adresse Code, nom, type-conditionnement, type-malade Dose, fréquence Date-entrée Num-dossier, date-création VUE 1 Date Convoqué Unité Nom Bâtiment
N.Mellouli-Nauwynck & M.Lamolle34 Personnel MédecinAdministratif Patient Infirmière Médicament Laboratoire Service Prescription Fournit Affectation Rattaché Matricule, nom, prénom, N°SS, adresse, salaire Poste, qualificationGrade, type-contrat Num-agrément Nom, code, téléphone Nom, adresse Code, nom, type-conditionnement, prix Dose, fréquence Nom, prénom, adresse, num-dossier, date-entrée VUE 2 Hospitalisé Spécialité Exerce
N.Mellouli-Nauwynck & M.Lamolle35 Comparaison des vues Synonymie : Posologie et Prescription Homonymie : Hospitalisé Recouvrement de classes : Patient Représentations équivalentes : Spécialité Conflits de contraintes : non décrits sur les graphiques
N.Mellouli-Nauwynck & M.Lamolle36 Personne PatientPersonnel HospitaliséExterneMédecinInfirmière Médicament Laboratoire Service Prescription Fournit Rendez-vous AffectationRattaché Nom, prénom, N°SS, adresse Matricule, date-embauche, salaire Grade, type-contrat Num-agrément Nom, code, téléphone Nom, adresse Code, nom, type-conditionnement, type-malade Dose, fréquence Date-entrée Num-dossier, date-création Mise en conformité de la vue 1 Date Spécialité Exerce Unité Convoqué Nom Bâtiment
N.Mellouli-Nauwynck & M.Lamolle37 Personnel MédecinAdministratif Hospitalisé Infirmière Médicament Laboratoire Service Prescription Fournit Affectation Rattaché Matricule, nom, prénom, N°SS, adresse, salaire Poste, qualificationGrade, type-contrat Num-agrément Nom, code, téléphone Nom, adresse Code, nom, type-conditionnement, prix Dose, fréquence Nom, prénom, adresse, num-dossier, date-entrée Intégré Spécialité Exerce Mise en conformité de la vue 2
N.Mellouli-Nauwynck & M.Lamolle38 Personne Patient Personnel HospitaliséExterneMédecinInfirmière Médicament Laboratoire Service Prescription Fournit Rendez-vous AffectationRattaché Nom, prénom, N°SS, adresse Matricule, date-embauche, salaire Grade, type-contrat Num-agrément Nom, code, téléphone Nom, adresse Code, nom, type-conditionnement, type-malade, prix Dose, fréquence Date-entrée Num-dossier, date-création Fusion des schémas Date Spécialité Exerce Administratif Poste, qualification Intégré Externe Unité Convoqué
N.Mellouli-Nauwynck & M.Lamolle39 Personne Personnel Médecin Laboratoire Service Rendez-vous Affectation Matricule, date-embauche, salaire Date Spécialité Unité Affilié Patient HospitaliséExterneInfirmière Médicament Prescription Fournit Rattaché Nom, prénom, N°SS, adresse Grade, type-contrat Num-agrément Nom, code, téléphone Nom, adresse Code, nom, type-conditionnement, type-malade, prix Dose, fréquence Date-entrée Num-dossier, date-création Enrichissement du schéma Exerce Administratif Poste, qualification Intégré Externe Convoqué
N.Mellouli-Nauwynck & M.Lamolle40 LES OUTILS D ’INTEGRATION
N.Mellouli-Nauwynck & M.Lamolle41 Première génération Règles d ’intégration Propriétés inter-schémas Schéma intégré l Couvre uniquement la phase de fusion des schémas
N.Mellouli-Nauwynck & M.Lamolle42 Deuxième génération Règles d ’intégration Schéma intégré l Couvre les phases de comparaison des vues et de fusion des schémas Recherche des correspondances entre vues Schémas à intégrer
N.Mellouli-Nauwynck & M.Lamolle43 Troisième génération Règles d ’intégration Schéma intégré l Couvre les phases de comparaison des vues et de fusion des schémas et enrichit la comparaison Recherche des correspondances entre vues Schémas à intégrer Dictionnaire sémantique
N.Mellouli-Nauwynck & M.Lamolle44 Un exemple d ’outil Transformation de structures Comparaison de structures Héritage de propriétés Construction du schéma global Intégration de contraintes Validation Choix d ’intégration Résolution de conflits
N.Mellouli-Nauwynck & M.Lamolle45 Comparaison de structures Elle est portée par un vecteur de similitude Elle est effectuée, deux à deux, pour tous les constituants des schémas Elle compare : les noms les domaines les constituants les populations,etc.
N.Mellouli-Nauwynck & M.Lamolle46 Similitude entre attributs
N.Mellouli-Nauwynck & M.Lamolle47 Similitude entre entités Sim=(nom, structure, population) soit p le nombre d ’attributs équivalents, soient n et m le nombre d ’attributs de chaque entité : si p=n=m alors structure=1 si p=n et n<m alors structure=0.75 si p=0 alors structure=0 si p=n/2 et n=m alors structure=0.5 si p>m/2 et n<=m alors structure=0.66 si n/2<=p<=m/2 alors structure=0.33 si p<n/2 et n<=m alors structure=0.25
N.Mellouli-Nauwynck & M.Lamolle48 Construction du schéma global Intégration automatique
N.Mellouli-Nauwynck & M.Lamolle49 Construction du schéma global l Intégration semi-automatique
N.Mellouli-Nauwynck & M.Lamolle50 CONCLUSION Les situations d ’intégration sont de plus en plus fréquentes L ’automatisation est rare L ’automatisation est difficile car les problèmes à résoudre sont d ’ordre sémantique
N.Mellouli-Nauwynck & M.Lamolle51 Etat de l’Art Xyleme Castor Verso TopLink BusinessObject
N.Mellouli-Nauwynck & M.Lamolle52 Xylème :A Dynamic Warehouse for the XML Data of the Web Warehouse Xylème est capable de stocker une énorme quantité de données Xylème n’est pas un moteur de recherche mais seulement un outil d’indexation XML : Xylème est focalisé sur XML, donc sur les arbres Dynamique : Xylème s’intéresse à l’évolution et le changement des données
N.Mellouli-Nauwynck & M.Lamolle53 Xylème Septembre 1999: groupe de chercheurs Inria Rocquencourt, Groupe Verso U. de Mannheim, Groupe Bases de données U. d’Orsay, Groupe IASI CNAM et groupe Vertigo Septembre 2000 : Création d’une start-up Mars 2001 : 20 personnes.
N.Mellouli-Nauwynck & M.Lamolle54 Spécialisation des informations
N.Mellouli-Nauwynck & M.Lamolle55 Spécialisation de l’information via Xylème
N.Mellouli-Nauwynck & M.Lamolle56 Verso Verso : s’intéresse aux problèmes théoriques et pratiques concernant la gestion de données Verso-Actuellement: données distribuées, hétérogènes, massives [XML&Web]: acquisition, requêtes, monitoring... BD contraintes, spatiales et complexité
N.Mellouli-Nauwynck & M.Lamolle57 Verso : objectifs(1) Entrepôts de données XML du web : Dans la continuité des travaux autour de Xyleme, ces travaux ont d'abord porté sur le diff XML, l'optimisation de requêtes, et le calcul de l'importance de pages du web. Nous avons aussi débuté de nouvelles études sur la création et la fouille de collections thématiques de données.
N.Mellouli-Nauwynck & M.Lamolle58 Verso : objectifs(2) Active XML : nous étudions l'intégration de données et de service du web. Notre approche est orientée autour de documents XML incluant des appels déclaratifs à des services web. Il s'agit de faciliter le développement d'applications ouvertes vers le réseau, permettant plus de coopérations entre des clients distribués.
N.Mellouli-Nauwynck & M.Lamolle59 Verso : objectifs(3) Interrogation de données hétérogènes et optimisation : Nous avons poursuivi les travaux sur l'indexation de XML et l'intégration de données hétérogènes. De nouveaux travaux ont démarré sur le filtrage de données XML avec des automates finis.
N.Mellouli-Nauwynck & M.Lamolle60 Verso : objectifs(4) Théorie de la modélisation de données : Nous considérons les aspects théoriques spécifiques d'une vision de l'informatique centrée sur les données en nous appuyant sur des outils classiques de logique et de complexité pour dégager les spécificités du calcul sur des collections (relations) ou sur des graphes irréguliers (Web).
N.Mellouli-Nauwynck & M.Lamolle61 Introduction à XML pour l’intégration de BD hétérogènes