Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis) Marie-Aude Aufaure (Supélec Paris) Hajer Baazaoui-Zghal (RIADI, ENSI Tunis)
PLAN Contexte et objectifs Classification des méthodes de construction d’ontologies Les méthodes de construction « from scratch » Les méthodes d’apprentissage à partir de textes Méthode proposée conclusion
Contexte et objectifs Web sémantique : recherche plus pertinente d’informations sur le web Brique de base : les ontologies Pb : rapidité de déploiement des ontologies sur le web Construction manuelle d’ontologies Tâche longue et fastidieuse automatiser au maximum cette tâche
Quelques définitions Ontologie : Web sémantique : " une ontologie est une spécification explicite, formelle d'une conceptualisation partagée " [Gruber, 1993] Web sémantique : « Le Web sémantique n'est pas un Web distinct indépendant du web actuel mais c’est le prolongement du web que l'on connaît et où on attribue à l'information une signification clairement définie, ce qui permet aux ordinateurs et aux humains de travailler en collaboration étroite » Tim Berners-Lee
Classification des méthodes Les méthodologies de construction d’ontologies « from scratch » Les méthodologies d’apprentissage d’ontologies Les méthodologies de ré-ingénierie d’ontologies Les méthodologies de construction coopérative d’ontologies Les méthodologies de fusion d’ontologies A partir du texte A partir du dictionnaire A partir d’une base de connaissances A partir des données semi-structurées A partir des schémas relationnels Les méthodologies d’évaluation d’ontologies Les méthodologies d’évolution d’ontologies
Des méthodologies d’apprentissage d’ontologie Les méthodologies d’apprentissage d’ontologies A partir de textes A partir de dictionnaires A partir de bases de connaissances A partir de données semi-structurées A partir de schémas relationnels Basées sur des méthodes de traitement automatique du langage naturel basées sur les règles d’association basées sur les méthodes de clustering basées sur l’enrichissement d’ontologie basées sur la combinaison de plusieurs techniques
Construction automatisée d’ontologies 2 points de vue : Utilisation ou non de connaissance à priori Différentes techniques : Apprentissage Classification automatique Techniques linguistiques Méthodes hybrides
Synthèse ? Type d’ontologie à construire Usage de l’ontologie Sources d’informations d’entrée de la méthode La construction d’une ontologie ? Les techniques de traitement automatique de la langue naturelle Les techniques d’apprentissage L’extraction des concepts L’extraction des relations L’extraction des axiomes Les patrons lexico-syntaxiques symboliques numériques Des techniques hybrides
Synthèse Les techniques de traitement automatique des langues naturelles Extraction des hyponymes des instances Extraction des collocations de termes Extraction des relations taxonomiques La logique des propositions La logique du premier ordre Les réseaux sémantiques Les graphes conceptuels Les arbres de décision Les treillis de Galois Les langages de Frames La représentation des connaissances par objets Les patrons lexico-syntaxiques symboliques Les techniques d’apprentissage Les réseaux bayésiens Les réseaux de neurones Les cartes de Kohonen Les chaînes de Markov cachées (HMM) Les algorithmes génétiques Les algorithmes de clustering numériques
Problématique ? ? ? Type d’ontologie à construire Ontologie pour le web sémantique Usage de l’ontologie Extraction des connaissances à partir du web Sources d’informations d’entrée de la méthode Pages web (html, XML) ? Techniques utilisées L’extraction des concepts ? L’extraction des relations Formalismes de représentation ? L’extraction des axiomes Automatisation du processus de construction Satisfaire la contrainte du passage à l’échelle de l’ontologie et de son évolution. Adopter un enrichissement incrémental de l’ontologie au fur et à mesure de l’acquisition de connaissances.
Architecture de composants ontologiques pour le web sémantique Approche proposée Architecture de composants ontologiques pour le web sémantique
La construction de l’ontologie de domaine Les axiomes de l’ontologie de domaine spécifiant des règles d’extraction de relations et les axiomes de l’ontologie des structures Web permettent un auto apprentissage de l’ontologie de domaine En l’absence des autres composants ontologiques Apprentissage incrémental et itératif en se basant sur des techniques linguistiques et statistiques Initialisation Auto Apprentissage D’ontologie Itération 1 Itération n Etape A Etape B Etape A Etape B
La construction de l’ontologie de domaine Conception et construction manuelle de l'ontologie minimale de domaine en se basant sur les concepts et les relations de synonymie, antonymie, hyponymie…. de Wordnet. La préparation des sources d’apprentissage des concepts et des relations La recherche dans le Web des documents relatifs au domaine d'étude en s'appuyant sur les requêtes de concepts de ont0 (ontologie minimale). La classification des documents Web selon leur pertinence aux concepts de l’ontologie minimale en calculant des vecteurs de poids (tf-idf [SAL 88]) Cette classification aboutira à la répartition des documents Web en des classes de documents textuels La préparation d’un corpus textuel qui comprend un ensemble de phrases contenant au moins un concept de l’ontologie de domaine. La préparation d’un corpus des documents HTML et XML indexés par leurs adresses qui sont extraites. Prétraitement des corpus : étiquetage lexico-syntaxique des textes. Initialisation
La construction de l’ontologie de domaine Initialisation L’enrichissement de l’ontologie «Ont0 » avec de nouveaux concepts à partir des données semi structurés (XML, DTD, tableaux). La construction d’un espace de mots [Yamaguchi, 2001] basé sur les concepts de l’ontologie minimale « Ont0 ». L’apprentissage des axiomes d’extraction de patrons lexico-syntaxiques relatifs aux relations non taxonomiques à partir de l’ontologie minimale Relatifs aux relations de synonymie, hyponymie et méronymie en vue d’extraire les relations de la couche lexicale de l’ontologie de domaine relatifs à l’extraction des instances d’ontologie de domaine Construction d’une matrice permettant de calculer la similarité entre chaque paire de vecteurs représentants une paire de concept dans l’espace de mot antérieurement construit Etape A
La construction de l’ontologie de domaine Initialisation La mise à jour du corpus textuel et la collection des documents Web suivant une recherche basée sur les concepts de l’ontologie minimale. L’extraction de nouvelles relations non taxonomiques et de nouveaux concepts en appliquant les patrons lexico syntaxiques. Les relations sont pondérées par un score se basant sur le calcul de la fréquence de l’application des patrons lexico-syntaxiques antérieurement appris. Mise à jour de l’ontologie minimale Etape A Etape A Etape B
La construction de l’ontologie de domaine Initialisation Exemple : Les axiomes qui spécifient la dérivation des noms, adjectifs et adverbes à partir des verbes Etape A Etape A Etape B Auto Apprentissage Exemple : Les axiomes qui spécifient Les patrons lexioco-syntaxiques des relations conceptuelles Exemple : les axiomes qui spécifient des relations entre les instances en appliquant des méthodes de fouille de données
Conclusion et perspectives Architecture de composants ontologiques 3 ontologies en interaction Implémentation de la partie ontologie de domaine Prise en compte des profils utilisateurs et de l’usage durant le processus de construction Encore beaucoup de travail !!!
Merci de votre attention