Chapitre 7 - Ingénierie des ontologies Grigoris Antoniou Frank van Harmelen Chapter 7 A Semantic Web Primer
Sommaire Introduction Construire manuellement des ontologies Réutiliser des ontologies existantes Application de méthodes semi-automatiques Architecture SW On-To-Knowledge Chapter 7 A Semantic Web Primer
Questions de méthodologie comment appliquer le mieux les outils et les technologies? quel langage et quels outils utiliser dans quel contexte et dans quel ordre? qu'en est-il du contrôle de qualité et de la gestion des ressources? La plupart de ces questions relatives au web sémantique ont été étudiées dans d'autres contextes par ex., ingénierie des logiciels, conception orientée objet et ingénierie des connaissances Chapter 7 A Semantic Web Primer
Sommaire Introduction Construire manuellement des ontologies Réutiliser des ontologies existantes Application de méthodes semi-automatiques Architecture SW On-To-Knowledge Chapter 7 A Semantic Web Primer
Etapes principales du développement des ontologies Fixer les objectifs Envisager la réutilisation Enoncer les termes Définir la taxonomie Définir les propriétés Définir les facettes Définir les instances Vérifier la présence d'anomalies Il ne s'agit pas d'un processus linéaire Chapter 7 A Semantic Web Primer
Fixer les objectifs Il n'y a pas d'ontologie correcte propre à un domaine une ontologie est une abstraction et il y a toujours des alternatives viables Ce que comprend cette abstraction doit être déterminé par: l'utilisation à laquelle est destinée l'ontologie les extensions futures déjà prévues Chapter 7 A Semantic Web Primer
Fixer les objectifs (2) Questions essentielles à ce stade: quel sera le domaine couvert par l'ontologie? quel sera l'usage de l'ontologie? à quels genres de questions l'ontologie doit-elle donner réponse? qui utilisera et assurera la maintenance de l'ontologie? Chapter 7 A Semantic Web Primer
Envisager la réutilisation L'expansion du web sémantique va entraîner une disponibilité accrue des ontologies La définition d’une ontologie part rarement de rien il existe pratiquement toujours une ontologie élaborée par un tiers offrant au moins un point de départ pour son ontologie à soi Chapter 7 A Semantic Web Primer
Enoncer les termes Ecrire sous forme de liste non structurée tous les mots importants susceptibles de figurer dans l'ontologie les substantifs forment la base des noms de classe les verbes ou locutions verbales sont la base des noms des propriétés La connaissance habituelle des outils techniques (par ex., technique de l’échelonnage, analyse en grille) sert à former l'ensemble de termes une structure initiale de ces termes Chapter 7 A Semantic Web Primer
Définir la taxonomie Les termes pertinents doivent être organisés en hiérarchie taxonomique les avis divergent quant à l'efficacité/fiabilité d'opérer en sens descendant ou ascendant Vérifier que la hiérarchie forme réellement une taxonomie: Si A est une sous-classe de B, toute instance de A doit aussi être une instance de B (compatible avec la sémantique rdfs:subClassOf) Chapter 7 A Semantic Web Primer
Définir les propriétés Souvent imbriquées avec l'étape précédente La sémantique de subClassOf exige que si A est une sous-classe de B, chaque déclaration de propriété qui s'applique aux instances de B doit aussi s'appliquer aux instances de A il est cohérent d'attribuer les propriétés à la plus haute classe de la hiérarchie à laquelle elles s'appliquent Chapter 7 A Semantic Web Primer
Définir les propriétés (2) En rattachant des propriétés à des classes, il est conseillé d'immédiatement faire les déclarations de domaine et d'étendue de ces propriétés On voit ici une contradiction de méthodologie entre généralité et spécificité: flexibilité (transfert aux sous-classes) détection des incohérences et des malentendus Chapter 7 A Semantic Web Primer
Définir les facettes: de RDFS à OWL Restrictions de cardinalité Valeurs requises owl:hasValue owl:allValuesFrom owl:someValuesFrom Caractéristiques relationnelles symétrie, transitivité, propriétés inverses, valeurs fonctionnelles Chapter 7 A Semantic Web Primer
Définir les instances Compléter les ontologies à l'aide de ces instances est une opération séparée Nombre d'instances >> nombre de classes Remplir une ontologie avec des instances ne se fait donc pas manuellement récupérées de sources de données légataires (DB) extraites automatiquement d'un corpus de textes Chapter 7 A Semantic Web Primer
Vérifier la présence d'anomalies Un des atouts de OWL par rapport à RDFS est la possibilité de détecter les incohérences dans une ontologie ou une ontologie+instances Exemples d'incohérences habituelles définitions de domaine et d'étendue incompatibles pour des propriétés transitives, symétriques ou inverses propriétés de cardinalité critères de valeurs des propriétés susceptibles d'être en conflit avec les restrictions de domaine et d'étendue Chapter 7 A Semantic Web Primer
Sommaire Introduction Construire manuellement des ontologies Réutiliser des ontologies existantes Application de méthodes semi-automatiques Architecture SW On-To-Knowledge Chapter 7 A Semantic Web Primer
Domaine existant – ontologies spécifiques Domaine médical: ontologie ‘Cancer’ provenant du National Cancer Institute aux Etats-Unis Domaine culturel: Art and Architecture Thesaurus (AAT) possédant 125.000 termes du domaine culturel Union List of Artist Names (ULAN) offrant 220.000 entrées sur des artistes Vocabulaire Iconclass de 28.000 termes de description des images culturelles Domaine géographique: Getty Thesaurus of Geographic Names (TGN), contenant plus d'un million d'entrées Chapter 7 A Semantic Web Primer
Vocabulaires intégrés Fusion de vocabulaires développés de manière indépendante pour en faire une vaste ressource unique Par ex., Unified Medical Language System intégrant 100 glossaires biomédicaux le Metathesaurus UMLS contient 750.000 notions avec plus de 10 millions de liens entre elles La sémantique d'une ressource qui intègre de nombreux vocabulaires développés indépendamment est assez faible mais peut être très utile comme base de départ dans de nombreuses applications Chapter 7 A Semantic Web Primer
Ontologies de niveau supérieur Certaines tentatives ont cherché à définir des ontologies à très large champ d'application non spécifiques à un domaine Cyc, avec 60.000 acceptions de 6.000 notions Standard Upperlevel Ontology (SUO) Chapter 7 A Semantic Web Primer
Hiérarchies des sujets Certaines "ontologies" ne méritent pas leur nom: il s'agit de simples ensembles de termes, vaguement organisés en hiérarchie Ce genre d'hiérarchie n'a que peu à voir avec une taxonomie mais mélange plusieurs relations de spécialisation (par ex., est-un, partie-de, contenu-dans) Mais ces ressources peuvent aussi être des points de départ utiles Exemple: la hiérarchie d'Open Directory qui contient plus de 400.000 catégories hiérarchisées est disponible au format RDF Chapter 7 A Semantic Web Primer
Ressources linguistiques Certaines ressources ont été construites à l'origine non comme des abstractions d'un domaine mais comme ressources linguistiques Elles se sont révélées utiles comme point de départ pour développer des ontologies Par ex., WordNet, avec plus de 90.000 acceptions de mots Chapter 7 A Semantic Web Primer
Bibliothèques d'ontologies On cherche actuellement à élaborer des bibliothèques en ligne d'ontologies il est rare que des ontologies existantes puissent être réutilisées sans modifications les concepts et propriétés existants doivent être redéfinis avec rdfs:subClassOf et rdfs:subPropertyOf d'autres noms doivent être introduits qui conviennent mieux au domaine visé avec owl:equivalentClass et owl:equivalentProperty on peut exploiter les possibilités de RDF et OWL d'affiner personnellement les classes définies dans d'autres ontologies Chapter 7 A Semantic Web Primer
Sommaire Introduction Construire manuellement des ontologies Réutiliser des ontologies existantes Application de méthodes semi-automatiques Architecture SW On-To-Knowledge Chapter 7 A Semantic Web Primer
Le goulet de l'acquisition des connaissances L'acquisition manuelle d'ontologies demeure une tâche longue, chère, très exigeante en compétences et parfois fastidieuse L'Apprentissage Machine peut servir à alléger l'acquisition ou l'extraction de connaissances la révision ou la maintenance de connaissances Chapter 7 A Semantic Web Primer
Tâches prises en charge par l'apprentissage machine Extraction d'ontologies au départ de données trouvées sur le web Extraction de données et métadonnées relationnelles au départ de données trouvées sur le web La fusion et la cartographie des ontologies par analyse des extensions de concepts Maintenance des ontologies par analyse des données des instances Amélioration des applications SW grâce aux observations des utilisateurs Chapter 7 A Semantic Web Primer
Techniques utiles d'apprentissage machine pour l'ingénierie d'ontologies Clustering (groupage) Mises à jour incrémentales des ontologies Support de l'ingénieur connaissances Amélioration des grandes ontologies en langage naturel Apprentissage d'ontologies pures (domaines) Chapter 7 A Semantic Web Primer
Techniques d'apprentissage machine pour les ontologies en langage naturel Les ontologies en langage naturel (NLO) de grandes dimensions, elles ne nécessitent pas de fréquentes mises à jour En l'état actuel, l'apprentissage NLO paraît assez optimiste: il existe des NLO stables multi-usages il existe des techniques de construction automatique ou semi-automatique et d'enrichissement de NLO spécifiques Chapter 7 A Semantic Web Primer
Techniques d'apprentissage machine pour ontologies de domaines Elles fournissent des descriptions détaillées Habituellement construites manuellement L'acquisition des ontologies de domaines est toujours guidée par l'ingénieur connaissances humaines les techniques d'apprentissage automatique jouent un rôle mineur dans l'acquisition des connaissances il faut trouver des dépendances statistiquement valables dans les textes du domaine et les suggérer à l'ingénieur connaissances Chapter 7 A Semantic Web Primer
Techniques d'apprentissage machine pour instances d'une ontologie Les instances d'une ontologie peuvent être générées automatiquement et fréquemment mises à jour alors que l'ontologie reste inchangée S'adapte bien dans le cadre de l'apprentissage machine Applications ML réussies dépendent étroitement de l'ontologie du domaine ou remplissent le balisage sans rapport avec aucune théorie de domaine les techniques générales ne sont pas encore disponibles Chapter 7 A Semantic Web Primer
Diverses utilisations de l'apprentissage d'ontologies Tâches d'acquisition d'ontologies en ingénierie des connaissances création d'ontologies de toutes pièces par l'ingénieur connaissances extraction du schéma d'ontologies au départ de documents web extraction des instances d'ontologies au départ de documents web Tâches de maintenance des ontologies intégration et consultation des ontologies mise à jour de certaines parties d'une ontologie enrichissement ou perfectionnement d'une ontologie Chapter 7 A Semantic Web Primer
Tâches d'acquisition d'ontologies Création d'ontologies de toutes pièces par l'ingénieur connaissances ML assiste l'ingénieur en suggérant les relations essentielles dans la spécialité et en vérifiant les bases des connaissances construites Extraction des schémas d'ontologies à partir de documents web ML utilise les données et métaconnaissances (comme une méta-ontologie) comme entrée et génère l'ontologie prête à l'usage en sortie avec l'aide éventuelle de l'ingénieur connaissances Chapter 7 A Semantic Web Primer
Tâches d'acquisition des ontologies (2) Extraction des instances d'ontologies au départ de documents web cette tâche extrait les instances de l'ontologie présentée dans les documents web et en remplit les schémas cette tâche est similaire à l'extraction d'information et l'annotation de page, elle peut s'appliquer aux techniques développées dans ces secteurs Chapter 7 A Semantic Web Primer
Tâches de maintenance des ontologies Intégration et consultation des ontologies vise la reconstruction et la navigation dans les grandes bases de connaissances éventuellement acquises par apprentissage machine Mise à jour de certaines parties d'une ontologie prévues pour être mises à jour Enrichissement ou perfectionnement d'une ontologie ceci ne change pas les structures et concepts principaux mais rend une ontologie plus précise Chapter 7 A Semantic Web Primer
Algorithmes d'apprentissage machine potentiellement applicables Proposition d'algorithmes d'apprentissage des règles Apprentissage bayesien génère des règles probabilistes valeurs-attributs Apprentissage des règles logiques du premier ordre Algorithmes de groupage groupent les instances sur la base de la similarité ou des dissemblances entre paires d'instances définies par les valeurs de leurs attributs Chapter 7 A Semantic Web Primer
Sommaire Introduction Construire manuellement des ontologies Réutiliser des ontologies existantes Application de méthodes semi-automatiques Architecture SW On-To-Knowledge Chapter 7 A Semantic Web Primer
Architecture On-To-Knowledge Contruire le web sémantique suppose l'utilisation: des nouveaux langages décrits dans ce cours un style assez différent d'ingénierie une approche assez différente de l'intégration des applications On décrit comment plusieurs outils du web sémantique peuvent être intégrés en une architecture légère et unique utilisant les standard du web sémantique pour arriver à l'interopérabilité entre les outils Chapter 7 A Semantic Web Primer
Acquisition des connaissances Il faut tout d'abord qu'existent les outils utilisant les techniques d'analyse de surface pour obtenir le contenu des documents Documents non structurés en langage naturel: techniques statistiques et technologie des langages naturels peu profonds documents structurés et semi-structurés: induction de wrappers, reconnaissance de modèles Chapter 7 A Semantic Web Primer
Stockage des connaissances Les résultats donnés par les outils d'analyse représentent un ensemble de concepts organisés en hiérarchie peu profonde avec, au mieux, très peu de relations taxonomiques croisées RDF/RDFS sont suffisamment expressifs pour représenter l'information extraite stocker les connaissances produites par les outils d'extraction récupérer ces connaissances, de préférence à l'aide d'un langage de requête structuré (par ex., RQL) Chapter 7 A Semantic Web Primer
Maintenance et utilisation des connaissances Un répertoire pratique du web sémantique doit avoir les fonctionnalités nécessaires à la gestion et à la maintenance de l'ontologie: gestion des changements droits d'accès et de propriété gestion des transactions Il doit y avoir un support à la fois pour: les ontologies légères automatiquement générées à partir de données non structurées et semi-structurées l'ingénierie humaine de beaucoup plus nombreuses ontologies fortement chargées en connaissances Chapter 7 A Semantic Web Primer
Maintenance et utilisation des connaissances (2) Les environnements sophistiqués d'édition doivent être en mesure de: récupérer les ontologies dans les répertoires permettre à l'ingénieur connaissances de les manipuler et de les remettre dans le répertoire Les ontologies et les données du répertoire doivent pouvoir servir à des applications d'utilisateurs finaux on a déjà vu plusieurs de ces applications Chapter 7 A Semantic Web Primer
Interopérabilité technique l'interopérabilité syntaxique est atteinte parce que tous les composants communiquent en RDF l'interopérabilité sémantique est atteinte parce que toute la sémantique est exprimée en RDFS L'interopérabilité physique est atteinte parce que toutes les communications entre composants sont établies à l'aide de simples connexions HTTP Chapter 7 A Semantic Web Primer
Architecture du système On-To-Knowledge Chapter 7 A Semantic Web Primer