La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Construction d’ontologies à partir de textes

Présentations similaires


Présentation au sujet: "Construction d’ontologies à partir de textes"— Transcription de la présentation:

1 Construction d’ontologies à partir de textes
Nathalie Aussenac-Gilles IRIT – CSC ingénierie des connaissances N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

2 Construction d'ontologies à partir de textes - BDA 2003
Thème et objectifs Thème : Méthode et outils pour la construction de modèles conceptuels à partir de textes Objectifs : Montrer les enjeux pour les recherches sur la modélisation conceptuelle de la problématique des ontologies Clarifier les caractéristiques des différents paradigmes Placer le débat au niveau des modèles et de leurs contenus Importance de l’usage et des applications Présenter un panorama d’outils et une méthode N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

3 Construction d'ontologies à partir de textes - BDA 2003
Plan Ontologies et textes à BDA : motivations Différentes facettes de la modélisation conceptuelle Ressources terminologiques et ontologiques : définitions Construire des modèles conceptuels à partir de textes N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

4 Motivations Convergence des objets de recherche
Domaines concernés : Bases de données, modélisation objet, ingénierie des connaissances Langages, méthodes, plates-formes, vérification par la logique … de modèles conceptuels Ateliers de génie logiciel étendus pour représenter des ontologies ER ou UML pour représenter des ontologies ex : ICOM atelier basé sur ER, intègre un moteur de logique de description, sauvegarde des ontologies en XML. N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

5 Motivations Croisements du côté des applications
Frontières moins nettes entre types d’applications Ex : PICSEL : ontologie pour accéder à des serveurs de BD BD semi-structurées pour la mémoire d’entreprise Mise en forme de business rules au sein d’un SI Utilisation des ontologies pour organiser, structurer des données Ex : faut-il une ontologie ou une BD pour organiser une bibliographie ? « Ontologie » désigne une hiérarchie de termes, une base de données lexicales ou N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

6 Motivations Poser les bases pour un débat
Confusion ou perplexité au niveau des applications Face à un besoin d’entreprise : ontologie ou schéma E/R ou UML ? Confusion entre la question des langages et la question de la nature de chacun de ces modèles Situer le débat au niveau de la modélisation conceptuelle Statut des modèles Ancrage et fondements des connaissances N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

7 Motivations L’invasion des ontologies
Tout est-il ontologie ? Retour sur la définition Retour sur les prétentions affichées Panorama sur les ressources terminologiques et ontologiques Des ontologies « à tout faire » Des prétentions … aux usages Ce que permet la formalisation (cf. BD déductive ?) Formaliser pour affiner le sens Formaliser pour vérifier Formaliser pour raisonner Ce que permet une dimension lexicale Des termes pour communiquer Des termes pour localiser des concepts ou des connaissances N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

8 Construction d'ontologies à partir de textes - BDA 2003
Plan Ontologies et textes à BDA : motivations La modélisation conceptuelle en question Réponses possibles en matière de modélisation Différentes facettes de la modélisation conceptuelle Ressources terminologiques et ontologiques : définitions Construire des modèles conceptuels à partir de textes N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

9 2. Modélisation conceptuelle en question
Modéliser, c’est répondre à des besoins Modèles comme support au dialogue Modèles comme spécification de code Eventail de contraintes sur les modèles Modéliser, c’est représenter Primitives conceptuelles (méta-modèle) « Langage » de représentation Modéliser, c’est sélectionner les « bonnes connaissances » Méthodes pour analyser, identifier, décrire Outils d’aide N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

10 2. a. Réponses possibles Schémas Entité-Association
Entités, association, règles de normalisation Est-auteur-de Encadre Est-rattaché-à n .. n Id-publi Titre Date TitreVolume Pages Editeur Chercheur Publication Laboratoire Id-Chercheur Nom-ch Grade Téléphone-ch Organisme-ch Id-labo Nom-labo Adresse Organisme-Labo Thésard Id-thésard Nom-th Affiliation Téléphone-th Sujet-thèse 1 .. n n .. n 1 .. 2* N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

11 2. a. Réponses possibles Schéma entité-association
(Id-chercheur, Nom, Grade, Téléphone, organisme) Un chercheur a un identifiant unique Id-chercheur, s’appelle d’un certain Nom, a un certain Grade, a une certain numéro de Téléphone et est rattaché à un Organisme, où chaque attribut est pris dans un certain domaine. Tuple vérifiant la relation : (12660, « Nathalie Aussenac », CR1, «   », CNRS) Est-rattaché-à (Id-chercheur, Id-laboratoire) Association fonctionnelle entre (ID-chercheur, Id-laboratoire) (id-chercheur, Grade) etc. Le nom de la relation reste implicite, n’a pas d’impact sur les traitements Logique du premier ordre N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

12 2. a. Réponses possibles Diagramme de classes UML
Classes, slots, relations entre classes Héritage, comportement à travers les méthodes Laboratoire Nom Adresse Affiliation * * Personnel recherche Nom Téléphone Affiliation * * Publications Titre TitreVolume Date Pages Edition Est-rattaché-à Est-auteur-de Chercheur Grade * * Thésard Sujet thèse Encadre N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

13 2. a. Réponses possibles Diagramme de classes UML
Gestion de l’héritage suppose des logiques plus complexes : exprimer des propriétés sur les attributs, modalités, … Sémantique des relations peu exploitée N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

14 2. a. Réponses possibles Ontologies formelles
Concepts, instances Relations sémantiques, axiomes Top Est-instance-de Être inanimé Être animé Universel Individuel Organisme Nom Personnel recherche Prénom Téléphone Chercheur Grade Thésard Sujet thèse Publications Titre Titre-Volume Date Pages Edition Laboratoire Adresse Est-auteur-de Encadre Affiliation Rattachement Est-rattaché-à N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

15 2. a. Réponses possibles Ontologies formelles
Sémantique des relations : signature (typage des concepts reliés) Frame logic : simplification des capacités d’expression pour assurer la calculabilité de raisonnements. Ex : CARIN-ALN Instances : chercheur (NAussenac), thésard(Mbaziz), encadre(Naussenac, Mbaziz) N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

16 Facettes de la modélisation Objectifs et enjeux
Ontologies Représenter un domaine, associer des connaissances à des objets métier Formaliser pour raisonner Enjeux identifier les concepts, les décrire Gérer un grand nombre de concepts, relativement peu d’instances Traitements mal définis a priori Schémas E-A Spécifier les objets manipulés par un système d’information Normaliser pour optimiser les traitements Enjeux : Caractériser des classes connues a priori Peu de classes, très grande quantité d’instances, Traitements bien connus a priori (requêtes identifiées) N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

17 Facettes de la modélisation Utilisations
Ontologies Utilisées pour des traitements variés et complexes : Analyse du langage Indexation, annotation documentaire Recherche d’information Interrogation directe … Lisibilité, accessibilité par les utilisateurs (validité cognitive), des organisations (pertinence sociale) Besoins en formalisation très différents Schémas E-A Traitements massifs, à grande échelle, liés au stockage d’instances Choix de structuration visant l’optimisation des traitements Lisibilité par les analystes, sert de base à la conception informatique Besoins en formalisation toujours identiques N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

18 Facettes de la modélisation Contraintes
Ontologies Exhaustivité, couverture du domaine en fonction de l’application Consensus, réutilisabilité Interopérabilité : langage standard Proche de représentations humaines Coût élevé, contenu très riche Schémas E-A Précision, compacité, entités nécessaires et suffisantes pour l’application anticiper des traitements massifs, à grande échelle, liés au stockage d’instances Plus d’arbitraire Plus rapide, plus simple à élaborer N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

19 Facettes de la modélisation Fondements des modèles
Fonder des modèles sur l’introspection, l’analyse d’organigrammes et des normes (formes normalisées) L’approche BD Fonder des modèles sur des principes ontologiques caractérisant classes et propriétés des objets, des états … Approche ontologique formelle et philosophique Fonder des modèles sur l’analyse de l’activité et des savoir-faire individuels ou collectifs mis en œuvre L’approche IC (ergonomie et sociologie) Fonder des modèles sur l’usage des connaissances tel qu’il est révélé par le langage, avec le consensus minimal que cela suppose Approche développée dans ce tutoriel N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

20 Construction d'ontologies à partir de textes - BDA 2003
Plan Ontologies et textes à BDA : motivations Différentes facettes de la modélisation conceptuelle Ressources terminologiques et ontologiques Définitions Enjeux de la formalisation Construire des modèles conceptuels à partir de textes N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

21 3.a. Ressources terminologiques et ontologiques : définitions
Une gamme de produits construits pour accéder aux connaissances via la langage Thésaurus (recherche documentaire et RI) Terminologies (aide à la rédaction, traduction) Base de connaissances terminologiques (formation, modélisation d’un corpus) Ontologies (systèmes à base de connaissances, agents sur le web, …) N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

22 Construction d'ontologies à partir de textes - BDA 2003
Thesaurus Thésaurus SRLF et de la SFAR hémopéritoine Utilisé par les praticiens pour coder les actes médicaux N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

23 Ontologie : définition
Ontologie INGÉNIERIE DES CONNAISSANCES. Ensemble des objets reconnus comme existant dans le domaine. Construire une ontologie, c’est aussi décider d’une manière d’être et d’exister des objets. Modèles des connaissances d’un domaine : ontologie du domaine … pertinentes pour une application, une tâche donnée : ontologie régionale Application de principes de normalisation, de « bonne construction » Conceptualisation sous forme de réseau sémantique (concepts, relations) + axiomes N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

24 Construction d'ontologies à partir de textes - BDA 2003
hémopéritoine : « épanchement hématique localisé au niveau du péritoine » Hiérarchie de concepts Hiérarchie de relation ETAT_PATHOLOGIQUE ETAT_PATHOLOGIQUE_LOCAL LESION adénopathie épanchement épanchement gazeux épanchement liquidien épanchement de pus épanchement hématique ANATOMIE ANA_TISSU_ENVEL capsule duremère mésentère peau péritoine LOCALISATION à_côté_de à_l'extérieur_de au_dessus_de au_niveau_de Liens LESION (LOCALISATION) ANATOMIE graphes canoniques (GC) ou restrictions de rôle (LD) L’ensembles des graphes canoniques est le « support » Chaque concept primitif n’a qu’un seul père (point de vue) Le jeu de la subsomption sur les propriétés explicites des concepts définis permet d’obtenir plusieurs classifications (pères) pour un concept défini. On (le système informatique) peut comparer, classifier Pb : le retour aux termes Concept défini épanchement hématique (au_niveau_de) péritoine N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

25 Construction d'ontologies à partir de textes - BDA 2003
fracture à la base du crâne Hiérarchie de concepts Hiérarchie de relations LESION épanchement fracture SITUATION angle base bord LOCALISATION à_côté_de à_l'extérieur_de au_dessus_de au_niv_de OBJET DE ANATOMIE_OBJET OS crâne Liens LESION (LOCALISATION) SITUATION SITUATION (OBJET) ANATOMIE_OBJET Concept défini fracture (au_niveau_de) base (DE) crâne N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

26 Thesaurus vs. Ontologie
Contenu : Descripteurs, mots-clés Relations : «is_a», « synonyme » (terme préférentiel), «voir_aussi» Utilisé par un agent humain (documentaliste, spécialiste) pour indexer des documents Ontologie Contenu Une taxinomie des concepts, une taxinomie de relation Des « rôles » Décrite dans un langage de représentation des connaissances et exploitée par un système informatique Possibilité de comparer et de classer des concepts Capacité générative Inférences > - le 17 qui ne me semble peut-être pas assez clair et devrait être > complété par un suivant. Il faudrait, lui, l'enricir sur le fait que > l'ontologie formelle ne peut fonctionner que avec des arborescences non > ambiguës de is-a sinon, le prgm se plante. La relation is-a n'est pas > obligatoire mais ç'est la plus utile. Par contre, dès qu'elle a été > choisie pour structurer l'ontologie il peut y avoir d'autres relations > (justement avec les relations, les "rôles" pour les logiques de > description) mais elles sont déportées à côté, en dehors de > l'arborescence primitive. N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

27 Le modèle des données d’une BCT
Fragments de Textes DOCUMENT2 Service YYY #Top Concepts Unité1.2 Service XXX #Document définition --- --- attributs ---- Unité 1.1 DOCUMENT1 Service XXX relation conceptuelle dossier de spécification Termes document de projet. COMPOSANTES LINGUISTIQUE CONCEPTUELLE DISSOCIATION TERME-CONCEPT STRUCTURE DE DONEES DEFINIE PAR LES TERMINOLOGUES ALTERNATIVE AUX BDT POINT FORT = S’APPUIENT SUR UNE ANALYSE DE CORPUS -> AUTORISE L’UTILISATION DE RESULTTS DE LA LINGUISTIQUES ET D’OUTILS DE TALN POUR ANALYS EAUTO DE CORPUS -> PLUS GRANDE VALIDITE DES DONNEES ACCES AU TEXTE COE JUSTIFICATION contextes de validité document de spécification détaillée informations linguistiques N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

28 Solutions apportées par ce modèle
Aspects linguistiques termes équivalents synonymie polysémie points de vue prise en compte du locuteur patrons syntactico-sémantiques Aspects conceptuels relations conceptuelles spécifiques sémantique des relations points de vue héritage des attributs et relations conceptuelles Lisibilité des descriptions N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

29 3.b. Ontologies : enjeux de la formalisation Capacité d’expression
Exemple : projet PICSEL, LRI Partie terminologique Concepts organisés en hiérarchie, définis par leurs relations (cns ou père + prop.spécifiques) (DEF-CONCEPT chercheur (and personnel-recherche (ATLEAST 1 Grade)(ATMOST 1 Grade) (ALL Grade Grade) (ALL encadre Thésard))) Contraintes : Relations d’exclusion entre concepts de base EquipementCulturel  equipementSportif   Typage des rôles : (ALL encadre Thésard) dans définition Chercheur N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

30 3.b. Ontologies : enjeux de la formalisation Capacité d’expression
Partie déductive Relations autres que unaires et binaires : R1 : VolAR(villeDépart, dateDépart1, villeArrivée, dateDépart2) <= Vol(v1), lieuDepart(v1, villeDépart), lieuArrivée (v1, villeArrivée), Vol(v2), lieuDepart(v2, villeArrivée), lieuArrivée (v2, villeDépart), dateDépart(v1,dateDépart1), dateDépart(v2,dateDépart2), antérieure (dateDépart, dateDépart2) Relations disjonctives : autant de règles que d’alternatives ProduitJeune(x) <= produit(x), (ATMOST 1 produitServiceAssocié) ProduitJeune(x) <= produit(x), produitServiceAssocié(x,y), bonMarché(y) Relations inverses Raccourci d’enchaînement de rôles N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

31 3.b. Ontologies : enjeux de la formalisation Capacité d’expression
Expression de requêtes SéjourAuSoleil(s,p) <= CombinéSéjour(s), LogementAssocié(s,l), lieuDeRésidence(r), SituéDans(r,p), LieuAuSoleil(p) Calcul de plans de requête Vérifier la satisfiabilité Substituer chaque terme de la requête par sa définition logique, c’est-à-dire par toutes ses spécialisations possibles -> plusieurs requêtes disjonctives Réécriture de chaque requête conjonctive (même principe) à partir de la réécriture de chacun des atomes -> identification des faits correspondants Affinement de requêtes Repérage de conflits Exploitation de la hiérarchie pour généraliser Calcul de requête satisfiable à partir de requêtes insatisfiables par généralisation de concepts N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

32 Construction d'ontologies à partir de textes - BDA 2003
Plan Ontologies et textes à BDA : motivations Différentes facettes de la modélisation conceptuelle Ressources terminologiques et ontologiques Construire des modèles conceptuels à partir de textes Justification Panorama d’outils pour l’analyse de textes Une méthode à travers une étude de cas : le projet verre N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

33 4 - Construire des modèles à partir de textes Justification
Pourquoi recourir aux textes ? Sources de connaissances (partagées et stabilisées à l’écrit) Améliorent la lisibilité et la maintenance des modèles Complémentaires de l’expertise humaine Gain de temps, réduction des coûts Quels textes ? Nature et contenu des corpus Ensemble de textes choisis en fonction de l’application et de leurs caractéristiques (contenu, genre textuel, date, auteurs, format, etc.) Documents techniques, documents didactiques, retranscriptions d’entretiens, informations échangées par réseaux … N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

34 Construction d'ontologies à partir de textes - BDA 2003
Quels outils d’analyse de textes pour la construction de modèles conceptuels ? Textes tal1 Modèle Système d’information Traitant des textes tal2 Logiciels de traitement automatique des langues : TAL « Partir des textes pour mieux y revenir » N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

35 Problématique du traitement de l’information textuelle
épanchement hématique (au_niveau_de) péritoine Ressource ANATOMIE LESION LOCALISATION CONCEPT système hémopéritoine terme texte L'échographie abdominale retrouve une contusion splénique et un hémopéritoine. Traumatisme abdominal avec une fracture de rate et un hémopéritoine abondant, ayant nécessité une splénectomie en urgence. Un nouvel état de choc apparaît associé à syndrome compartimentaire abdominal (hémopéritoine + hématome rétropéritonéal)) justifiant la laparotomie exploratrice. L'évacuation de l'hémopéritoine ne permet pas de mettre en évidence une cause nette au saignement ;Instabilité hémodynamique initiale, avec TA 80 / 60 et fréquence cardiaque à 120 / min en relation avec des pertes sanguines sur les foyers de fractures (échographie abdominale normale, absence d‘ hémopéritoine ou de lésion viscérale intrapéritonéale évidente)).deux échographies abdominales successives un hémopéritoine évolutif, sans pneumopéritoine, ainsi qu'un décollement péricardique postérieur.un traumatisme thoraco-abdominal avec fracture des arcs postérieurs des 7e, 8e et 9e côtes droites, contusion hépatique au niveau des segments VI-VII, hémopéritoine de moyenne abondance, contusion splénique,Instabilité hémodynamique nécessitant remplissage, transfusion de culots globulaires, PFC et plaquettes dans le cadre d'un hémopéritoine sur fracture du bassin. N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

36 Traitement de l’information textuelle
RTO sevrage (OBJET) Noradrénaline CONCEPT sevrage_Noradrénaline sevrage en noradrénaline sevrage de la noradrénaline termes système sevrage Adj? [de|en] la? noradrénaline sevré de noradrénaline patrons noradrénaline être Adv? sevré texte sevrage en noradrénaline le 23 / 10. Stabilité cardiorespiratoire, le sevrage de la Noradrénaline est fait à J5 de la réintervention et l'extubation est réalisée à J6. Evolution favorable avec sevrage rapide en Noradrénaline le 20 / 06 / 99. Stabilité hémodynamique initiale correcte avec sevrage progressif en Noradrénaline obtenu à J3. Les suites du choc hypovolémique hémorragique sont simples, avec sevrage de noradrénaline à J3 et extubation à J2. L'évolution est alors favorable avec Instauration d'une corticothérapie ayant permis un sevrage rapide de la Noradrénaline, La patiente est sevrée de noradrénaline le 16 / 06 / 00. Le patient est sevré de Noradrénaline le 13 / 05 / 00. La Noradrénaline est sevrée dans la nuit du 20 au 21 / 01. Après remplissage vasculaire par 1000 cc de Plasmion et 1000 cc d'Elohes, la Noradrénaline est rapidement sevrée N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

37 Panorama de logiciels pour extraire et structurer
Une typologie fonctionnelle : Extraction de concordances : YAKWA, SATO Extraire des candidats termes. ex : Syntex, NOMINO, ANA Extraire des relations candidates. Ex: Prométhée, Caméléon Extraire des constructions prédicats / arguments : ASIUM, SVET’LAN Autres typologies Méthodes linguistique / méthodes statistiques Construction de RTO / mise à jour de RTO Phase d’amorçage / phase d’enrichissement Rappel : il ne s’agit pas de construction automatique… Ces tâches sont parfois réalisées conjointement Mais aussi Parler des méthodes basée sur exemple, en particulier pour le repérage de patrons d’extraction d’information D’autres typologies possibles On mettra l’accent ici sur les outils linguistiques, qui génèrent et ou exploitent des données linguistiques (morpho, syntaxique, lexicale, voire sémantique) Amorçage, fouille Basés sur exemple, apprentissage Ici plutôt : Amorçage, sans phase initiale d’exemples N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

38 1 . Extraction de concordances
Fonction : pour un patron donné, présenter toutes les occurrences rassemblées Niveau d’annotation du corpus corpus « nu » : uniquement forme (suite de mots) corpus étiqueté : patrons morpho-syntaxique. Exemples : {nom}+{verbe « être » indicatif}+{article indéfini} {pronom personnel 1ère pers.}+{verbe indicatif}+{« dans »}+{déterminant démonstratif}+{Nom} activité de construction d' un |modèle |de connaissances , ou modélisation des solution verticale comporte un |modèle |à la KADS , une bibliothèque de composants A un stade ultime , le |modèle |formel est , la plupart du temps , connaissances en distinguant le |modèle |conceptuel du modèle opérationnel du monde ( on parle de |modèle |de produit ) et objet de modélisation de le projet européen KADS , le |modèle |conceptuel joue le rôle de modèle originale , de créer un |modèle |cognitif du futur système N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

39 Exemple de logiciel d’exploration de corpus : Yakwa
Principes Requêtes basées sur la syntaxe et la sémantique Nécessite une corpus étiqueté (Tree Tagger analyseur syntaxique) Utilisation pour la recherche de relations entre concepts Aller chercher des indices lexicaux (marqueurs) de relations sémantiques pour organiser les concepts Lien avec Caméléon : utilisation de marqueurs génériques pour relations EST-UN et PARTIE-DE N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

40 Construction d'ontologies à partir de textes - BDA 2003
Création de requêtes N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

41 Interprétation des résultats
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

42 Construction d'ontologies à partir de textes - BDA 2003
2 . Extraction de termes Fonction : extraction et tri automatiques de candidats termes CT : séquence susceptible d’être retenue comme étiquette de concept Méthodes d’extraction statistiques segments répétés information mutuelle morpho-syntaxiques repérage de patrons analyse syntaxique partielle Critères de tris numériques fréquence d’occurrences dans le corpus productivité : nombre de CT plus complexes dont le CT est constituant Donner des exemples d’hapax, de mots productifs N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

43 Syntex : analyse syntaxique et construction d’un réseau de syntagmes
En entrée : un corpus étiqueté Dans chaque phrase, à chaque mot est associée une étiquette morphosyntaxique (Cordial, TreeTager) En sortie : 1) un corpus analysé syntaxiquement Dans chaque phrase, identification des relations de dépendance syntaxique (sujet, complément d’objet, épithète, …) entre les mots En sortie : 2) un réseau de syntagmes 1) De chaque phrase, extraction de syntagmes verbaux, nominaux, adjectivaux 2) Pour l’ensemble du corpus, construction d’un réseau de syntagmes structuré par les relations Tête et Expansion N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

44 Construction d'ontologies à partir de textes - BDA 2003
Analyse syntaxique Le chat de Marie mange une petite souris. Etiquetage morphosyntaxique Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. Analyse syntaxique SUJ OBJ Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

45 2) Construction d’un réseau de syntagmes
SUJ OBJ L’ érosion attaque un plan de faille Extraction de syntagmes plan faille T E attaquer plan de faille T T : tête E : expansion E attaquer un plan de faille plan : nom  plan de faille : syntagme nominal attaquer : verbe  attaquer un plan de faille : syntagme verbal N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

46 2) Construction d’un réseau de syntagmes
attaquer ~ pénéplaine ~ pente raide ~ plan de faille ~ roche sédimentaire ~ section anticlinale ~ table karstique plan ~ de cisaillement ~ de diaclase ~ de faille ~ de glissement ~ de schistosité ~ de stratification T T faille escarpement de ~ ligne de ~ plan de ~ E N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

47 Données de l’analyse distributionnelle
Termes Contextes agent de l’état agent formation professionnelle formation état professionnel ( bénéficier de formation professionnelle , SUJ ) ( bénéficier de formation, SUJ ) ( bénéficier , SUJ ) ( agent de l’état bénéficier , DE ) ( agent bénéficier , DE ) ( bénéficier , DE ) ( agent , DE ) ( formation , ADJ ) N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

48 Construction d'ontologies à partir de textes - BDA 2003
Mesures de similarité Productivité d’un terme, d’un contexte Contextes pour le terme : murmure vésiculaire Termes pour le contexte : ( patient présenter , OBJ ) ( abolir , OBJ ) ( abolir à gauche , OBJ ) ( abolition , DE ) ( diminuer , OBJ ) ( diminuer à gauche , OBJ ) ( diminution , DE ) ( percevoir , OBJ ) amyotrophie détresse douleur douleur thoracique dyspnée fièvre fracture hématome Syndrome productivité = 7 productivité = 9 N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

49 3 . Extraction de relations : Caméleon
La notion de marqueur : Eléments lexico-syntaxiques permettant de repérer une relation conceptuelle Hypothèses : Une même relation peut s’exprimer par différents marqueurs Les relations peuvent dépendre du corpus Les marqueurs peuvent dépendre du corpus Corpus étiqueté en entrée, hypothèses de relations en sortie Modèle conceptuel enrichi de relations conceptuelles N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

50 Construction d'ontologies à partir de textes - BDA 2003
Ajuster les marqueurs Sélectionner des relations et des marqueurs génériques ex : hypéronymie (est-un) : Det N1 est Det N2 (qui, adj, p.passé, p.présent) Tous les N2 sauf det N1 Det N1 comme det N2 Les évaluer en corpus Les adapter au corpus pour réduire le bruit et le silence Identifier patrons et relations spécifiques au corpus Par projection de couples de termes Par observation de contextes Par observation des résultats de Syntex  On construit une base de marqueurs adaptés au corpus N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

51 Répérer des relations lexicales
Formule qui définit le marqueur Phrases qui contiennent la forme et qui peuvent contenir une relation (hypothèses) Termes en relation que peuvent indiquer des concepts reliés N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

52 Repérage de relations avec Caméléon
Des hypothèses de relations aux Relations conceptuelles N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

53 Construction d'ontologies à partir de textes - BDA 2003
Plan Ontologies et textes à BDA : motivations Différentes facettes de la modélisation conceptuelle Ressources terminologiques et ontologiques Construire des modèles conceptuels à partir de textes Justification Panorama d’outils pour l’analyse de textes Une méthode appliquée à une étude de cas : le projet verre N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

54 Construire des modèles à partir de texte Principes
Exploiter les textes Partir des textes comme sources et supports de connaissances Utiliser des techniques et outils d’analyse de corpus basés sur des principes linguistes et statistiques Plonger le modèle conceptuel dans son contexte linguistique : conserver un lien du modèle vers les textes Poids de l’application L’ontologie est construite pour une application. L’application s’inscrit dans une pratique (domaine) L’ingénieur de la connaissance est un médiateur. N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

55 Construction d'ontologies à partir de textes - BDA 2003
L’ontologue au centre Spécialistes s Ressources existantes Domaine Ressource Termino- Ontologique Textes tal Ontologue o Application Avant de parler d’outils de tal (développer), il est primordial de prendre en compte le contexte d’utilisation et l ’utilisateur récursivité : on applique à l ’activité de développement d ’un outil de tal une méthode classique en génie logiciel ou des connaissances on peut parler d’ingénierie linguistique Utilisateur u N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

56 Une autre vue sur la méthode
Documents Techniques 1. Constituer un corpus Outils d’Analyse de Textes 2. Appliquer des outils d’analyse de textes 3. Structurer et normaliser les données 4. Formaliser dans un modèle Modèle N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

57 1. Constitution du corpus
Choisir des documents Compromis entre représentativité (sujet, genre textuel) ET taille Trouver les documents les plus pertinents pour l’application Mettre les documents au bon format Evaluer leur pertinence Décider de la manière de les traiter Identifier les groupes homogènes : type de document, sujet Rendre compte de connaissances communes ou différenciées Opportunisme : découpage en sous-corpus Pourquoi des outils? Pourquoi une méthode? Pour passer de 207kmots aux 200 concepts nécessaires à la descritpion des outils de ‘l ’ic en rance N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

58 Constitution du corpus
Livre Vocabulaire technique : procédés du verre textile 10 chapitres mots Brevets Vocabulaire technique des dépôts de brevets 13 brevets 61272 mots Veille Vocabulaire de la finance et économie 7 mois articles AFP 91658 mots Vocabulaire générique du verre 563 noms et 59 SN Pourquoi des outils? Pourquoi une méthode? Pour passer de 207kmots aux 200 concepts nécessaires à la descritpion des outils de ‘l ’ic en rance Entre 93 et 98% des SV et SN et plus de la moitié des mots simples sont propres à chaque sous-corpus. caractérisation rapide de la nature de ces vocabulaires N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

59 Outils d’analyse de textes
2 . Etude terminologique Documents techniques Extraction de termes mis en relation par Syntex Recherche de relations à l’aide de patrons avec Yakwa Fiches terminologiques dans Terminae et fiches Concept-terminologique dans Excel Liée à la normalisation Outils d’analyse de textes Syntex Yakwa Eléments d’ontologie Terminae N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

60 Représentation dans Terminae
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

61 Construction d'ontologies à partir de textes - BDA 2003
3 . Normalisation Interprétation sémantique du contenu des textes guidée par l’expertise et les besoins de l’application Il est utopique (et coûteux) de vouloir TOUT tirer des textes et seulement des textes. Structurer => Fixer un point de vue lié à l’application 3 types d’activités Regroupements, généralisations, spécialisations Mêmes données, exploitées selon trois points de vue. N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

62 Recommandations pour la normalisation
Des principes d’analyse des textes Une démarche générale pour définir et organiser des concepts (en 5 points) Des principes de normalisation N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

63 A - Principes d’analyse des textes
Deux axes pour caractériser les tâches effectuées Axe texte/modèle Data-driven : du texte au modèle (dépouillement) Model-driven (fouille, recherche ciblée) Corpus Résultats du TAL Manufacturing Processes top Textile glass concepts Inventions Finance concepts Materials Products Glass Fiber Glass Yarn manufacturing Processes Glass Yarnn Fiberizing Axe « parcours au sein du modèle » Ascendant : regroupement, abstraction Descendant : spécialisation, raffinement de concepts Centrifuge : rayonnement autour de concepts centraux Des principes empiriques N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

64 B - Démarche générale pour définir et organiser des concepts
Repérage de concepts centraux. Etude des termes synonymes associés (démarche centrifuge) Organisation hiérarchique : concepts spécifiques (fils) et génériques (pères) des concepts centraux, relation EST_UN (démarche descendante et ascendante). Étude des autres types de relations associés à ce concept à partir de séquences de Syntex (démarche des textes vers le modèle) Mise en forme des marqueurs correspondants et recherche avec Yakwa de couples de concepts reliés par cette relation (du modèle vers les textes) Organisation des résultats dans TERMINAE Validation partielle par l’expertise N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

65 C - Principes de normalisation
Justifier la place d’un concept dans l’ontologie par les relations qu’il entretient avec les autres concepts Concept ou instance Différenciation des concepts Unicité de définition Homogénéité de point de vue Cohérence des descriptions Critères de normalisation Point commun entre 1 concept et son père Différence entre 1 concept et son père Points communs entre 1 concept et ses frères Différences entre un concept et ses frères Représentation à l’aide des relations et de l’héritage N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

66 2 - Spécialisation et généralisation d’un concept
Exploitation des relations tête/expansion (on cherche les mots dont « process » est en tête) ; fiberizing process, manufacturing process, industrial process, etc Exploitation des verbes et formes nominales Gérondifs : coating, drawings, moulding, Manufacturing, fiberizing, washing, bushings Étude des voisins dans Syntex et observation des contextes qu’ils partagent. Process et processing Repérage de marqueurs spécifiques au corpus de la relation générique/spécifique, comme EST-UN, TYPE-DE Process of manufacturing + Nom complément process of manufacturing the glass yarns process for manufacturing thin profiles process for manufacturing the granules N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

67 2 et 3 - Etude des relations autour d’un concept
Des relations lexicales aux relations sémantiques Déterminer les concepts reliés et le type des relations Les représenter à l’aide de rôles ou de relations EST-UN Décider des propriétés des relations : héritage, … Des relations à une hiérarchie de concepts Différencier des concepts selon des critères homogènes : corps solide/corps liquide, différents processus de fabrication … Relations révèlent des critères de différentiation Ajout de concepts non terminologiques N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

68 Construction d'ontologies à partir de textes - BDA 2003
Contenu du modèle N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

69 Première structuration dans Excel
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

70 Construction d'ontologies à partir de textes - BDA 2003
4 . Formalisation Nature de la formalisation Traduction en logique (concept = ensemble de relations, conditions nécessaires et suffisantes pour sa définition) Vérification de l’unicité des définitions TERMINAE : Représentation des connaissances en logique de description Formats d’exportation standards (OIL, RDFs) Jusqu’où formaliser ? Revenir à la demande Introduction de concepts, relations et règles pour optimiser la représentation et l’utilisation qui en est faite (ex : requêtes) N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

71 Construction d'ontologies à partir de textes - BDA 2003
Fibre de verre N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

72 Construction d'ontologies à partir de textes - BDA 2003
Conclusion Apport des ontologies Fondements ontologiques Formalisation Capacité de raisonnement Standards pour la représentation des connaissances Apport des ontologies à composante terminologique Retour vers les textes Documentation Acquérir des connaissances à partir de textes Méthodes éprouvées Outils mieux adaptés et plus disponibles Fondements des modèles s’appuyant sur les usages et les connaissances écrites, stabilisées d’un domaine N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

73 Perspective : mise à jour de modèles conceptuels
Maintenance d’un modèles, d’une ontologie Retour d’expérience Mise à jour du corpus de référence La trace Il peut y avoir une distance importante entre les résultats des outils et le modèle de type RTO corpus  Termes ? MC Le corpus est un des éléments de documentation d’un modèle Termes de la RTO : « pont » entre le réseau de concepts et le corpus Garder la trace des choix de validation et de modélisation (positifs et négatifs) Incrémentalité Utiliser la RTO construite pour faciliter l’analyse du nouveau corpus: par les outils de TAL et par l’ontologue N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

74 Des recherches à poursuivre
Les applications « en vraie grandeur » sont nécessaires pour faire avancer les recherches La notion d’ontologie est intrinsèquement liée à celle d’application, d’usage Tester la faisabilité Identifier les verrous Retour sur investissement : mettre en place des expériences pour mesurer le ratio : coût /gain Remise en question des ontologies ? N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003

75 Construction d'ontologies à partir de textes - BDA 2003
Bibliographie Acquisition à partir de textes Bourigault D., Aussenac-Gilles N., Charlet J. Construction de ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de cas. Revue d’Intelligence Artificielle (RIA). Numéro spécial sur les Terminologies. Slodzian M. (Ed.). Paris : Hermès. A paraître en 2004. Aussenac-Gilles N., Biébow B., Szulman S., Modélisation du domaine par une méthode fondée sur l’analyse de corpus. In Ingénierie des Connaissances. R. Teullier, P. Tchounikine et J. Charlet Eds. Paris : Eyrolles. A paraître en 2003. Bourigault D. & Aussenac-Gilles N., Construction d'ontologies à partir de textes, actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles TALN2003, juin 2003, Batz-sur-mer, pp Projet Verre N. Aussenac-Gilles and A. Busnel. Méthode de construction à partir de textes d’une ontologie du domaine de l’industrie de la fibre de verre. Rapport final, contrat de recherche entre IRIT et Saint-Gobain Recherche. Rapport Interne IRIT/ R. Sept PICSEL Reynaud C, M.C. Rousset, B. Safa (2002). Construction de médiateurs pour intégrer des sources d’information multiples et hétérogènes : le projet PICSEL. Revue I3. N°1. Vol. 1 Cépaduès-Editions. Modélisation conceptuelle Engle P. Data modelling, left and right. The Data Administration Newsletter Guizzardi G., Herre H., Wagner G., On the General Ontological Foudationsof Conceptual Modeling. Proc. Of 21th Int. Conf. On Conceptual Modeling (ER2002). Berlin : SpringerVerlag, LNCS N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003


Télécharger ppt "Construction d’ontologies à partir de textes"

Présentations similaires


Annonces Google