La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –

Présentations similaires


Présentation au sujet: "N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –"— Transcription de la présentation:

1 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT – CSC ingénierie des connaissances

2 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Thème et objectifs Thème : Méthode et outils pour la construction de modèles conceptuels à partir de textes Objectifs : Montrer les enjeux pour les recherches sur la modélisation conceptuelle de la problématique des ontologies Clarifier les caractéristiques des différents paradigmes Placer le débat au niveau des modèles et de leurs contenus Importance de lusage et des applications Présenter un panorama doutils et une méthode

3 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Plan 1.Ontologies et textes à BDA : motivations 2.Différentes facettes de la modélisation conceptuelle 3.Ressources terminologiques et ontologiques : définitions 4.Construire des modèles conceptuels à partir de textes

4 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Motivations Convergence des objets de recherche Domaines concernés : Bases de données, modélisation objet, ingénierie des connaissances Langages, méthodes, plates-formes, vérification par la logique … de modèles conceptuels Ateliers de génie logiciel étendus pour représenter des ontologies ER ou UML pour représenter des ontologies ex : ICOM atelier basé sur ER, intègre un moteur de logique de description, sauvegarde des ontologies en XML.

5 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Motivations Croisements du côté des applications Frontières moins nettes entre types dapplications Ex : PICSEL : ontologie pour accéder à des serveurs de BD BD semi-structurées pour la mémoire dentreprise Mise en forme de business rules au sein dun SI Utilisation des ontologies pour organiser, structurer des données Ex : faut-il une ontologie ou une BD pour organiser une bibliographie ? « Ontologie » désigne une hiérarchie de termes, une base de données lexicales ou

6 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Motivations Poser les bases pour un débat Confusion ou perplexité au niveau des applications Face à un besoin dentreprise : ontologie ou schéma E/R ou UML ? Confusion entre la question des langages et la question de la nature de chacun de ces modèles Situer le débat au niveau de la modélisation conceptuelle Statut des modèles Ancrage et fondements des connaissances

7 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Motivations Linvasion des ontologies Tout est-il ontologie ? Retour sur la définition Retour sur les prétentions affichées Panorama sur les ressources terminologiques et ontologiques Des ontologies « à tout faire » Des prétentions … aux usages Ce que permet la formalisation (cf. BD déductive ?) Formaliser pour affiner le sens Formaliser pour vérifier Formaliser pour raisonner Ce que permet une dimension lexicale Des termes pour communiquer Des termes pour localiser des concepts ou des connaissances

8 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Plan 1.Ontologies et textes à BDA : motivations 2.La modélisation conceptuelle en question a.Réponses possibles en matière de modélisation b.Différentes facettes de la modélisation conceptuelle 3.Ressources terminologiques et ontologiques : définitions 4.Construire des modèles conceptuels à partir de textes

9 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Modélisation conceptuelle en question Modéliser, cest répondre à des besoins Modèles comme support au dialogue Modèles comme spécification de code Eventail de contraintes sur les modèles Modéliser, cest représenter Primitives conceptuelles (méta-modèle) « Langage » de représentation Modéliser, cest sélectionner les « bonnes connaissances » Méthodes pour analyser, identifier, décrire Outils daide

10 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA a. Réponses possibles Schémas Entité-Association Est-auteur-de Encadre Est-rattaché-à n.. n Id-publi Titre Date TitreVolume Pages Editeur ChercheurPublication Laboratoire Id-Chercheur Nom-ch Grade Téléphone-ch Organisme-ch Id-labo Nom-labo Adresse Organisme-Labo Thésard Id-thésard Nom-th Affiliation Téléphone-th Sujet-thèse 1.. n n.. n 1.. 2* Entités, association, règles de normalisation

11 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA a. Réponses possibles Schéma entité-association (Id-chercheur, Nom, Grade, Téléphone, organisme) Un chercheur a un identifiant unique Id-chercheur, sappelle dun certain Nom, a un certain Grade, a une certain numéro de Téléphone et est rattaché à un Organisme, où chaque attribut est pris dans un certain domaine. Tuple vérifiant la relation : (12660, « Nathalie Aussenac », CR1, « », CNRS) Est-rattaché-à (Id-chercheur, Id-laboratoire) Association fonctionnelle entre (ID-chercheur, Id-laboratoire) (id- chercheur, Grade) etc. Le nom de la relation reste implicite, na pas dimpact sur les traitements Logique du premier ordre

12 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA a. Réponses possibles Diagramme de classes UML Personnel recherche Nom Téléphone Affiliation Chercheur Grade Thésard Sujet thèse Publications Titre TitreVolume Date Pages Edition Laboratoire Nom Adresse Affiliation * Est-auteur-de Est-rattaché-à * Encadre Classes, slots, relations entre classes Héritage, comportement à travers les méthodes

13 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA a. Réponses possibles Diagramme de classes UML Gestion de lhéritage suppose des logiques plus complexes : exprimer des propriétés sur les attributs, modalités, … Sémantique des relations peu exploitée

14 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA a. Réponses possibles Ontologies formelles Concepts, instances Relations sémantiques, axiomes Organisme Nom Personnel recherche Nom Prénom Téléphone Chercheur Grade Thésard Sujet thèse Publications Titre Titre-Volume Date Pages Edition Laboratoire Nom Adresse Est-auteur-de Encadre Affiliation Rattachement Est-rattaché-à Top Est-instance-de Être inanimé Être animé UniverselIndividuel

15 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA a. Réponses possibles Ontologies formelles Ontologies formelles Sémantique des relations : signature (typage des concepts reliés) Frame logic : simplification des capacités dexpression pour assurer la calculabilité de raisonnements. Ex : CARIN-ALN Instances : chercheur (NAussenac), thésard(Mbaziz), encadre(Naussenac, Mbaziz)

16 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Facettes de la modélisation Objectifs et enjeux Ontologies Représenter un domaine, associer des connaissances à des objets métier Formaliser pour raisonner Enjeux identifier les concepts, les décrire Gérer un grand nombre de concepts, relativement peu dinstances Traitements mal définis a priori Schémas E-A Spécifier les objets manipulés par un système dinformation Normaliser pour optimiser les traitements Enjeux : Caractériser des classes connues a priori Peu de classes, très grande quantité dinstances, Traitements bien connus a priori (requêtes identifiées)

17 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Facettes de la modélisation Utilisations Ontologies Utilisées pour des traitements variés et complexes : Analyse du langage Indexation, annotation documentaire Recherche dinformation Interrogation directe … Lisibilité, accessibilité par les utilisateurs (validité cognitive), des organisations (pertinence sociale) Besoins en formalisation très différents Schémas E-A Traitements massifs, à grande échelle, liés au stockage dinstances Choix de structuration visant loptimisation des traitements Lisibilité par les analystes, sert de base à la conception informatique Besoins en formalisation toujours identiques

18 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Facettes de la modélisation Contraintes Ontologies Exhaustivité, couverture du domaine en fonction de lapplication Consensus, réutilisabilité Interopérabilité : langage standard Proche de représentations humaines Coût élevé, contenu très riche Schémas E-A Précision, compacité, entités nécessaires et suffisantes pour lapplication anticiper des traitements massifs, à grande échelle, liés au stockage dinstances Plus darbitraire Plus rapide, plus simple à élaborer

19 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Facettes de la modélisation Fondements des modèles Fonder des modèles sur lintrospection, lanalyse dorganigrammes et des normes (formes normalisées) Lapproche BD Fonder des modèles sur des principes ontologiques caractérisant classes et propriétés des objets, des états … Approche ontologique formelle et philosophique Fonder des modèles sur lanalyse de lactivité et des savoir-faire individuels ou collectifs mis en œuvre Lapproche IC (ergonomie et sociologie) Fonder des modèles sur lusage des connaissances tel quil est révélé par le langage, avec le consensus minimal que cela suppose Approche développée dans ce tutoriel

20 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Plan 1.Ontologies et textes à BDA : motivations 2.Différentes facettes de la modélisation conceptuelle 3.Ressources terminologiques et ontologiques a.Définitions b.Enjeux de la formalisation 4.Construire des modèles conceptuels à partir de textes

21 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA a. Ressources terminologiques et ontologiques : définitions Une gamme de produits construits pour accéder aux connaissances via la langage Thésaurus (recherche documentaire et RI) Terminologies (aide à la rédaction, traduction) Base de connaissances terminologiques (formation, modélisation dun corpus) Ontologies (systèmes à base de connaissances, agents sur le web, …)

22 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Thesaurus Thésaurus SRLF et de la SFAR hémopéritoine

23 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Ontologie : définition Modèles des connaissances dun domaine : ontologie du domaine … pertinentes pour une application, une tâche donnée : ontologie régionale Application de principes de normalisation, de « bonne construction » Conceptualisation sous forme de réseau sémantique (concepts, relations) + axiomes Ontologie INGÉNIERIE DES CONNAISSANCES. Ensemble des objets reconnus comme existant dans le domaine. Construire une ontologie, cest aussi décider dune manière dêtre et dexister des objets.

24 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Liens Hiérarchie de relationHiérarchie de concepts Ontologie ETAT_PATHOLOGIQUE ETAT_PATHOLOGIQUE_LOCAL LESION adénopathie … épanchement épanchement gazeux épanchement liquidien épanchement de pus épanchement hématique LESION (LOCALISATION) ANATOMIE LOCALISATION à_côté_de à_l'extérieur_de au_dessus_de … au_niveau_de ANATOMIE … ANA_TISSU_ENVEL capsule duremère mésentère peau … péritoine hémopéritoine: « épanchement hématique localisé au niveau du péritoine » épanchement hématique(au_niveau_de)péritoine Concept défini

25 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Hiérarchie de relations Hiérarchie de concepts Ontologie LESION épanchement fracture LESION (LOCALISATION) SITUATION LOCALISATION à_côté_de à_l'extérieur_de au_dessus_de … au_niv_de … SITUATION angle base bord SITUATION (OBJET) ANATOMIE_OBJET OBJET … DE … ANATOMIE_OBJET OS crâne fracture à la base du crâne fracture (au_niveau_de) base (DE) crâne Liens Concept défini

26 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Thesaurus vs. Ontologie Thesaurus Contenu : Descripteurs, mots-clés Relations : «is_a», « synonyme » (terme préférentiel), «voir_aussi» Utilisé par un agent humain (documentaliste, spécialiste) pour indexer des documents Ontologie Contenu Une taxinomie des concepts, une taxinomie de relation Des « rôles » Décrite dans un langage de représentation des connaissances et exploitée par un système informatique Possibilité de comparer et de classer des concepts Capacité générative Inférences

27 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Le modèle des données dune BCT DOCUMENT2 Service YYY Unité1.2 Service XXX relation conceptuelle Fragments de Textes Unité 1.1 DOCUMENT1 Service XXX #Document définition attributs ---- contextes de validité Concepts #Top dossier de spécification document de projet. document de spécification détaillée informations linguistiques Termes

28 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Solutions apportées par ce modèle Aspects linguistiques termes équivalents synonymie polysémie points de vue prise en compte du locuteur patrons syntactico- sémantiques Aspects conceptuels relations conceptuelles spécifiques sémantique des relations points de vue héritage des attributs et relations conceptuelles Lisibilité des descriptions

29 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA b. Ontologies : enjeux de la formalisation Capacité dexpression Exemple : projet PICSEL, LRI Partie terminologique Concepts organisés en hiérarchie, définis par leurs relations (cns ou père + prop.spécifiques) (DEF-CONCEPT chercheur (and personnel-recherche (ATLEAST 1 Grade)(ATMOST 1 Grade) (ALL Grade Grade) (ALL encadre Thésard))) Contraintes : Relations dexclusion entre concepts de base EquipementCulturel equipementSportif Typage des rôles : (ALL encadre Thésard) dans définition Chercheur

30 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA b. Ontologies : enjeux de la formalisation Capacité dexpression Partie déductive Relations autres que unaires et binaires : R1 : VolAR(villeDépart, dateDépart1, villeArrivée, dateDépart2) <= Vol(v1), lieuDepart(v1, villeDépart), lieuArrivée (v1, villeArrivée), Vol(v2), lieuDepart(v2, villeArrivée), lieuArrivée (v2, villeDépart), dateDépart(v1,dateDépart1), dateDépart(v2,dateDépart2), antérieure (dateDépart, dateDépart2) Relations disjonctives : autant de règles que dalternatives ProduitJeune(x) <= produit(x), (ATMOST 1 produitServiceAssocié) ProduitJeune(x) <= produit(x), produitServiceAssocié(x,y), bonMarché(y) Relations inverses Raccourci denchaînement de rôles

31 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA b. Ontologies : enjeux de la formalisation Capacité dexpression Expression de requêtes SéjourAuSoleil(s,p) <= CombinéSéjour(s), LogementAssocié(s,l), lieuDeRésidence(r), SituéDans(r,p), LieuAuSoleil(p) Calcul de plans de requête Vérifier la satisfiabilité Substituer chaque terme de la requête par sa définition logique, cest-à- dire par toutes ses spécialisations possibles -> plusieurs requêtes disjonctives Réécriture de chaque requête conjonctive (même principe) à partir de la réécriture de chacun des atomes -> identification des faits correspondants Affinement de requêtes Repérage de conflits Exploitation de la hiérarchie pour généraliser Calcul de requête satisfiable à partir de requêtes insatisfiables par généralisation de concepts

32 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Plan 1.Ontologies et textes à BDA : motivations 2.Différentes facettes de la modélisation conceptuelle 3.Ressources terminologiques et ontologiques 4.Construire des modèles conceptuels à partir de textes a.Justification b.Panorama doutils pour lanalyse de textes c.Une méthode à travers une étude de cas : le projet verre

33 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Construire des modèles à partir de textes Justification Pourquoi recourir aux textes ? Sources de connaissances (partagées et stabilisées à lécrit) Améliorent la lisibilité et la maintenance des modèles Complémentaires de lexpertise humaine Gain de temps, réduction des coûts Quels textes ? Nature et contenu des corpus Ensemble de textes choisis en fonction de lapplication et de leurs caractéristiques (contenu, genre textuel, date, auteurs, format, etc.) Documents techniques, documents didactiques, retranscriptions dentretiens, informations échangées par réseaux …

34 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Quels outils danalyse de textes pour la construction de modèles conceptuels ? Logiciels de traitement automatique des langues : TAL « Partir des textes pour mieux y revenir » Textes Système dinformation Traitant des textes tal2 Modèle tal1

35 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Problématique du traitement de linformation textuelle système L'échographie abdominale retrouve une contusion splénique et un hémopéritoine. Traumatisme abdominal avec une fracture de rate et un hémopéritoine abondant, ayant nécessité une splénectomie en urgence. Un nouvel état de choc apparaît associé à syndrome compartimentaire abdominal (hémopéritoine + hématome rétropéritonéal)) justifiant la laparotomie exploratrice. L'évacuation de l'hémopéritoine ne permet pas de mettre en évidence une cause nette au saignement ;Instabilité hémodynamique initiale, avec TA 80 / 60 et fréquence cardiaque à 120 / min en relation avec des pertes sanguines sur les foyers de fractures (échographie abdominale normale, absence d hémopéritoine ou de lésion viscérale intrapéritonéale évidente)).deux échographies abdominales successives un hémopéritoine évolutif, sans pneumopéritoine, ainsi qu'un décollement péricardique postérieur.un traumatisme thoraco- abdominal avec fracture des arcs postérieurs des 7e, 8e et 9e côtes droites, contusion hépatique au niveau des segments VI-VII, hémopéritoine de moyenne abondance, contusion splénique,Instabilité hémodynamique nécessitant remplissage, transfusion de culots globulaires, PFC et plaquettes dans le cadre d'un hémopéritoine sur fracture du bassin. texte épanchement hématique(au_niveau_de)péritoine Ressource ANATOMIELESIONLOCALISATION hémopéritoine CONCEPT terme

36 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Traitement de linformation textuelle sevrage en noradrénaline le 23 / 10. Stabilité cardiorespiratoire, le sevrage de la Noradrénaline est fait à J5 de la réintervention et l'extubation est réalisée à J6. Evolution favorable avec sevrage rapide en Noradrénaline le 20 / 06 / 99. Stabilité hémodynamique initiale correcte avec sevrage progressif en Noradrénaline obtenu à J3. Les suites du choc hypovolémique hémorragique sont simples, avec sevrage de noradrénaline à J3 et extubation à J2. L'évolution est alors favorable avec Instauration d'une corticothérapie ayant permis un sevrage rapide de la Noradrénaline, La patiente est sevrée de noradrénaline le 16 / 06 / 00. Le patient est sevré de Noradrénaline le 13 / 05 / 00. La Noradrénaline est sevrée dans la nuit du 20 au 21 / 01. Après remplissage vasculaire par 1000 cc de Plasmion et 1000 cc d'Elohes, la Noradrénaline est rapidement sevrée sevrage(OBJET)Noradrénaline RTO système texte sevrage en noradrénalinesevrage de la noradrénaline sevrage Adj? [de|en] la? noradrénaline sevré de noradrénaline noradrénaline être Adv? sevré sevrage_Noradrénaline CONCEPT termes patrons

37 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Panorama de logiciels pour extraire et structurer Une typologie fonctionnelle : 1.Extraction de concordances : YAKWA, SATO 2.Extraire des candidats termes. ex : Syntex, NOMINO, ANA 3.Extraire des relations candidates. Ex: Prométhée, Caméléon 4.Extraire des constructions prédicats / arguments : ASIUM, SVETLAN Autres typologies Méthodes linguistique / méthodes statistiques Construction de RTO / mise à jour de RTO Phase damorçage / phase denrichissement Rappel : il ne sagit pas de construction automatique…

38 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Extraction de concordances Fonction : pour un patron donné, présenter toutes les occurrences rassemblées Niveau dannotation du corpus corpus « nu » : uniquement forme (suite de mots) corpus étiqueté : patrons morpho-syntaxique. Exemples : {nom}+{verbe « être » indicatif}+{article indéfini} {pronom personnel 1ère pers.}+{verbe indicatif}+{« dans »}+{déterminant démonstratif}+{Nom} activité de construction d' un |modèle |de connaissances, ou modélisation des solution verticale comporte un |modèle |à la KADS, une bibliothèque de composants A un stade ultime, le |modèle |formel est, la plupart du temps, connaissances en distinguant le |modèle |conceptuel du modèle opérationnel du monde ( on parle de |modèle |de produit ) et objet de modélisation de le projet européen KADS, le |modèle |conceptuel joue le rôle de modèle originale, de créer un |modèle |cognitif du futur système

39 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Exemple de logiciel dexploration de corpus : Yakwa Principes Requêtes basées sur la syntaxe et la sémantique Nécessite une corpus étiqueté (Tree Tagger analyseur syntaxique) Utilisation pour la recherche de relations entre concepts Aller chercher des indices lexicaux (marqueurs) de relations sémantiques pour organiser les concepts Lien avec Caméléon : utilisation de marqueurs génériques pour relations EST-UN et PARTIE-DE

40 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Création de requêtes

41 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Interprétation des résultats

42 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Fonction : extraction et tri automatiques de candidats termes CT : séquence susceptible dêtre retenue comme étiquette de concept Méthodes dextraction statistiques segments répétés information mutuelle morpho-syntaxiques repérage de patrons analyse syntaxique partielle Critères de tris numériques fréquence doccurrences dans le corpus productivité : nombre de CT plus complexes dont le CT est constituant 2. Extraction de termes

43 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Syntex : analyse syntaxique et construction dun réseau de syntagmes En entrée : un corpus étiqueté Dans chaque phrase, à chaque mot est associée une étiquette morphosyntaxique (Cordial, TreeTager) En sortie : 1) un corpus analysé syntaxiquement Dans chaque phrase, identification des relations de dépendance syntaxique (sujet, complément dobjet, épithète, …) entre les mots En sortie : 2) un réseau de syntagmes 1) De chaque phrase, extraction de syntagmes verbaux, nominaux, adjectivaux 2) Pour lensemble du corpus, construction dun réseau de syntagmes structuré par les relations Tête et Expansion

44 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA )Analyse syntaxique Le chat de Marie mange une petite souris. Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. OBJSUJ Etiquetage morphosyntaxique Analyse syntaxique

45 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA ) Construction dun réseau de syntagmes L érosion attaque un plan de faille SUJOBJ attaquer un plan de faille plan de faille faille T TE E plan : nom plan de faille : syntagme nominal attaquer : verbe attaquer un plan de faille : syntagme verbal T : tête E : expansion Extraction de syntagmes plan attaquer

46 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA ) Construction dun réseau de syntagmes attaquer ~ pénéplaine ~ pente raide ~ plan de faille ~ roche sédimentaire ~ section anticlinale ~ table karstique faille escarpement de ~ ligne de ~ plan de ~ T plan ~ de cisaillement ~ de diaclase ~ de faille ~ de glissement ~ de schistosité ~ de stratification T E

47 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Données de lanalyse distributionnelle agent de létat agent formation professionnelle formation état professionnel ( bénéficier de formation professionnelle, SUJ ) ( bénéficier de formation, SUJ ) ( bénéficier, SUJ ) ( bénéficier de formation professionnelle, SUJ ) ( bénéficier de formation, SUJ ) ( bénéficier, SUJ ) ( agent de létat bénéficier, DE ) ( agent bénéficier, DE ) ( bénéficier, DE ) ( agent de létat bénéficier, DE ) ( agent bénéficier, DE ) ( bénéficier, DE ) ( agent, DE ) ( formation, ADJ ) TermesContextes

48 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Mesures de similarité Contextes pour le terme : murmure vésiculaire Termes pour le contexte : ( patient présenter, OBJ ) ( abolir, OBJ ) ( abolir à gauche, OBJ ) ( abolition, DE ) ( diminuer, OBJ ) ( diminuer à gauche, OBJ ) ( diminution, DE ) ( percevoir, OBJ ) amyotrophie détresse douleur douleur thoracique dyspnée fièvre fracture hématome Syndrome productivité = 7productivité = 9 Productivité dun terme, dun contexte

49 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Extraction de relations : Caméleon La notion de marqueur : Eléments lexico-syntaxiques permettant de repérer une relation conceptuelle Hypothèses : Une même relation peut sexprimer par différents marqueurs Les relations peuvent dépendre du corpus Les marqueurs peuvent dépendre du corpus Corpus étiqueté en entrée, hypothèses de relations en sortie Modèle conceptuel enrichi de relations conceptuelles

50 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Ajuster les marqueurs Sélectionner des relations et des marqueurs génériques ex : hypéronymie (est-un) : Det N1 est Det N2 (qui, adj, p.passé, p.présent) Tous les N2 sauf det N1 Det N1 comme det N2 Les évaluer en corpus Les adapter au corpus pour réduire le bruit et le silence Identifier patrons et relations spécifiques au corpus Par projection de couples de termes Par observation de contextes Par observation des résultats de Syntex On construit une base de marqueurs adaptés au corpus

51 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Phrases qui contiennent la forme et qui peuvent contenir une relation (hypothèses) Formule qui définit le marqueur Termes en relation que peuvent indiquer des concepts reliés Répérer des relations lexicales

52 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Repérage de relations avec Caméléon Des hypothèses de relations aux Relations conceptuelles

53 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Plan 1.Ontologies et textes à BDA : motivations 2.Différentes facettes de la modélisation conceptuelle 3.Ressources terminologiques et ontologiques 4.Construire des modèles conceptuels à partir de textes a.Justification b.Panorama doutils pour lanalyse de textes c.Une méthode appliquée à une étude de cas : le projet verre

54 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Construire des modèles à partir de texte Principes Exploiter les textes Partir des textes comme sources et supports de connaissances Utiliser des techniques et outils danalyse de corpus basés sur des principes linguistes et statistiques Plonger le modèle conceptuel dans son contexte linguistique : conserver un lien du modèle vers les textes Poids de lapplication Lontologie est construite pour une application. Lapplication sinscrit dans une pratique (domaine) Lingénieur de la connaissance est un médiateur.

55 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Lontologue au centre Ressource Termino- Ontologique Application Domaine Textes tal Ressources existantes Utilisateur u Ontologue o Spécialistes s s

56 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Une autre vue sur la méthode Modèle Documents Techniques Outils dAnalyse de Textes 2. Appliquer des outils danalyse de textes 3. Structurer et normaliser les données 4. Formaliser dans un modèle 1. Constituer un corpus

57 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Constitution du corpus Choisir des documents Compromis entre représentativité (sujet, genre textuel) ET taille Trouver les documents les plus pertinents pour lapplication Mettre les documents au bon format Evaluer leur pertinence Décider de la manière de les traiter Identifier les groupes homogènes : type de document, sujet Rendre compte de connaissances communes ou différenciées Opportunisme : découpage en sous-corpus

58 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Constitution du corpus Vocabulaire générique du verre Livre Vocabulaire technique : procédés du verre textile 10 chapitres mots Brevets Vocabulaire technique des dépôts de brevets 13 brevets mots Veille Vocabulaire de la finance et économie 7 mois articles AFP mots 563 noms et 59 SN Entre 93 et 98% des SV et SN et plus de la moitié des mots simples sont propres à chaque sous-corpus. caractérisation rapide de la nature de ces vocabulaires

59 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Etude terminologique Documents techniques Eléments dontologie Outils danalyse de textes Yakwa Syntex Extraction de termes mis en relation par Syntex Recherche de relations à laide de patrons avec Yakwa Fiches terminologiques dans Terminae et fiches Concept- terminologique dans Excel Liée à la normalisation Terminae

60 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Représentation dans Terminae

61 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Normalisation Interprétation sémantique du contenu des textes guidée par lexpertise et les besoins de lapplication Il est utopique (et coûteux) de vouloir TOUT tirer des textes et seulement des textes. Structurer => Fixer un point de vue lié à lapplication 3 types dactivités Regroupements, généralisations, spécialisations Mêmes données, exploitées selon trois points de vue.

62 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Recommandations pour la normalisation A.Des principes danalyse des textes B.Une démarche générale pour définir et organiser des concepts (en 5 points) C.Des principes de normalisation

63 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA A - Principes danalyse des textes Deux axes pour caractériser les tâches effectuées Axe texte/modèle Data-driven : du texte au modèle (dépouillement) Model-driven (fouille, recherche ciblée) Manufacturing Processes top Textile glass concepts Inventions Finance concepts Processes Materials Products Glass Fiber Glass Yarn manufacturing Processes Glass Yarnn Fiberizing Corpus Résultats du TAL Axe « parcours au sein du modèle » Ascendant : regroupement, abstraction Descendant : spécialisation, raffinement de concepts Centrifuge : rayonnement autour de concepts centraux Des principes empiriques

64 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA B - Démarche générale pour définir et organiser des concepts 1. Repérage de concepts centraux. Etude des termes synonymes associés (démarche centrifuge) 2. Organisation hiérarchique : concepts spécifiques (fils) et génériques (pères) des concepts centraux, relation EST_UN (démarche descendante et ascendante). 3. Étude des autres types de relations associés à ce concept à partir de séquences de Syntex (démarche des textes vers le modèle) Mise en forme des marqueurs correspondants et recherche avec Yakwa de couples de concepts reliés par cette relation (du modèle vers les textes) 4. Organisation des résultats dans TERMINAE 5. Validation partielle par lexpertise

65 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA C - Principes de normalisation Justifier la place dun concept dans lontologie par les relations quil entretient avec les autres concepts Concept ou instance Différenciation des concepts Unicité de définition Homogénéité de point de vue Cohérence des descriptions Critères de normalisation Point commun entre 1 concept et son père Différence entre 1 concept et son père Points communs entre 1 concept et ses frères Différences entre un concept et ses frères Représentation à laide des relations et de lhéritage

66 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Spécialisation et généralisation dun concept Exploitation des relations tête/expansion (on cherche les mots dont « process » est en tête) ; fiberizing process, manufacturing process, industrial process, etc Exploitation des verbes et formes nominales Gérondifs : coating, drawings, moulding, Manufacturing, fiberizing, washing, bushings É tude des voisins dans Syntex et observation des contextes quils partagent. Process et processing Repérage de marqueurs spécifiques au corpus de la relation générique/spécifique, comme EST-UN, TYPE-DE Process of manufacturing + Nom complément process of manufacturing the glass yarns process for manufacturing thin profiles process for manufacturing the granules

67 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA et 3 - Etude des relations autour dun concept Des relations lexicales aux relations sémantiques Déterminer les concepts reliés et le type des relations Les représenter à laide de rôles ou de relations EST-UN Décider des propriétés des relations : héritage, … Des relations à une hiérarchie de concepts Différencier des concepts selon des critères homogènes : corps solide/corps liquide, différents processus de fabrication … Relations révèlent des critères de différentiation Ajout de concepts non terminologiques

68 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Contenu du modèle

69 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Première structuration dans Excel

70 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Formalisation Nature de la formalisation Traduction en logique (concept = ensemble de relations, conditions nécessaires et suffisantes pour sa définition) Vérification de lunicité des définitions TERMINAE : Représentation des connaissances en logique de description Formats dexportation standards (OIL, RDFs) Jusquoù formaliser ? Revenir à la demande Introduction de concepts, relations et règles pour optimiser la représentation et lutilisation qui en est faite (ex : requêtes)

71 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Fibre de verre

72 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Conclusion Apport des ontologies Fondements ontologiques Formalisation Capacité de raisonnement Standards pour la représentation des connaissances Apport des ontologies à composante terminologique Retour vers les textes Documentation Acquérir des connaissances à partir de textes Méthodes éprouvées Outils mieux adaptés et plus disponibles Fondements des modèles sappuyant sur les usages et les connaissances écrites, stabilisées dun domaine

73 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Perspective : mise à jour de modèles conceptuels Maintenance dun modèles, dune ontologie Retour dexpérience Mise à jour du corpus de référence La trace Il peut y avoir une distance importante entre les résultats des outils et le modèle de type RTO corpus Termes ? MC Le corpus est un des éléments de documentation dun modèle Termes de la RTO : « pont » entre le réseau de concepts et le corpus Garder la trace des choix de validation et de modélisation (positifs et négatifs) Incrémentalité Utiliser la RTO construite pour faciliter lanalyse du nouveau corpus: par les outils de TAL et par lontologue

74 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Des recherches à poursuivre Les applications « en vraie grandeur » sont nécessaires pour faire avancer les recherches La notion dontologie est intrinsèquement liée à celle dapplication, dusage Tester la faisabilité Identifier les verrous Retour sur investissement : mettre en place des expériences pour mesurer le ratio : coût /gain Remise en question des ontologies ?

75 N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA Bibliographie Acquisition à partir de textes Bourigault D., Aussenac-Gilles N., Charlet J. Construction de ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de cas. Revue dIntelligence Artificielle (RIA). Numéro spécial sur les Terminologies. Slodzian M. (Ed.). Paris : Hermès. A paraître en Aussenac-Gilles N., Biébow B., Szulman S., Modélisation du domaine par une méthode fondée sur lanalyse de corpus. In Ingénierie des Connaissances. R. Teullier, P. Tchounikine et J. Charlet Eds. Paris : Eyrolles. A paraître en Bourigault D. & Aussenac-Gilles N., Construction d'ontologies à partir de textes, actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles TALN2003, juin 2003, Batz- sur-mer, pp Projet Verre N. Aussenac-Gilles and A. Busnel. Méthode de construction à partir de textes dune ontologie du domaine de lindustrie de la fibre de verre. Rapport final, contrat de recherche entre IRIT et Saint- Gobain Recherche. Rapport Interne IRIT/ R. Sept PICSEL Reynaud C, M.C. Rousset, B. Safa (2002). Construction de médiateurs pour intégrer des sources dinformation multiples et hétérogènes : le projet PICSEL. Revue I3. N°1. Vol. 1 Cépaduès-Editions. Modélisation conceptuelle Engle P. Data modelling, left and right. The Data Administration Newsletter Guizzardi G., Herre H., Wagner G., On the General Ontological Foudationsof Conceptual Modeling. Proc. Of 21th Int. Conf. On Conceptual Modeling (ER2002). Berlin : SpringerVerlag, LNCS


Télécharger ppt "N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies à partir de textes Nathalie Aussenac-Gilles IRIT –"

Présentations similaires


Annonces Google