Une méthode pour la construction d’ontologies à partir de textes

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

LA QUALITE LOGICIELLE Plan du cours La modélisation d’activité 1 h ½
Constitution de produits terminologiques à partir de corpus
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Urbanisation de Systèmes d'Information
Utilisation didactique des extractions lexicales des corpus
UML - Présentation.
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
DEME - La méthode d’enquête – introduction
Exemple : Itinéraire de lecture.
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
Ontologie, Méta-données, Sémiotiques
Les méthodes formelles en ingénierie des connaissances Damien Lhomme-Desages Jérémie Barlet.
Understanding, building and using ontologies. Understanding Ontologie : la définition des concepts utilisés dans un langage donné Première approche (Gruber)
Analyse et structuration thématiques
Dossier Technique et Pédagogique
Indexation textuelle : Systèmes de recherche d’informations
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Démarches : - d’investigation de résolution… de conception - de projet
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Vers une ontologie du domaine de l’astronomie
Cartes Conceptuelles Daniel Peraya
Chapitre 4 : la gestion électronique des documents
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,
Introduction à la conception de Bases de Données Relationnelles
Annotations sémantiques pour le domaine des biopuces
Entre construction théorique et mise en œuvre opérationnelle
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
MOT Éditeur de modèles de connaissances par objets typés
Colloque IC-2012– Montréal 6-7 juin 2012
IGL301 - Spécification et vérification des exgiences 1 Chapitre 2 Le processus dingénierie des exigences (ref : Bray chapitre 2)
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Thésaurus de lactivité gouvernementale Richard Parent 17 novembre 2006 Ressource de soutien à linteropérabilité sémantique.
Recherche par mots-clés vs recherche en langue naturelle.
Patrons de conceptions de créations
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
28/05/20021 DOE : une mise en œuvre d’une méthode de structuration différentielle pour les ontologies Raphaël TroncyAntoine Isaac
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
SGBD Système de gestion de Base documentaire (Logiciel documentaire)
Introduction au Génie Logiciel
Initiation à la conception des systèmes d'informations
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
L’enseignement de spécialité SLAM
Décision incertaine et logistique : Grille typologique
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
TEXT MINING Fouille de textes
1 Construction de ressources terminologiques à partir de textes : études de cas Nathalie AUSSENAC-GILLES (CNRS, Toulouse) Didier BOURIGAULT (CNRS, Toulouse)
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Informatique et Sciences du Numérique
Initiation à des recherches dans le domaine de l’enseignement
APPLICATION : Un diagnostic précoce et automatique des pathologies végétales LA VISION COGNITIVE De la science de la reconstruction visuelle à la science.
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Le Bac Vert Un outil de recyclage des objets et des documents.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Introduction à la Recherche
Démarche d’enseignement de l’APL : analyser
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
Séminaire IRIT-UT1 « Les nouveaux de 2010 » Novembre 2010 Les entrepôts de données et des documents = des entrepôts de documents ? Ronan Tournier
Transcription de la présentation:

Une méthode pour la construction d’ontologies à partir de textes Nathalie Aussenac-Gilles IRIT, Toulouse Outils d’analyse de corpus Typologie et exemples Une méthode de construction d’ontologies à partir de textes Oct. 2001 Cours ENSEEIHT COT-3

Principes Ressources linguistiques brutes: => Filtrer liste de termes, de relations problème de quantité problème de validité et de pertinence par rapport au besoin => Filtrer 2 types de filtrage Manuel : acquisition de connaissances à partir de textes Automatique (apprentissage) : text mining Documents Techniques Outils d’Analyse de Textes Modèle Oct. 2001 Cours ENSEEIHT COT-3

Produits terminologiques Documents Techniques Outils d’Analyse de Textes Ontologie SBC Terminologie système de traduction Ressources terminologiques Type d’application Thesaurus système de recherche d’informations Lexique sémantique système d’extraction d’informations Oct. 2001 Cours ENSEEIHT COT-3

Typologie des outils d’analyse de textes Mode d’utilisation : amorçage : traitement massif pour l’aide au repérage de concepts centraux et de classes sémantiques fouille : en cours de processus, retour au texte pour la modélisation « fine » de concepts Fonction : extraction de concordances : YAKWA, SATO extraction de termes : LEXTER, NOMINO extraction de relations : Caméléon, Likes, Prométhée regroupement de termes Typologie des outils pertinents pour l ’IC Oct. 2001 Cours ENSEEIHT COT-3

Extraction de concordances Fonction : pour un patron donné, toutes les occurrences rassemblées Niveau d’annotation du corpus corpus « nu » : uniquement forme (suite de mots) corpus étiqueté : patrons morpho-syntaxique. Exemples : {nom}+{verbe « être » indicatif}+{article indéfini} {pronom personnel 1ère pers.}+{verbe indicatif}+{« dans »}+{déterminant démonstratif}+{Nom} activité de construction d' un |modèle |de connaissances , ou modélisation des solution verticale comporte un |modèle |à la KADS , une bibliothèque de composants A un stade ultime , le |modèle |formel est , la plupart du temps , connaissances en distinguant le |modèle |conceptuel du modèle opérationnel du monde ( on parle de |modèle |de produit ) et objet de modélisation de le projet européen KADS , le |modèle |conceptuel joue le rôle de modèle originale , de créer un |modèle |cognitif du futur système Oct. 2001 Cours ENSEEIHT COT-3

Oct. 2001 Cours ENSEEIHT COT-3

Oct. 2001 Cours ENSEEIHT COT-3

Extraction de termes Fonction : extraction et tri automatiques de candidats termes CT : séquence susceptible d’être retenue comme étiquette de concept Méthodes d’extraction statistiques segments répétés information mutuelle morpho-syntaxiques repérage de patrons analyse syntaxique partielle Critères de tris numériques fréquence d’occurrences dans le corpus productivité : nombre de CT plus complexes dont le CT est constituant Donner des exemples d’hapax, de mots productifs Oct. 2001 Cours ENSEEIHT COT-3

Lexter, un extracteur de candidats termes Explore un corpus étiqueté syntaxiquement Analyse robuste de textes techniques ou scientifiques Extrait des syntagmes nominaux complexes Recherche à l’aide de patrons en négatif (recherche et rejette les séparateurs de candidats termes) Points forts : résolution des associations ambiguës d’adjectifs et de prépositions (ou syntagmes prépositionnels) au sein des groupes nominaux complexes. Oct. 2001 Cours ENSEEIHT COT-3

Lexter, un extracteur de candidats termes Texte brut Etiquettage syntaxique Cordial Texte étiqueté Découpage Lexter, étape 1 : Découpage : Analyse de surface pour extraire les Syntagmes Nominaux de Longueur Maximale (SNLM) système à mémoire de cas en anatomie pathologique traits de signification pertinents des concepts sémantiques LEXTER is a robust parser which was designed for the extraction and the analysis of complex noun phrases from technical or scientific texts. The input is an unambiguoulsy tagged corpus. The extraction process is composed of 2 main steps. The Splitting module extracts maximal-length noun phrases by locating noun phrase boundaries. Then the Parsing module parses each MNLP to recursively decompose it into two constituents, one in the Head position and one in the Expansion position. The MNLP and their constituents are the term candidates which are submitted to the user for validation. Parsing MLNPs is a difficult task due to the problem of ambiguous PP and adjective attachments within long and complex noun phrases. The main strenght of Lexter is its capability of correcly parsing very complex noun phrases which occur more often than not in technical and scientific documents. Syntagmes Nominaux de Longueur Maximale (SNLM) Lexter, étape 2, Parsing : analyse en profondeur pour décomposer récursivement les SNLM [ [ système à [ mémoire de cas ] ] en [ anatomie pathologique ] ] [ [ [ traits de signification ] pertinents ] des [ concepts sémantiques ] ] Parsing Réseau de candidats termes Oct. 2001 Cours ENSEEIHT COT-3

Liste des candidats termes dont «modèle conceptuel » est en expansion Oct. 2001 Cours ENSEEIHT COT-3

Caméléon : principes Extraction de relations sémantiques par marqueurs linguistiques Requiert un extracteur de candidats termes en amont comme NOMINO ou LEXTER Gère des corpus de très grosse taille ex: 2,2 millions de mots 12 000 textes ayant une visée pédagogique Connection directe avec des modèles du domaine Oct. 2001 Cours ENSEEIHT COT-3

Relations conceptuelles et relations formelles Relient classes ou instances Place privilégiée de la relation EST_UN (organisation hiérarchique des concepts) Rôle sémantique ou propriété Prend du sens par l’interprétation humaine Leur formalisation Interprétation formelle de EST_UN : héritage, classification Typage des concepts reliés (signature) Modèle en référence à un monde Les classifieurs Dossier de conception accepté Activité d’intégration Conditionne_le_début_de Document Activité Est-un Est-un Oct. 2001 Cours ENSEEIHT COT-3

Mise au point d’une base de marqueurs Mise au point de marqueurs Marqueurs génériques Termes en relation Projection et évaluation sur corpus (T1,T2) (T1,T4) … Projection de couples Analyse de coocurrences Textes et termes Proposition de marqueurs spécifiques Marqueurs spécifiques Projection et évaluation sur corpus Marqueurs validés sur corpus Oct. 2001 Cours ENSEEIHT COT-3

Mise au point d’une base de marqueurs Oct. 2001 Cours ENSEEIHT COT-3

Repérage de relations avec Caméléon marqueurs validés sur corpus Projection sur corpus Réseau conceptuel Textes et termes Hypothèses de relations Validation en contexte Projection de marqueurs Oct. 2001 Cours ENSEEIHT COT-3

Repérage de relations avec Caméléon Oct. 2001 Cours ENSEEIHT COT-3

Caméléon, bilan Marqueurs les plus productifs Points forts : Hyponymie; précision > 75% Méronymie; adaptation, précision > 75% Points forts : Validation de propositions de relations au sein du modèle Retour au texte pour valider Gestion d’une base de marqueurs génériques Débouche sur des marqueurs spécifiques Oct. 2001 Cours ENSEEIHT COT-3

Classification de termes Classique : mots associés regroupement de mots apparaissant dans les mêmes contextes textuels (fenêtre, phrase, paragraphe, document, …) Analyse distributionnelle (« à la Harris ») regroupement de mots apparaissant dans les mêmes contextes syntaxiques compléments des mêmes noms adjectifs modifieurs des mêmes noms syntagmes nominaux ou noms compléments des mêmes verbes etc. les classes ainsi construites doivent être validées, interprétées. nécessité d’une analyse syntaxique (robuste et partielle) préalable Oct. 2001 Cours ENSEEIHT COT-3

Classification Oct. 2001 Cours ENSEEIHT COT-3

Des textes aux modèles conceptuels : nouveaux principes partir des textes comme sources de connaissances utiliser des techniques et outils d’analyse de corpus basés sur des principes linguistes essentiellement et statistiques éventuellement plonger le modèle conceptuel dans son contexte linguistique en conservant un lien du modèle vers les textes Tal ou plutôt d ’analyse de corpus et d ’acuqisiotionde connaissances à partir de textes extracteurs de relations, extracteurs de cnandidats termes, aide à la conceptualisation apr regrouepemnt conceptuel, recherche de synonymes, reherche de termes en relations… pas de silver bullet, inteprétation et décision revenant toujours à l ’humain mais aide et garantie de rigueur Oct. 2001 Cours ENSEEIHT COT-3

Cadre méthodologique L’ontologie est construite pour une application. L’application s’inscrit dans une pratique (domaine). La tâche de constitution du corpus est cruciale : collecter des textes, les baliser, éventuellement les « fabriquer » en fonction de l’application, avec l’aide des spécialistes documentations techniques, guides, transcriptions d’interview, ... L’ingénieur de la connaissance est un médiateur. prise en charge de l’application arbitrage entre spécialistes distance avec le texte Le cadre ne couvre pas tout ! Médiateur entre les textes, les spécialistes, l’application Oct. 2001 Cours ENSEEIHT COT-3

Une méthode (Aussenac, Biebow, Szulman) Application cible éléments de expertise modèles existants description des besoins /application visée Modélisation de connaissances documentation à partir de corpus modèle technique formel outils d ’ACT outil support de modélisation disponibles Oct. 2001 Cours ENSEEIHT COT-3

Th(IC)2 : une ontologie de l’ingénierie des connaissances Une contribution au projet (KA)2 Valider des hypothèses de recherche évaluation expérimentale d’outils et méthodes à partir de corpus ontologie vs. thesaurus Objectifs visés : un thésaurus de l’IC un thésaurus de l’IC utilisable par des chercheurs pour indexer leurs pages Web une ontologie de l’IC Corpus en 2 parties Textes scientifiques (LIVRIC), descriptions de laboratoires (AFIA) Oct. 2001 Cours ENSEEIHT COT-3

Principales étapes ontologie Application visée Ressources terminologiques Expertise Application visée Description Expertise besoins Ressources terminologiques Constitution du corpus Documentation Application visée technique Expertise Ressources terminologiques Corpus Informatisé Etude linguistique Application visée Expertise Termes Ontologies existantes Relations Outils ACT lexicales Normalisation Regroupements Concepts ontologie Relations Outil support modélisation Formalisation sémantiques Outils ACT Outil support modélisation Formalisme Oct. 2001 Cours ENSEEIHT COT-3

Constitution du corpus Expertise Target application Terminological resources Constitution du corpus Requirements description Corpus Electronic corpus gathering Technical documents Un tâche difficile Compromis entre représentativité (sujet, genre textuel) ET taille Trouver les textes les plus pertinents pour l’application Opportunisme : 2 sous-corpus Pourquoi des outils? Pourquoi une méthode? Pour passer de 207kmots aux 200 concepts nécessaires à la descritpion des outils de ‘l ’ic en rance Oct. 2001 Cours ENSEEIHT COT-3

Etude linguistique (1) outils utilisés : Lexter, Caméléon Expertise Application visée Etude linguistique (1) Ressources terminologiques Corpus Termes Informatisé Etude Relations lexicales linguistique Regroupements Lexter Caméléon outils utilisés : Lexter, Caméléon deux approches pour sélectionner les termes à étudier (20 Ktermes): lecture des termes en liste lecture des contextes d’occurrence des termes Validation par les experts structuration au fur et à mesure “outil” en tête dans Lexter, puis structuration, noms propres en relation avec “outil”, “méthode”, “système”…, puis structuration Oct. 2001 Cours ENSEEIHT COT-3

Candidats termes les plus fréquents Application de LEXTER High frequency terms are not very relevant. They are good descriptors to characterise the overall field of Knowledge Acquisition with respect to other fields within the field of Artificial intelligence. They are not relevant to characterise the research topics of a given team with respect to others teams whitin the field of Knowledge Acquisition. Candidats termes les plus fréquents Oct. 2001 Cours ENSEEIHT COT-3

Liste des candidats termes extraits par Lexter d’un article de Biebow & Szulmann Oct. 2001 Cours ENSEEIHT COT-3

Distribution Distribution Liste de candidats termes extraits par Lexter (freq >= 5) de l ’article Assadi & Bourigault (sous-corpus AFIA) Oct. 2001 Cours ENSEEIHT COT-3

Validation Individuelle Par sous-listes de candidats termes, une par document Sélection selon des critères liés au corpus AFIA : candidats termes présents au moins 2 fois dans le document en moyenne, 48 mots par liste contre 975 par document LIVRIC : candidats termes présents au moins 2 fois dans le document, ou une seule fois et au moins une fois dans un autre document de ce sous-corpus en moyenne, 81 mots par liste contre 5 095 par document Protocole et interface de validation sur le web Oct. 2001 Cours ENSEEIHT COT-3

Oct. 2001 Cours ENSEEIHT COT-3

Etude linguistique (2) autour de OUTIL Expertise Application visée Etude linguistique (2) autour de OUTIL Ressources terminologiques Corpus Termes Informatisé Etude Relations lexicales linguistique Regroupements Lexter Caméléon validation des candidats termes : 109 -> 67 éliminations : outil de préformage de la semelle regroupement de synonymes : outil de GL du projet, outil de génie logiciel du projet, outil de génie logiciel étude des relations hyperonymie : définition de marqueurs spécifiques X être article NP-OUTIL NP-OUTIL, adv-specification X Oct. 2001 Cours ENSEEIHT COT-3

TERMINAE Oct. 2001 Cours ENSEEIHT COT-3

De la langue naturelle à un langage formel : normaliser Langue naturelle Pas de primitives, des définitions circulaires, des énoncés imprécis, contextuels, des objets « instables » Choisir un contexte de référence des objets dont on parle pour fixer et stabiliser leur interprétation  stabilité référentielle et stabilité relationnelle Structurer et organiser les concepts ainsi créés Langage formel Des expressions logiques construites avec des primitives, des connecteurs, des quantificateurs. . . Oct. 2001 Cours ENSEEIHT COT-3

Application visée Expertise Ressources terminologiques Normalisation (1) Termes Relations lexicales Concepts Relations sémantiques Normalisation Lexter TERMINAE Caméléon Interprétation sémantique guidée par l’expertise et les besoins de l’application élimination et regroupement : 67 -> 46 élimination simple : outil de cartographie regroupements de synonymes outil textuel, outil d’analyse de textes, outil linguistique, outil d’analyse de corpus regroupements à granularité épaisse outil anthropotechnique -> outil de génie cognitif Des termes aux relations: exploration de contextes de cooccurrence de termes : méthode, formalisme, système, ... Oct. 2001 Cours ENSEEIHT COT-3

Normalisation (2) Des relations lexicales aux relations sémantiques Application visée Expertise Ressources terminologiques Normalisation (2) Termes Relations lexicales Concepts Relations sémantiques Normalisation Lexter TERMINAE Caméléon Des relations lexicales aux relations sémantiques Déterminer les concepts reliés et le type des relations Les représenter à l’aide de rôles ou de relations EST-UN Décider des propriétés des relations : héritage, … Des relations à une hiérarchie de concepts Différentier des concepts dans une hiérarchie de critères homogènes : outils conceptuels vs outils logiciels outil d’ingénierie des connaissances vs outil résultat de l’ingénierie des connaissances Relations révèlent des critères de différentiation Ajout de concepts non terminologiques Oct. 2001 Cours ENSEEIHT COT-3

Formalisation: premiers résultats Normalisation Expertise Application visée Termes Relations lexicales Ressources terminologiques Concepts Relations sémantiques Lexter Caméléon TERMINAE TERMINAE : environnement de modélisation Représentation des connaissances en logique de description Oct. 2001 Cours ENSEEIHT COT-3

Conclusion sur la méthode utilisation des textes comme support de connaissances => novateur, libère l’expert lien entre modèle conceptuel et connaissances => lisibilité, compréhensibilité, utilisabilité, maintenabilité, réutilisabilité utilisation systématique d’outils => se focaliser sur la prise de décision et sa justification, en garder trace Oct. 2001 Cours ENSEEIHT COT-3

Bilan Points forts de l’approche Maîtrise du processus du corpus jusqu’au modèle Outils préindustriels disponibles Mise en valeur réciproque des savoir-faire entre traitement automatique des textes et modélisation des connaissances Vers une meilleure intégration des résultats Prendre en compte le type d’application plus tôt dans l’analyse linguistique Préciser la sémantique des relations formelles : vers une repérage heuristique Oct. 2001 Cours ENSEEIHT COT-3

Nouveaux enjeux : le web sémantique But : retrouver des connaissances sur le web Alternatives centralisée + participation des auteurs une ontologie générale un moteur de recherche des pages annotées à partir de l ’ontologie centralisée sans participation des auteurs une ontologie générale (faite par les utilisateurs ou par 1 équipe) association « manuelle » de pages à des nœuds de l’ontologie type « entrepôt de données » restructuration XML de pages web - > annotation automatique ??? Requêtes spécialisées préparées Oct. 2001 Cours ENSEEIHT COT-3