La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Une méthode pour la construction d’ontologies à partir de textes

Présentations similaires


Présentation au sujet: "Une méthode pour la construction d’ontologies à partir de textes"— Transcription de la présentation:

1 Une méthode pour la construction d’ontologies à partir de textes
Nathalie Aussenac-Gilles IRIT, Toulouse Outils d’analyse de corpus Typologie et exemples Une méthode de construction d’ontologies à partir de textes Oct. 2001 Cours ENSEEIHT COT-3

2 Principes Ressources linguistiques brutes: => Filtrer
liste de termes, de relations problème de quantité problème de validité et de pertinence par rapport au besoin => Filtrer 2 types de filtrage Manuel : acquisition de connaissances à partir de textes Automatique (apprentissage) : text mining Documents Techniques Outils d’Analyse de Textes Modèle Oct. 2001 Cours ENSEEIHT COT-3

3 Produits terminologiques
Documents Techniques Outils d’Analyse de Textes Ontologie SBC Terminologie système de traduction Ressources terminologiques Type d’application Thesaurus système de recherche d’informations Lexique sémantique système d’extraction d’informations Oct. 2001 Cours ENSEEIHT COT-3

4 Typologie des outils d’analyse de textes
Mode d’utilisation : amorçage : traitement massif pour l’aide au repérage de concepts centraux et de classes sémantiques fouille : en cours de processus, retour au texte pour la modélisation « fine » de concepts Fonction : extraction de concordances : YAKWA, SATO extraction de termes : LEXTER, NOMINO extraction de relations : Caméléon, Likes, Prométhée regroupement de termes Typologie des outils pertinents pour l ’IC Oct. 2001 Cours ENSEEIHT COT-3

5 Extraction de concordances
Fonction : pour un patron donné, toutes les occurrences rassemblées Niveau d’annotation du corpus corpus « nu » : uniquement forme (suite de mots) corpus étiqueté : patrons morpho-syntaxique. Exemples : {nom}+{verbe « être » indicatif}+{article indéfini} {pronom personnel 1ère pers.}+{verbe indicatif}+{« dans »}+{déterminant démonstratif}+{Nom} activité de construction d' un |modèle |de connaissances , ou modélisation des solution verticale comporte un |modèle |à la KADS , une bibliothèque de composants A un stade ultime , le |modèle |formel est , la plupart du temps , connaissances en distinguant le |modèle |conceptuel du modèle opérationnel du monde ( on parle de |modèle |de produit ) et objet de modélisation de le projet européen KADS , le |modèle |conceptuel joue le rôle de modèle originale , de créer un |modèle |cognitif du futur système Oct. 2001 Cours ENSEEIHT COT-3

6 Oct. 2001 Cours ENSEEIHT COT-3

7 Oct. 2001 Cours ENSEEIHT COT-3

8 Extraction de termes Fonction : extraction et tri automatiques de candidats termes CT : séquence susceptible d’être retenue comme étiquette de concept Méthodes d’extraction statistiques segments répétés information mutuelle morpho-syntaxiques repérage de patrons analyse syntaxique partielle Critères de tris numériques fréquence d’occurrences dans le corpus productivité : nombre de CT plus complexes dont le CT est constituant Donner des exemples d’hapax, de mots productifs Oct. 2001 Cours ENSEEIHT COT-3

9 Lexter, un extracteur de candidats termes
Explore un corpus étiqueté syntaxiquement Analyse robuste de textes techniques ou scientifiques Extrait des syntagmes nominaux complexes Recherche à l’aide de patrons en négatif (recherche et rejette les séparateurs de candidats termes) Points forts : résolution des associations ambiguës d’adjectifs et de prépositions (ou syntagmes prépositionnels) au sein des groupes nominaux complexes. Oct. 2001 Cours ENSEEIHT COT-3

10 Lexter, un extracteur de candidats termes
Texte brut Etiquettage syntaxique Cordial Texte étiqueté Découpage Lexter, étape 1 : Découpage : Analyse de surface pour extraire les Syntagmes Nominaux de Longueur Maximale (SNLM) système à mémoire de cas en anatomie pathologique traits de signification pertinents des concepts sémantiques LEXTER is a robust parser which was designed for the extraction and the analysis of complex noun phrases from technical or scientific texts. The input is an unambiguoulsy tagged corpus. The extraction process is composed of 2 main steps. The Splitting module extracts maximal-length noun phrases by locating noun phrase boundaries. Then the Parsing module parses each MNLP to recursively decompose it into two constituents, one in the Head position and one in the Expansion position. The MNLP and their constituents are the term candidates which are submitted to the user for validation. Parsing MLNPs is a difficult task due to the problem of ambiguous PP and adjective attachments within long and complex noun phrases. The main strenght of Lexter is its capability of correcly parsing very complex noun phrases which occur more often than not in technical and scientific documents. Syntagmes Nominaux de Longueur Maximale (SNLM) Lexter, étape 2, Parsing : analyse en profondeur pour décomposer récursivement les SNLM [ [ système à [ mémoire de cas ] ] en [ anatomie pathologique ] ] [ [ [ traits de signification ] pertinents ] des [ concepts sémantiques ] ] Parsing Réseau de candidats termes Oct. 2001 Cours ENSEEIHT COT-3

11 Liste des candidats termes dont «modèle conceptuel » est en expansion
Oct. 2001 Cours ENSEEIHT COT-3

12 Caméléon : principes Extraction de relations sémantiques par marqueurs linguistiques Requiert un extracteur de candidats termes en amont comme NOMINO ou LEXTER Gère des corpus de très grosse taille ex: 2,2 millions de mots textes ayant une visée pédagogique Connection directe avec des modèles du domaine Oct. 2001 Cours ENSEEIHT COT-3

13 Relations conceptuelles et relations formelles
Relient classes ou instances Place privilégiée de la relation EST_UN (organisation hiérarchique des concepts) Rôle sémantique ou propriété Prend du sens par l’interprétation humaine Leur formalisation Interprétation formelle de EST_UN : héritage, classification Typage des concepts reliés (signature) Modèle en référence à un monde Les classifieurs Dossier de conception accepté Activité d’intégration Conditionne_le_début_de Document Activité Est-un Est-un Oct. 2001 Cours ENSEEIHT COT-3

14 Mise au point d’une base de marqueurs
Mise au point de marqueurs Marqueurs génériques Termes en relation Projection et évaluation sur corpus (T1,T2) (T1,T4) Projection de couples Analyse de coocurrences Textes et termes Proposition de marqueurs spécifiques Marqueurs spécifiques Projection et évaluation sur corpus Marqueurs validés sur corpus Oct. 2001 Cours ENSEEIHT COT-3

15 Mise au point d’une base de marqueurs
Oct. 2001 Cours ENSEEIHT COT-3

16 Repérage de relations avec Caméléon
marqueurs validés sur corpus Projection sur corpus Réseau conceptuel Textes et termes Hypothèses de relations Validation en contexte Projection de marqueurs Oct. 2001 Cours ENSEEIHT COT-3

17 Repérage de relations avec Caméléon
Oct. 2001 Cours ENSEEIHT COT-3

18 Caméléon, bilan Marqueurs les plus productifs Points forts :
Hyponymie; précision > 75% Méronymie; adaptation, précision > 75% Points forts : Validation de propositions de relations au sein du modèle Retour au texte pour valider Gestion d’une base de marqueurs génériques Débouche sur des marqueurs spécifiques Oct. 2001 Cours ENSEEIHT COT-3

19 Classification de termes
Classique : mots associés regroupement de mots apparaissant dans les mêmes contextes textuels (fenêtre, phrase, paragraphe, document, …) Analyse distributionnelle (« à la Harris ») regroupement de mots apparaissant dans les mêmes contextes syntaxiques compléments des mêmes noms adjectifs modifieurs des mêmes noms syntagmes nominaux ou noms compléments des mêmes verbes etc. les classes ainsi construites doivent être validées, interprétées. nécessité d’une analyse syntaxique (robuste et partielle) préalable Oct. 2001 Cours ENSEEIHT COT-3

20 Classification Oct. 2001 Cours ENSEEIHT COT-3

21 Des textes aux modèles conceptuels : nouveaux principes
partir des textes comme sources de connaissances utiliser des techniques et outils d’analyse de corpus basés sur des principes linguistes essentiellement et statistiques éventuellement plonger le modèle conceptuel dans son contexte linguistique en conservant un lien du modèle vers les textes Tal ou plutôt d ’analyse de corpus et d ’acuqisiotionde connaissances à partir de textes extracteurs de relations, extracteurs de cnandidats termes, aide à la conceptualisation apr regrouepemnt conceptuel, recherche de synonymes, reherche de termes en relations… pas de silver bullet, inteprétation et décision revenant toujours à l ’humain mais aide et garantie de rigueur Oct. 2001 Cours ENSEEIHT COT-3

22 Cadre méthodologique L’ontologie est construite pour une application.
L’application s’inscrit dans une pratique (domaine). La tâche de constitution du corpus est cruciale : collecter des textes, les baliser, éventuellement les « fabriquer » en fonction de l’application, avec l’aide des spécialistes documentations techniques, guides, transcriptions d’interview, ... L’ingénieur de la connaissance est un médiateur. prise en charge de l’application arbitrage entre spécialistes distance avec le texte Le cadre ne couvre pas tout ! Médiateur entre les textes, les spécialistes, l’application Oct. 2001 Cours ENSEEIHT COT-3

23 Une méthode (Aussenac, Biebow, Szulman)
Application cible éléments de expertise modèles existants description des besoins /application visée Modélisation de connaissances documentation à partir de corpus modèle technique formel outils d ’ACT outil support de modélisation disponibles Oct. 2001 Cours ENSEEIHT COT-3

24 Th(IC)2 : une ontologie de l’ingénierie des connaissances
Une contribution au projet (KA)2 Valider des hypothèses de recherche évaluation expérimentale d’outils et méthodes à partir de corpus ontologie vs. thesaurus Objectifs visés : un thésaurus de l’IC un thésaurus de l’IC utilisable par des chercheurs pour indexer leurs pages Web une ontologie de l’IC Corpus en 2 parties Textes scientifiques (LIVRIC), descriptions de laboratoires (AFIA) Oct. 2001 Cours ENSEEIHT COT-3

25 Principales étapes ontologie Application visée Ressources
terminologiques Expertise Application visée Description Expertise besoins Ressources terminologiques Constitution du corpus Documentation Application visée technique Expertise Ressources terminologiques Corpus Informatisé Etude linguistique Application visée Expertise Termes Ontologies existantes Relations Outils ACT lexicales Normalisation Regroupements Concepts ontologie Relations Outil support modélisation Formalisation sémantiques Outils ACT Outil support modélisation Formalisme Oct. 2001 Cours ENSEEIHT COT-3

26 Constitution du corpus
Expertise Target application Terminological resources Constitution du corpus Requirements description Corpus Electronic corpus gathering Technical documents Un tâche difficile Compromis entre représentativité (sujet, genre textuel) ET taille Trouver les textes les plus pertinents pour l’application Opportunisme : 2 sous-corpus Pourquoi des outils? Pourquoi une méthode? Pour passer de 207kmots aux 200 concepts nécessaires à la descritpion des outils de ‘l ’ic en rance Oct. 2001 Cours ENSEEIHT COT-3

27 Etude linguistique (1) outils utilisés : Lexter, Caméléon
Expertise Application visée Etude linguistique (1) Ressources terminologiques Corpus Termes Informatisé Etude Relations lexicales linguistique Regroupements Lexter Caméléon outils utilisés : Lexter, Caméléon deux approches pour sélectionner les termes à étudier (20 Ktermes): lecture des termes en liste lecture des contextes d’occurrence des termes Validation par les experts structuration au fur et à mesure “outil” en tête dans Lexter, puis structuration, noms propres en relation avec “outil”, “méthode”, “système”…, puis structuration Oct. 2001 Cours ENSEEIHT COT-3

28 Candidats termes les plus fréquents
Application de LEXTER High frequency terms are not very relevant. They are good descriptors to characterise the overall field of Knowledge Acquisition with respect to other fields within the field of Artificial intelligence. They are not relevant to characterise the research topics of a given team with respect to others teams whitin the field of Knowledge Acquisition. Candidats termes les plus fréquents Oct. 2001 Cours ENSEEIHT COT-3

29 Liste des candidats termes extraits par Lexter
d’un article de Biebow & Szulmann Oct. 2001 Cours ENSEEIHT COT-3

30 Distribution Distribution
Liste de candidats termes extraits par Lexter (freq >= 5) de l ’article Assadi & Bourigault (sous-corpus AFIA) Oct. 2001 Cours ENSEEIHT COT-3

31 Validation Individuelle
Par sous-listes de candidats termes, une par document Sélection selon des critères liés au corpus AFIA : candidats termes présents au moins 2 fois dans le document en moyenne, 48 mots par liste contre 975 par document LIVRIC : candidats termes présents au moins 2 fois dans le document, ou une seule fois et au moins une fois dans un autre document de ce sous-corpus en moyenne, 81 mots par liste contre par document Protocole et interface de validation sur le web Oct. 2001 Cours ENSEEIHT COT-3

32 Oct. 2001 Cours ENSEEIHT COT-3

33 Etude linguistique (2) autour de OUTIL
Expertise Application visée Etude linguistique (2) autour de OUTIL Ressources terminologiques Corpus Termes Informatisé Etude Relations lexicales linguistique Regroupements Lexter Caméléon validation des candidats termes : 109 -> 67 éliminations : outil de préformage de la semelle regroupement de synonymes : outil de GL du projet, outil de génie logiciel du projet, outil de génie logiciel étude des relations hyperonymie : définition de marqueurs spécifiques X être article NP-OUTIL NP-OUTIL, adv-specification X Oct. 2001 Cours ENSEEIHT COT-3

34 TERMINAE Oct. 2001 Cours ENSEEIHT COT-3

35 De la langue naturelle à un langage formel : normaliser
Langue naturelle Pas de primitives, des définitions circulaires, des énoncés imprécis, contextuels, des objets « instables » Choisir un contexte de référence des objets dont on parle pour fixer et stabiliser leur interprétation  stabilité référentielle et stabilité relationnelle Structurer et organiser les concepts ainsi créés Langage formel Des expressions logiques construites avec des primitives, des connecteurs, des quantificateurs. . . Oct. 2001 Cours ENSEEIHT COT-3

36 Application visée Expertise Ressources terminologiques Normalisation (1) Termes Relations lexicales Concepts Relations sémantiques Normalisation Lexter TERMINAE Caméléon Interprétation sémantique guidée par l’expertise et les besoins de l’application élimination et regroupement : 67 -> 46 élimination simple : outil de cartographie regroupements de synonymes outil textuel, outil d’analyse de textes, outil linguistique, outil d’analyse de corpus regroupements à granularité épaisse outil anthropotechnique -> outil de génie cognitif Des termes aux relations: exploration de contextes de cooccurrence de termes : méthode, formalisme, système, ... Oct. 2001 Cours ENSEEIHT COT-3

37 Normalisation (2) Des relations lexicales aux relations sémantiques
Application visée Expertise Ressources terminologiques Normalisation (2) Termes Relations lexicales Concepts Relations sémantiques Normalisation Lexter TERMINAE Caméléon Des relations lexicales aux relations sémantiques Déterminer les concepts reliés et le type des relations Les représenter à l’aide de rôles ou de relations EST-UN Décider des propriétés des relations : héritage, … Des relations à une hiérarchie de concepts Différentier des concepts dans une hiérarchie de critères homogènes : outils conceptuels vs outils logiciels outil d’ingénierie des connaissances vs outil résultat de l’ingénierie des connaissances Relations révèlent des critères de différentiation Ajout de concepts non terminologiques Oct. 2001 Cours ENSEEIHT COT-3

38 Formalisation: premiers résultats
Normalisation Expertise Application visée Termes Relations lexicales Ressources terminologiques Concepts Relations sémantiques Lexter Caméléon TERMINAE TERMINAE : environnement de modélisation Représentation des connaissances en logique de description Oct. 2001 Cours ENSEEIHT COT-3

39 Conclusion sur la méthode
utilisation des textes comme support de connaissances => novateur, libère l’expert lien entre modèle conceptuel et connaissances => lisibilité, compréhensibilité, utilisabilité, maintenabilité, réutilisabilité utilisation systématique d’outils => se focaliser sur la prise de décision et sa justification, en garder trace Oct. 2001 Cours ENSEEIHT COT-3

40 Bilan Points forts de l’approche
Maîtrise du processus du corpus jusqu’au modèle Outils préindustriels disponibles Mise en valeur réciproque des savoir-faire entre traitement automatique des textes et modélisation des connaissances Vers une meilleure intégration des résultats Prendre en compte le type d’application plus tôt dans l’analyse linguistique Préciser la sémantique des relations formelles : vers une repérage heuristique Oct. 2001 Cours ENSEEIHT COT-3

41 Nouveaux enjeux : le web sémantique
But : retrouver des connaissances sur le web Alternatives centralisée + participation des auteurs une ontologie générale un moteur de recherche des pages annotées à partir de l ’ontologie centralisée sans participation des auteurs une ontologie générale (faite par les utilisateurs ou par 1 équipe) association « manuelle » de pages à des nœuds de l’ontologie type « entrepôt de données » restructuration XML de pages web - > annotation automatique ??? Requêtes spécialisées préparées Oct. 2001 Cours ENSEEIHT COT-3


Télécharger ppt "Une méthode pour la construction d’ontologies à partir de textes"

Présentations similaires


Annonces Google