Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parCornélie Herault Modifié depuis plus de 10 années
1
5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe TIANathalie Aussenac-Gilles – IRIT Anne Condamines – ERSS Sylvie Szulman – LIPN Lapplication et les utilisateurs sont-ils mal pris en compte ? Passage du corpus à une application Différents types dimpacts Corpus Techniques linguistiques Choix des outils Représentation des connaissances Contenu du modèle – niveaux linguistique / conceptuel
2
5 décembre 2002TIA - prise en compte de l'application - Assises I32 Lapplication est-elle mal prise en compte ? « la construction dontologies à partir de textes ne permet pas de construire des ontologies adaptées aux utilisateurs » Application ou utilisateur de lapplication ? Vocabulaire des textes serait celui des experts, non celui des utilisateurs Lutilisateur ne serait pas prévu pour évaluer le modèle Application ou type dapplication ? Éventail de types de modèles : terminologies, thésaurus … Éventail de types dapplications : gestion des connaissances, RI, classement documentaire, SBC, indexation
3
5 décembre 2002TIA - prise en compte de l'application - Assises I33 Variétés des applications, variétés des ressources terminologiques utilisées… Point de vue classique : des ressources terminologiques dédiées pour des types dapplication particulières la base de données terminologiques pour le traducteur le langage documentaire pour le documentaliste, … Renouvellement : des ressources terminologiques de types variés pour des applications variées : Bases de données terminologiques multilingues pour traduction automatique Thesaurus pour indexation automatique Index hypertextuels pour documents électroniques Réseaux de termes pour moteurs de recherche spécialisés Ontologies pour systèmes à base de connaissances
4
5 décembre 2002TIA - prise en compte de l'application - Assises I34 … une approche unifiée Assurer des fondements linguistiques à un réseau conceptuel Construction à partir de lanalyse dun corpus de textes Processus supervisé par lanalyste en concertation avec experts et utilisateurs Utilisation de techniques linguistiques et de logiciels de TAL Recherches nécessairement pluridisciplinaires Terminologie Linguistique Traitement automatique des langues Ingénierie des connaissances (en dehors de TIA) Recherche dinformation et sciences de linformation
5
5 décembre 2002TIA - prise en compte de l'application - Assises I35 Problématique du passage du corpus à une application Type dapplication Usages Méthodes Outils de TAL Outils de modélisation Principes linguistiques Intégration Ressources terminologiques C orpus
6
5 décembre 2002TIA - prise en compte de l'application - Assises I36 Points dimpact de lapplication et de son usage Type dapplication Usages Méthodes Outils de TAL Outils de modélisation Principes linguistiques Intégration Ressources terminologiques Contenu Représentation des connaissances C orpus
7
5 décembre 2002TIA - prise en compte de l'application - Assises I37 Objectifs de la présentation Illustrer, sur des études de cas, limpact de lapplication visée sur des aspects de la démarche de construction de ressources terminologiques 1) Profil du « constructeur » 2) Construction du corpus 3) Utilisation des techniques danalyse linguistique et doutils de TAL 4) Choix de la structure de données représentation des connaissances – contenu du modèle 5) Utilisation des outils de modélisation 6) Validation, évaluation Dresser des perspectives vers une meilleure maîtrise et adéquation du processus de construction et des ressources construites aux besoins et aux types dapplication
8
5 décembre 2002TIA - prise en compte de l'application - Assises I38 Etudes de cas : les applications VERRE : Classement de documents et veille stratégique sur la fabrication de la fibre de verre Ontologie : formuler des recherches, représenter des documents REA : codage des diagnostics et actes médicaux traumatologie en réanimation chirurgicale Ontologie comme squelette conceptuel dun thésaurus DROIT : recherche dinformation sur www.droit.org (édition Lois et décrets du J.O. de la République française) Réseau sémantique du droit pour la reformulation de requêtes SAMOVAR : mémoire dentreprise, domaine automobile plusieurs ontologies pour laccès à des comptes rendus dincidents de test COMMA : SMA pour la gestion des connaissances : veille et formation ontologie pour consultation et pour agents logiciels
9
5 décembre 2002TIA - prise en compte de l'application - Assises I39 Etude de cas : les applications Application de traitement de linformation textuelle. Cas « idéal » pour une approche basée sur les textes Projets de R&D Pas toujours de « vrais » utilisateurs au début du projet Lapplication elle-même est définie plus ou moins au cours du projet Lobjectif est aussi de tester des méthodes et outils.
10
5 décembre 2002TIA - prise en compte de l'application - Assises I310 2) Construction du corpus Etape cruciale Le corpus est (une des) source(s) de connaissances Le corpus va servir à documenter la ressources construite Paramètres de construction Homogénéité avec les textes traités dans lapplication cible (diversité de vocabulaire) Recours aux experts, disponibilité Diversité de genre, taille Préparation, balisage, pour les outils de TAL Traitement global ou par parties différentiées Importance du balisage : localiser les phrases à interpréter dans lensemble du document
11
5 décembre 2002TIA - prise en compte de l'application - Assises I311 2) Construction du corpus – étude de cas REA 600 compte rendus dhospitalisation (CRH) en réanimation chirurgicale (380 000 mots), balisés de façon homogène (,,, …) VERRE 3 sous-corpus (250 000 mots) : livre (découpé en chapitres), brevets, dépêches dagence de presse pour la veille regroupées par mois Vocabulaire générique de la fibre de verre Livre Vocabulaire technique des procédés du verre textile Brevets Vocabulaire technique des dépôts de brevets Veille Vocabulaire de la finance et économie
12
5 décembre 2002TIA - prise en compte de l'application - Assises I312 3) Utilisation des techniques danalyse linguistique et doutils de TAL Dépendances application-corpus et corpus-technique danalyse : ex de la recherche de relation par marqueurs Ex : marqueur de relation EST-UN tous les N1 sauf dét N2 (tous les mammifères sauf la baleine) Tous les marqueurs dun même type de relation ne fournissent pas les mêmes résultats sur un corpus Ex : lanaphore, marqueur de la relation EST-UN fournit des génériques de plus haut niveau (La baleine sapprochait. Ce mammifère…) Un corpus contient des marqueurs et des relations spécifiques Ex : relation de « production » entre « process » et « product » dans Verre
13
5 décembre 2002TIA - prise en compte de l'application - Assises I313 3) Utilisation des techniques danalyse linguistique et doutils de TAL SAMOVAR : Nomino et patrons de fouille Première conceptualisation « manuelle » du domaine Extraction de termes avec Nomino : ontologies des pièces Patrons dextraction dinstances ou de concepts et de relations spécifiques pour enrichir lontologie à partir de textes BRUIT DE CRISSEMENT DU VOLANT PENDANT SON REGLAGE EN HAUTEUR Nom[ type= Problème, n= i] Prep[ lemme=« de »] Nom[ type Problème, n= i+1] Si on rencontre lexpression où est connu comme correspondant à un concept dans lontologie Problème, alors suggérer dattacher le concept dénoté par le terme comme fils de dans lontologie Problème
14
5 décembre 2002TIA - prise en compte de l'application - Assises I314 3) Utilisation des techniques danalyse linguistique et doutils de TAL Différents types doutils de TAL pour la constructions de ressources terminologique Extraction de candidats termes, ex : Termino, Syntex Extraction de relations candidates, ex : Caméléon, Likes Analyse distributionnelle, ex : Upery Outils statistiques de repérage de classes (concepts) et de relations Ces outils sappuient sur des techniques linguistiques (morphosyntaxiques) et/ou statistiques (apprentissage) Difficultés Dépouiller les résultats de ces outils Faire face au volume de données Trouver des indices pour repérer des données pertinentes Mettre au point des outils spécifiques
15
5 décembre 2002TIA - prise en compte de l'application - Assises I315 3) Utilisation des techniques danalyse linguistique et doutils de TAL REA : Syntex et Upery analyse humaine (200 h) guidée par les résultats de lanalyse distributionnelle DROIT : Syntex et Upery Pas de validation humaine : on conserve le réseau de candidats termes nominaux extrait par Syntex enrichi des liens de proximité distributionnelle, de coordination et de cooccurrence statistique. Elimination des éléments reliés à aucun autre (300 000 100 000)
16
5 décembre 2002TIA - prise en compte de l'application - Assises I316 4) Structure de données Types de ressources : Thesaurus, index, taxonomie, réseau sémantique, ontologie, etc. Composantes : texte, composante lexicale, composante conceptuelle Degré de formalisation : Ontologie formelle --- Réseau de termes avec relations non étiquetées Contenu : couverture, choix de priorité entre la fidélité au texte, la fidélité aux experts et ladéquation aux utilisateurs Rôle de la ressource Le contenu, la forme, la couverture, le degré de formalisation, etc. sont choisis en fonction du rôle que doit jouer la ressource terminologique ou ontologique dans lapplication cible.
17
5 décembre 2002TIA - prise en compte de l'application - Assises I317 4) Structure de données – Ontologies pour la mémoire dentreprise Un composant de la mémoire, destiné à être exploré par lutilisateur final. Contenu : définitions ou de liens vers des textes explicatifs, compréhensibles par un utilisateur humain adapté aux tâches des utilisateurs (degré de détail, niveau de visibilité…) Une référence pour indexer/ annoter sémantiquement la mémoire afin daméliorer la recherche de ressources ou dinformation. Contenu : concepts importants pour lannotation faits (relations entre instances particulières …) heuristiques (inférences pour la recherche dinfo) Une base pour la communication et l'échange dinformation entre des programmes, des agents logiciels ontologie formelle contenu : besoins en messages des agents logiciels
18
5 décembre 2002TIA - prise en compte de l'application - Assises I318 4) Contenu du modèle : Fibre de verre
19
5 décembre 2002TIA - prise en compte de l'application - Assises I319 4) Contenu du modèle - VERRE Décisions de modélisation liées aux textes ET à lapplication Concepts individuel ou générique ? Concept ou relation ? TransferringResine, FeedingScrap, … sont étapes de WashingScraps : texte Relation has-steps ou concept WashingScrapsSteps ? Les définitions dinstances peuvent modifier celles des concepts génériques Un ou plusieurs concepts Faut-il définir 2 concepts différents Process et ManufacturingProcess ? Concepts de structuration non terminologiques : process
20
5 décembre 2002TIA - prise en compte de l'application - Assises I320 Conclusion Première analyse pragmatique : comment aller plus loin Trouver un cadre de présentation plus formel Une piste pour un groupe de travail et non pour une seule équipe de recherche Points non résolus Impact du TYPE dapplication Généraliser des observations à des classes de situations Perspectives Renouveler les expériences, sappuyer sur plus de projets Confrontation upper level ontologies / connaissances acquises Vers des ressources dynamiques, évolutives
21
5 décembre 2002TIA - prise en compte de l'application - Assises I321 4) Structure de données – VERRE Demande Profils : classes définies par les utilisateurs, caractérisées par des concepts (ou des sous-graphes de lontologie) ; Documents à classer caractérisés par lensemble des concepts reconnus Modèle de données : ontologie TERMINAE ontologie formalisée, contenant des concepts et relations (pas de règles ou daxiomes) composante lexicale riche : relations de synonymie et marqueurs pour retrouver les formes lexicales associées à un concept ou à une relation Composante textuelle inutile dans le modèle opérationnel Formalisation Nécessaire pour parcourir les liens sémantiques entre concepts et associer un profil et un texte Réalisée au sein du système de classification et non dans lenvironnement de modélisation
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.