5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

LA QUALITE LOGICIELLE Plan du cours La modélisation d’activité 1 h ½
Les apports du co-enseignement
Formation et suivi en Didactique convergente
Sémantique et droit de la Fonction publique une boucle verticale
IREMIA : Institut de REcherche en Mathématiques et Informatique Appliquées Université de la Réunion Uniformisation des mécanismes de conception de SMA.
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
ASSTICCOT, RTP-DOC, Paris
Constitution de produits terminologiques à partir de corpus
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Marine Campedel mars 2005 INDEXATION des IMAGES Marine Campedel mars 2005.
Urbanisation de Systèmes d'Information
5. La physique appliquée en STS IPM
Utilisation didactique des extractions lexicales des corpus
UML - Présentation.
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
DEME - La méthode d’enquête – introduction
METHODOLOGIE.
Evaluer à l’école maternelle
Indexation textuelle : Systèmes de recherche d’informations
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Laboratoire Sciences Pour l’Environnement
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Questions/problèmes Contraintes de départ… ressources, plateforme… utilisation de matériel existant –Pas de temps du prof pour préparer des exemples… concrets…
Initiation à la conception de systèmes d'information
DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,
Annotations sémantiques pour le domaine des biopuces
SCIENCES DE L ’INGENIEUR
MOT Éditeur de modèles de connaissances par objets typés
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
Human Knowledge La nouvelle génération de moteurs sémantiques.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Initiation à la conception des systèmes d'informations
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
RAISONNEMENT À PARTIR DE CAS R à PC. PLAN DU TRAVAIL Introduction Introduction Raisonnement analogique Raisonnement analogique Principe et étapes de R.
Spécialités Gestion et Finance Ressources humaines et communication
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
( ) Collège de Maisonneuve
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
Se repérer et organiser sa veille dans la recherche en éducation Module 2 « Maîtriser l’accès aux ressources scientifiques en éducation » Introduction.
1 Construction de ressources terminologiques à partir de textes : études de cas Nathalie AUSSENAC-GILLES (CNRS, Toulouse) Didier BOURIGAULT (CNRS, Toulouse)
Une méthode pour la construction d’ontologies à partir de textes
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Stage à Ontomantics Master Pro TILDE
Le Traitement Automatique des Langues (TAL)
Informatique et Sciences du Numérique
I-expo 9 juin 2004 Les référentiels métier à l’heure de la mobilité professionnelle et géographique Table Ronde.
LA PRISE EN CHARGE DU TRAVAIL COOPÉRATIF
But : avoir un regard réflexif sur le métier d’enseignant
Copyright, 1996 © Dale Carnegie & Associates, Inc. Com7114 Technologies de la communication Objectifs de ce cours ? Sa place dans le programme ? La communication.
BACCALAUREAT PROFESSIONNEL 3 ANS MICROTECHNIQUES Quelques points clés.
Initiation a des recherches dans domaine de l’enseignement
Apéro Techno Romain Maragou - Aliou Sow Web sémantique.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
REFORME DU PLAN LOCALISE DE QUARTIER SIA - section Genève - FAI
R ETOURS SUR LE PROJET DISTIL ET PERSPECTIVES 2011 Sylvie Ranwez Gérard Dray.
19 avril Spécification d’un cadre d’ingénierie pour les réseaux d’organisations Laboratoire de recherche : OMSI à l’EMSE.
Année Universitaire : 2013/2014 Réalisée par: Rahma DAIKHI Encadrants : M. Jean-Yves TIGLI M. Stéphane LAVIROTTE Au sein de : Laboratoire I3S, Equipe RAINBOW.
Production de ressources pour le cycle 3 Lycée Diderot le 8 mars 2016
Transcription de la présentation:

5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe TIANathalie Aussenac-Gilles – IRIT Anne Condamines – ERSS Sylvie Szulman – LIPN Lapplication et les utilisateurs sont-ils mal pris en compte ? Passage du corpus à une application Différents types dimpacts Corpus Techniques linguistiques Choix des outils Représentation des connaissances Contenu du modèle – niveaux linguistique / conceptuel

5 décembre 2002TIA - prise en compte de l'application - Assises I32 Lapplication est-elle mal prise en compte ? « la construction dontologies à partir de textes ne permet pas de construire des ontologies adaptées aux utilisateurs » Application ou utilisateur de lapplication ? Vocabulaire des textes serait celui des experts, non celui des utilisateurs Lutilisateur ne serait pas prévu pour évaluer le modèle Application ou type dapplication ? Éventail de types de modèles : terminologies, thésaurus … Éventail de types dapplications : gestion des connaissances, RI, classement documentaire, SBC, indexation

5 décembre 2002TIA - prise en compte de l'application - Assises I33 Variétés des applications, variétés des ressources terminologiques utilisées… Point de vue classique : des ressources terminologiques dédiées pour des types dapplication particulières la base de données terminologiques pour le traducteur le langage documentaire pour le documentaliste, … Renouvellement : des ressources terminologiques de types variés pour des applications variées : Bases de données terminologiques multilingues pour traduction automatique Thesaurus pour indexation automatique Index hypertextuels pour documents électroniques Réseaux de termes pour moteurs de recherche spécialisés Ontologies pour systèmes à base de connaissances

5 décembre 2002TIA - prise en compte de l'application - Assises I34 … une approche unifiée Assurer des fondements linguistiques à un réseau conceptuel Construction à partir de lanalyse dun corpus de textes Processus supervisé par lanalyste en concertation avec experts et utilisateurs Utilisation de techniques linguistiques et de logiciels de TAL Recherches nécessairement pluridisciplinaires Terminologie Linguistique Traitement automatique des langues Ingénierie des connaissances (en dehors de TIA) Recherche dinformation et sciences de linformation

5 décembre 2002TIA - prise en compte de l'application - Assises I35 Problématique du passage du corpus à une application Type dapplication Usages Méthodes Outils de TAL Outils de modélisation Principes linguistiques Intégration Ressources terminologiques C orpus

5 décembre 2002TIA - prise en compte de l'application - Assises I36 Points dimpact de lapplication et de son usage Type dapplication Usages Méthodes Outils de TAL Outils de modélisation Principes linguistiques Intégration Ressources terminologiques Contenu Représentation des connaissances C orpus

5 décembre 2002TIA - prise en compte de l'application - Assises I37 Objectifs de la présentation Illustrer, sur des études de cas, limpact de lapplication visée sur des aspects de la démarche de construction de ressources terminologiques 1) Profil du « constructeur » 2) Construction du corpus 3) Utilisation des techniques danalyse linguistique et doutils de TAL 4) Choix de la structure de données représentation des connaissances – contenu du modèle 5) Utilisation des outils de modélisation 6) Validation, évaluation Dresser des perspectives vers une meilleure maîtrise et adéquation du processus de construction et des ressources construites aux besoins et aux types dapplication

5 décembre 2002TIA - prise en compte de l'application - Assises I38 Etudes de cas : les applications VERRE : Classement de documents et veille stratégique sur la fabrication de la fibre de verre Ontologie : formuler des recherches, représenter des documents REA : codage des diagnostics et actes médicaux traumatologie en réanimation chirurgicale Ontologie comme squelette conceptuel dun thésaurus DROIT : recherche dinformation sur (édition Lois et décrets du J.O. de la République française) Réseau sémantique du droit pour la reformulation de requêtes SAMOVAR : mémoire dentreprise, domaine automobile plusieurs ontologies pour laccès à des comptes rendus dincidents de test COMMA : SMA pour la gestion des connaissances : veille et formation ontologie pour consultation et pour agents logiciels

5 décembre 2002TIA - prise en compte de l'application - Assises I39 Etude de cas : les applications Application de traitement de linformation textuelle. Cas « idéal » pour une approche basée sur les textes Projets de R&D Pas toujours de « vrais » utilisateurs au début du projet Lapplication elle-même est définie plus ou moins au cours du projet Lobjectif est aussi de tester des méthodes et outils.

5 décembre 2002TIA - prise en compte de l'application - Assises I310 2) Construction du corpus Etape cruciale Le corpus est (une des) source(s) de connaissances Le corpus va servir à documenter la ressources construite Paramètres de construction Homogénéité avec les textes traités dans lapplication cible (diversité de vocabulaire) Recours aux experts, disponibilité Diversité de genre, taille Préparation, balisage, pour les outils de TAL Traitement global ou par parties différentiées Importance du balisage : localiser les phrases à interpréter dans lensemble du document

5 décembre 2002TIA - prise en compte de l'application - Assises I311 2) Construction du corpus – étude de cas REA 600 compte rendus dhospitalisation (CRH) en réanimation chirurgicale ( mots), balisés de façon homogène (,,, …) VERRE 3 sous-corpus ( mots) : livre (découpé en chapitres), brevets, dépêches dagence de presse pour la veille regroupées par mois Vocabulaire générique de la fibre de verre Livre Vocabulaire technique des procédés du verre textile Brevets Vocabulaire technique des dépôts de brevets Veille Vocabulaire de la finance et économie

5 décembre 2002TIA - prise en compte de l'application - Assises I312 3) Utilisation des techniques danalyse linguistique et doutils de TAL Dépendances application-corpus et corpus-technique danalyse : ex de la recherche de relation par marqueurs Ex : marqueur de relation EST-UN tous les N1 sauf dét N2 (tous les mammifères sauf la baleine) Tous les marqueurs dun même type de relation ne fournissent pas les mêmes résultats sur un corpus Ex : lanaphore, marqueur de la relation EST-UN fournit des génériques de plus haut niveau (La baleine sapprochait. Ce mammifère…) Un corpus contient des marqueurs et des relations spécifiques Ex : relation de « production » entre « process » et « product » dans Verre

5 décembre 2002TIA - prise en compte de l'application - Assises I313 3) Utilisation des techniques danalyse linguistique et doutils de TAL SAMOVAR : Nomino et patrons de fouille Première conceptualisation « manuelle » du domaine Extraction de termes avec Nomino : ontologies des pièces Patrons dextraction dinstances ou de concepts et de relations spécifiques pour enrichir lontologie à partir de textes BRUIT DE CRISSEMENT DU VOLANT PENDANT SON REGLAGE EN HAUTEUR Nom[ type= Problème, n= i] Prep[ lemme=« de »] Nom[ type Problème, n= i+1] Si on rencontre lexpression où est connu comme correspondant à un concept dans lontologie Problème, alors suggérer dattacher le concept dénoté par le terme comme fils de dans lontologie Problème

5 décembre 2002TIA - prise en compte de l'application - Assises I314 3) Utilisation des techniques danalyse linguistique et doutils de TAL Différents types doutils de TAL pour la constructions de ressources terminologique Extraction de candidats termes, ex : Termino, Syntex Extraction de relations candidates, ex : Caméléon, Likes Analyse distributionnelle, ex : Upery Outils statistiques de repérage de classes (concepts) et de relations Ces outils sappuient sur des techniques linguistiques (morphosyntaxiques) et/ou statistiques (apprentissage) Difficultés Dépouiller les résultats de ces outils Faire face au volume de données Trouver des indices pour repérer des données pertinentes Mettre au point des outils spécifiques

5 décembre 2002TIA - prise en compte de l'application - Assises I315 3) Utilisation des techniques danalyse linguistique et doutils de TAL REA : Syntex et Upery analyse humaine (200 h) guidée par les résultats de lanalyse distributionnelle DROIT : Syntex et Upery Pas de validation humaine : on conserve le réseau de candidats termes nominaux extrait par Syntex enrichi des liens de proximité distributionnelle, de coordination et de cooccurrence statistique. Elimination des éléments reliés à aucun autre ( )

5 décembre 2002TIA - prise en compte de l'application - Assises I316 4) Structure de données Types de ressources : Thesaurus, index, taxonomie, réseau sémantique, ontologie, etc. Composantes : texte, composante lexicale, composante conceptuelle Degré de formalisation : Ontologie formelle --- Réseau de termes avec relations non étiquetées Contenu : couverture, choix de priorité entre la fidélité au texte, la fidélité aux experts et ladéquation aux utilisateurs Rôle de la ressource Le contenu, la forme, la couverture, le degré de formalisation, etc. sont choisis en fonction du rôle que doit jouer la ressource terminologique ou ontologique dans lapplication cible.

5 décembre 2002TIA - prise en compte de l'application - Assises I317 4) Structure de données – Ontologies pour la mémoire dentreprise Un composant de la mémoire, destiné à être exploré par lutilisateur final. Contenu : définitions ou de liens vers des textes explicatifs, compréhensibles par un utilisateur humain adapté aux tâches des utilisateurs (degré de détail, niveau de visibilité…) Une référence pour indexer/ annoter sémantiquement la mémoire afin daméliorer la recherche de ressources ou dinformation. Contenu : concepts importants pour lannotation faits (relations entre instances particulières …) heuristiques (inférences pour la recherche dinfo) Une base pour la communication et l'échange dinformation entre des programmes, des agents logiciels ontologie formelle contenu : besoins en messages des agents logiciels

5 décembre 2002TIA - prise en compte de l'application - Assises I318 4) Contenu du modèle : Fibre de verre

5 décembre 2002TIA - prise en compte de l'application - Assises I319 4) Contenu du modèle - VERRE Décisions de modélisation liées aux textes ET à lapplication Concepts individuel ou générique ? Concept ou relation ? TransferringResine, FeedingScrap, … sont étapes de WashingScraps : texte Relation has-steps ou concept WashingScrapsSteps ? Les définitions dinstances peuvent modifier celles des concepts génériques Un ou plusieurs concepts Faut-il définir 2 concepts différents Process et ManufacturingProcess ? Concepts de structuration non terminologiques : process

5 décembre 2002TIA - prise en compte de l'application - Assises I320 Conclusion Première analyse pragmatique : comment aller plus loin Trouver un cadre de présentation plus formel Une piste pour un groupe de travail et non pour une seule équipe de recherche Points non résolus Impact du TYPE dapplication Généraliser des observations à des classes de situations Perspectives Renouveler les expériences, sappuyer sur plus de projets Confrontation upper level ontologies / connaissances acquises Vers des ressources dynamiques, évolutives

5 décembre 2002TIA - prise en compte de l'application - Assises I321 4) Structure de données – VERRE Demande Profils : classes définies par les utilisateurs, caractérisées par des concepts (ou des sous-graphes de lontologie) ; Documents à classer caractérisés par lensemble des concepts reconnus Modèle de données : ontologie TERMINAE ontologie formalisée, contenant des concepts et relations (pas de règles ou daxiomes) composante lexicale riche : relations de synonymie et marqueurs pour retrouver les formes lexicales associées à un concept ou à une relation Composante textuelle inutile dans le modèle opérationnel Formalisation Nécessaire pour parcourir les liens sémantiques entre concepts et associer un profil et un texte Réalisée au sein du système de classification et non dans lenvironnement de modélisation