1 Construction de ressources terminologiques à partir de textes : études de cas Nathalie AUSSENAC-GILLES (CNRS, Toulouse) Didier BOURIGAULT (CNRS, Toulouse)

Slides:



Advertisements
Présentations similaires
Conférence « Compétences Informatiques » 10 avril 2006
Advertisements

MOT Éditeur de modèles de connaissances par objets typés
LA QUALITE LOGICIELLE Plan du cours La modélisation d’activité 1 h ½
Les apports du co-enseignement
UR1, CRI, Thierry Bédouin, le 21 Mai 2007 Journée Couperin du 21 Mai 2007 Thierry Bédouin, directeur du CRI de Rennes 1 Les publications scientifiques,
Sémantique et droit de la Fonction publique une boucle verticale
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
ASSTICCOT, RTP-DOC, Paris
Constitution de produits terminologiques à partir de corpus
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe.
1 ICSI Ingénierie des Connaissances et des Supports dInformation Organiser et exploiter le capital de connaissances des entreprises et des organisations.
Urbanisation de Systèmes d'Information
CPeyronnet | | Veille et recherche sur Internet : concepts, méthodologies, outils... 1 CvTic Veille et recherche sur Internet.
UML - Présentation.
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
METHODOLOGIE.
Indexation textuelle : Systèmes de recherche d’informations
Plate-forme pour l’étude et la conception de systèmes automatisés
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Le projet en terminale STMG
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Vers une ontologie du domaine de l’astronomie
ANTbox La gestion collaborative de documents et de connaissances Au service dactions de veille.
Chapitre 4 : la gestion électronique des documents
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Développeur informatique
B2i Lycée Circulaire BO n°31 du 29/08/2013.
DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,
MOT Éditeur de modèles de connaissances par objets typés
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Solution Athena accès sémantique à linformation MATI Montréal, Avril 2012.
UN THESAURUS Pourquoi ? Pour qui ? Comment ?
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Human Knowledge La nouvelle génération de moteurs sémantiques.
L ’HISTOIRE GEOGRAPHIE ET LE B2I Quelles compétences exigées pour l ’obtention du B2I correspondent aux compétences développées en histoire-géographie.
Réunion des directeurs d’unités ST2I 30 octobre 2007 Réseau Doc-ST2I Missions et perspectives (MI2S)
Résolution de problèmes
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
Travail collaboratif à partir d’un blog 24 mars 2010 Eric GUIRAUT Lycée CARRIAT – Bourg en Bresse.
Initiation à la conception des systèmes d'informations
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Titre : LE PROJET Objectifs: › être capable de mener un projet › répondre aux attentes des jurys Durée: 30 min.
Spécialités Gestion et Finance Ressources humaines et communication
L ’ordinateur est un outil parmi d ’autres.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
Le club de lecture à l’écran
Hôpital Bidule Le patient Donald Duck, né le 22/5/2064 souffre d’un œdème de Quincke, type II. CONCEPTION ET UTILISATION D’ONTOLOGIES MÉDICALES : APPLICATION.
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
Se repérer et organiser sa veille dans la recherche en éducation Module 2 « Maîtriser l’accès aux ressources scientifiques en éducation » Introduction.
La pratique professionnelle du Web Benoît Girard, conseiller stratégique – réseau des webmestres Ministère des Services gouvernementaux.
Une méthode pour la construction d’ontologies à partir de textes
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Stage à Ontomantics Master Pro TILDE
Le Traitement Automatique des Langues (TAL)
Analyse du sujet -1- Eléments issus de la lecture du sujet
Epreuve de mise en situation professionnelle
Savoir-être : Fréquenter le CDI
Séquence pédagogique épreuve orale du CAPES de Documentation
BACCALAUREAT PROFESSIONNEL 3 ANS MICROTECHNIQUES Quelques points clés.
PROJET : identification et régulation des usages des TIC en lycée Lycée Marseilleveyre/ INRP
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
GFU (ABD) INTO INFO (Educate) 28 janvier 1998 De l’auto-formation... l Guides du lecteur et autres fascicules d’aide l Guides informatisés et « help »
Démarche d’enseignement de l’APL : analyser
Personnalisation de l’apprentissage des langues en ligne Marie-Noëlle Godin Conceptrice pédagogique.
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
Le Document Unique d'évaluation des risques
Transcription de la présentation:

1 Construction de ressources terminologiques à partir de textes : études de cas Nathalie AUSSENAC-GILLES (CNRS, Toulouse) Didier BOURIGAULT (CNRS, Toulouse) Jean CHARLET (STIM/AP-HP, Paris)

ASSTICCOT, Hammamet, 20/10/022 Variétés des applications, variétés des ressources terminologiques utilisées… Point de vue de la terminologie classique : la base de données terminologiques pour le traducteur Renouvellement : des ressources terminologiques de types variés pour des applications variées :  Bases de données terminologiques multilingues pour traduction automatique  Thesaurus pour indexation automatique  Index hypertextuels pour documents électroniques  Réseaux de termes pour moteurs de recherche spécialisés  Ontologies pour systèmes à base de connaissances

ASSTICCOT, Hammamet, 20/10/023 … une approche unifiée Basée sur les textes  Les ressources terminologiques sont construites à partir de l’analyse d’un corpus de textes Mais cette approche n’est pas systématiquement pertinente et possible Recherches nécessairement pluridisciplinaires  Terminologie  Linguistique  Traitement automatique des langues  Recherche d’information  Ingénierie des connaissances

ASSTICCOT, Hammamet, 20/10/024 Problématique de recherche Objectif : proposer des éléments théoriques, méthodologiques et logiciels pour la tâche de construction de ressources terminologiques ou ontologiques à partir de textes ASSTICCOT, TIA, A3CTE, IC, … NB : la construction de ressources terminologiques est une tâche d’ingénierie.  Chaque projet d’ingénierie terminologique est unique.  C’est in fine l’art de l’ingénieur qui prime.

ASSTICCOT, Hammamet, 20/10/025 Objectifs de la présentation Illustrer, sur 3 études de cas, l’impact de l’application visée sur la démarche de construction de ressources terminologiques 1) Profil du « constructeur » 2) Construction du corpus 3) Choix de la structure de données 4) Utilisation des outils de TAL 5) Utilisation des outils de modélisation 6) Validation, évaluation Montrer les points communs et les divergences Dresser des perspectives pour une meilleure maîtrise et adéquation du processus

ASSTICCOT, Hammamet, 20/10/026 Le projet VERRE Participants  IRIT (N. Aussenac-Gilles, A. Busnel)  Centre de recherche de Saint-Gobain Objectif :  Construire une ontologie pour un système informatique de classement de document utilisé, par des ingénieur et des documentalistes, pour la veille technologique sur Internet et dans des bases documentaires de brevets  Domaine : connaissances techniques : procédés de fabrication et d’utilisation de la fibre de verre

ASSTICCOT, Hammamet, 20/10/027 Le projet REA Participants :  INSERM - UFR Broussais-Hôtel-Dieu (S. Le Moigno, M.-C. Jaulent)  DSI/AP-HP (J. Charlet) Objectif :  Construire une ontologie comme squelette conceptuel d’un thesaurus qui est utilisé par les médecins pour le codage des diagnostics et actes médicaux  Domaine : la traumatologie en réanimation chirurgicale

ASSTICCOT, Hammamet, 20/10/028 Le projet DROIT Partenaires  CRI Ecoles des Mines de Paris (G. Lame) Objectif :  Construire une ressource ontologique pour un système d’aide à la reformulation de requête installé sur le site qui diffuse l'édition Lois et décrets du Journal Officiel de la République française  Domaine : Droit avec une exigence : couverture la plus large possible

ASSTICCOT, Hammamet, 20/10/029 Etude de cas : les applications Chacune des applications finales est une application de traitement de l’information textuelle.  Cas « idéal » pour une approche basée sur les textes Projets de R&D  Pas de « vrais » utilisateurs au début du projet  L’application elle-même est définie plus ou moins au cours du projet, parallèlement à l’élaboration de la ressource terminologique !  L’objectif est aussi de tester des méthodes et outils.

ASSTICCOT, Hammamet, 20/10/0210 1) Profil du constructeur Idéalement :  compétences métier  compétences (aptitudes, goûts) en linguistique / terminologie, en modélisation des connaissances, en psychologie, …  capacités à dialoguer avec des informaticiens Oiseaux rares ?  Nos propositions sortiront des laboratoires si elles peuvent être mises en œuvre dans des conditions acceptables pour les entreprises …

ASSTICCOT, Hammamet, 20/10/0211 1) Profil du constructeur - étude de cas VERRE : terminologue et chercheur en ingénierie des connaissances (Agnès Busnel et Nathalie Aussenac-Gilles) REA : médecin ET en DEA d’informatique médicale (Sophie Le Moigno) DROIT : juriste de formation ET en thèse en ingénierie des connaissances (Guiraude Lame) Enseignements  Le déficit en compétence métier peut être compensé par le recours intensif aux textes (à l’aide d’outils de TAL)  Des spécialistes du domaine « avertis » et formés aux outils peuvent être autonomes (documentalistes ou ingénieurs).

ASSTICCOT, Hammamet, 20/10/0212 2) Construction du corpus Etape cruciale  Le corpus est (une des) source(s) de connaissances  Le corpus est un élément de documentation de la ressources construite Paramètres de construction  Homogénéité avec les textes traités dans l’application cible (diversité de vocabulaire)  Recours aux experts, disponibilité  Diversité de genre  Taille  Préparation, balisage, pour les outils de TAL

ASSTICCOT, Hammamet, 20/10/0213 2) Construction du corpus – étude de cas VERRE  3 sous-corpus : livre (balisage en chiffre), brevets, veille ( mots) REA  600 compte rendus d’hospitalisation (CRH) en réanimation chirurgicale ( mots)  Les CR ont été balisés de façon homogène (,,, …) DROIT  Les 60 Codes de la législation française ( mots)  Chaque Code a été balisé en Titres, Sections, Sous- sections

ASSTICCOT, Hammamet, 20/10/0214 2) Construction du corpus : importance du balisage L’étude de la répartition des termes dans les différents sous-corpus s’avère toujours extrêmement enrichissante.  VERRE : Repérer les vocabulaires techniques spécifiques des procédés, du dépôt de brevets, de la finance  REA Les termes représentant des symptômes se retrouvent de façon privilégiée dans certaines parties des CRH  DROIT Les termes apparaissant dans les titres des intitulés sont importants L’analyse des proximités distributionnelles d’un même terme dans plusieurs codes révèle des polysémies.

ASSTICCOT, Hammamet, 20/10/0215 3) Structure de données Types de ressources :  Thesaurus, index, ontologie, réseau sémantique, etc. ? Rôle de la ressource  Le contenu, la forme, la couverture, le degré de formalisation, etc. sont choisis en fonction du rôle que doit jouer la ressource terminologique ou ontologique dans l’application cible. Deux extrêmes :  Ontologie formelle  Réseau de termes

ASSTICCOT, Hammamet, 20/10/0216 3) Structure de données Modèle figé  Très précis, possibilités d’inférences, modélisation « fine »  Coûteux, long, évaluation par la vérification puis par l’usage  Convient si domaine stable, application informatique utilisant la formalisation de l’ontologie Modèle dynamique  Plus approximatif, moins d’informations formalisées, modélisation rapide  Moins cher, automatisable, rapide, évaluation par l’usage  Convient dans un domaine très changeant,application peu formelle (indexation, portail sémantique, etc. )

ASSTICCOT, Hammamet, 20/10/0217 3) Structure de données – étude de cas VERRE  Un début d’ontologie disponible en XML : une hiérarchie est-un de 127 concepts (dont 99 classes) décrits par 20 rôles (relations). REA  Une ontologie régionale : une hiérarchie est-un de 2000 concepts et une hiérarchie est-un de 180 relations DROIT  Une « ressource ontologique » d’environ termes, et quelques centaines de milliers de liens (non qualifiés, «voir-aussi»)

ASSTICCOT, Hammamet, 20/10/0218 4) Utilisation des outils de TAL Différents types d’outils de TAL ont été testés pour la constructions de ressources terminologique.  Extraction de candidats termes  Extraction de relations candidates  Analyse distributionnelle Ces outils s’appuient sur des techniques linguistiques (morphosyntaxiques) et/ou statistiques (apprentissage) Difficultés  Dépouiller les résultats de ces outils  Faire face au volume de données  Trouver des indices pour repérer des données pertinentes

ASSTICCOT, Hammamet, 20/10/0219 4) Utilisation des outils de TAL : Syntex et Upery Syntex : un analyseur syntaxique de corpus  Fournit un réseau de candidats termes (syntagmes verbaux, nominaux, adjectivaux)  Problème : la masse Les filtres statistiques (fréquences, tf*idf, entropie) ne sont pas pertinents. Définir des stratégies de dépouillement en fonction du type de la ressource à construire … et du temps disponible ! Upery : un outil d’analyse distributionnelle «à la Harris»  Fournit des classes de mots ou syntagmes sur la base de contextes syntaxiques partagés  La richesse et l’intérêt des résultats fournis sont très dépendants du corpus

ASSTICCOT, Hammamet, 20/10/0220 4) Utilisation des outils de TAL – étude de cas VERRE : Syntex et Upery, Yakwa et Caméléon  Amorce : termes complexes les plus occurrents et en relations par l’analyse distributionnelle  Recherche d’une organisation générale du domaine plus que d’une description fine  Validation par l’expertise (multiplicité des points de vue) REA : Syntex et Upery  Analyse terminologique entièrement guidée par les résultats de l’analyse distributionnelle (200 heures) DROIT : Syntex et Upery  Pas de validation humaine : la ressource ontologique a pour ossature le réseau de candidats termes nominaux extrait par Syntex,  enrichi des liens de proximité distributionnelle, des liens de coordination et des liens de cooccurrence statistique.  Les éléments reliés à aucun autre sont éliminés (  )

ASSTICCOT, Hammamet, 20/10/0221 Liste des SN par fréq. décroissante Descendants en T Occurrences

ASSTICCOT, Hammamet, 20/10/0222 Contextes partagés par les termes douleur, syndrome, dyspnée, signe Contextes partagés par les termes douleur et syndrome

ASSTICCOT, Hammamet, 20/10/0223 5) Outils de modélisation Editeur d’ontologies  Fonctions de base : saisie de concepts et de relations selon un langage de modélisation ;  Au delà : Saisie et description de termes ; Lien vers des textes Gestion de documentaires structurés Saisie de règles, axiomes, heuristiques Possibilités de vérification du modèle Concilier  Accès aux textes et aux résultats des outils de TAL  Construction d’un réseau de concepts

ASSTICCOT, Hammamet, 20/10/0224 5) Outils de modélisation – étude de cas VERRE  Terminae (B. Biébow, S. Szulmann) : consultation intégrée d’une partie des résultats de Syntex (réseau des syntagmes nominaux ; accès aux textes depuis les termes) REA  OntoTerm (D. Bourigault) : fonctionnalités de construction d’un réseau de concepts intégrées dans l’interface de consultation des résultats de Syntex. DROIT  La ressource ontologique est directement constituée par les résultats des outils.  Interface ad hoc pour qualifier les liens

ASSTICCOT, Hammamet, 20/10/0225 Terminae

ASSTICCOT, Hammamet, 20/10/0226

ASSTICCOT, Hammamet, 20/10/0227 6) Validation et évaluation Une étape de validation « hors contexte » de la ressource terminologique  Experts  Absence d’erreurs flagrantes, vérification de la pertinence vis- à-vis du domaine Un processus d’évaluation « en usage »  Démarche Génie logiciel  Implication des utilisateurs  PB : la ressource terminologique n’est qu’un constituant de l’application globale  Evaluation comparative : avec / sans la ressource terminologique

ASSTICCOT, Hammamet, 20/10/0228 6) Validation et évaluation – étude de cas VERRE  Validation par experts  Amorce d’évaluation REA  Validation par étude de la couverture de l’ontologie vis-à- vis d’un thesaurus de spécialité (100 %)  Pas d’évaluation en usage DROIT  Evaluation de la pertinence des liens proposés par des documentalistes juridiques (50%)

ASSTICCOT, Hammamet, 20/10/0229 Bilan Il existe des résultats théoriques, des méthodes et des outils, qui aboutissent à des résultats prometteurs. Un cadre unifié, un éventail de pratiques Approche qui rend compte de l’usage spécialisé de la langue  Quelle complémentarité avec des ressources existantes (dictionnaires, WordNet) ? Exploitation par les outils (Synoterm) Exploitation par le cogniticien  Faut-il replacer ces ontologies dans des cadres de haut niveau ?

ASSTICCOT, Hammamet, 20/10/0230 Perspectives Efforts à poursuivre  Mieux intégrés les différents outils  Mieux maîtriser le paramétrage par type de projet Trouver le bon compromis entre investissement et gain  L’ontologie formelle n’est pas toujours nécessaire.  Trouver le modèle optimal par contexte d’application  Anticiper les besoins d’évolution Savoir faire des propositions pragmatiquement acceptables, utilisables dans un objectif d’ingénierie  Aller au delà de propositions théoriques et disciplinaires