1 Construction de ressources terminologiques à partir de textes : études de cas Nathalie AUSSENAC-GILLES (CNRS, Toulouse) Didier BOURIGAULT (CNRS, Toulouse) Jean CHARLET (STIM/AP-HP, Paris)
ASSTICCOT, Hammamet, 20/10/022 Variétés des applications, variétés des ressources terminologiques utilisées… Point de vue de la terminologie classique : la base de données terminologiques pour le traducteur Renouvellement : des ressources terminologiques de types variés pour des applications variées : Bases de données terminologiques multilingues pour traduction automatique Thesaurus pour indexation automatique Index hypertextuels pour documents électroniques Réseaux de termes pour moteurs de recherche spécialisés Ontologies pour systèmes à base de connaissances
ASSTICCOT, Hammamet, 20/10/023 … une approche unifiée Basée sur les textes Les ressources terminologiques sont construites à partir de l’analyse d’un corpus de textes Mais cette approche n’est pas systématiquement pertinente et possible Recherches nécessairement pluridisciplinaires Terminologie Linguistique Traitement automatique des langues Recherche d’information Ingénierie des connaissances
ASSTICCOT, Hammamet, 20/10/024 Problématique de recherche Objectif : proposer des éléments théoriques, méthodologiques et logiciels pour la tâche de construction de ressources terminologiques ou ontologiques à partir de textes ASSTICCOT, TIA, A3CTE, IC, … NB : la construction de ressources terminologiques est une tâche d’ingénierie. Chaque projet d’ingénierie terminologique est unique. C’est in fine l’art de l’ingénieur qui prime.
ASSTICCOT, Hammamet, 20/10/025 Objectifs de la présentation Illustrer, sur 3 études de cas, l’impact de l’application visée sur la démarche de construction de ressources terminologiques 1) Profil du « constructeur » 2) Construction du corpus 3) Choix de la structure de données 4) Utilisation des outils de TAL 5) Utilisation des outils de modélisation 6) Validation, évaluation Montrer les points communs et les divergences Dresser des perspectives pour une meilleure maîtrise et adéquation du processus
ASSTICCOT, Hammamet, 20/10/026 Le projet VERRE Participants IRIT (N. Aussenac-Gilles, A. Busnel) Centre de recherche de Saint-Gobain Objectif : Construire une ontologie pour un système informatique de classement de document utilisé, par des ingénieur et des documentalistes, pour la veille technologique sur Internet et dans des bases documentaires de brevets Domaine : connaissances techniques : procédés de fabrication et d’utilisation de la fibre de verre
ASSTICCOT, Hammamet, 20/10/027 Le projet REA Participants : INSERM - UFR Broussais-Hôtel-Dieu (S. Le Moigno, M.-C. Jaulent) DSI/AP-HP (J. Charlet) Objectif : Construire une ontologie comme squelette conceptuel d’un thesaurus qui est utilisé par les médecins pour le codage des diagnostics et actes médicaux Domaine : la traumatologie en réanimation chirurgicale
ASSTICCOT, Hammamet, 20/10/028 Le projet DROIT Partenaires CRI Ecoles des Mines de Paris (G. Lame) Objectif : Construire une ressource ontologique pour un système d’aide à la reformulation de requête installé sur le site qui diffuse l'édition Lois et décrets du Journal Officiel de la République française Domaine : Droit avec une exigence : couverture la plus large possible
ASSTICCOT, Hammamet, 20/10/029 Etude de cas : les applications Chacune des applications finales est une application de traitement de l’information textuelle. Cas « idéal » pour une approche basée sur les textes Projets de R&D Pas de « vrais » utilisateurs au début du projet L’application elle-même est définie plus ou moins au cours du projet, parallèlement à l’élaboration de la ressource terminologique ! L’objectif est aussi de tester des méthodes et outils.
ASSTICCOT, Hammamet, 20/10/0210 1) Profil du constructeur Idéalement : compétences métier compétences (aptitudes, goûts) en linguistique / terminologie, en modélisation des connaissances, en psychologie, … capacités à dialoguer avec des informaticiens Oiseaux rares ? Nos propositions sortiront des laboratoires si elles peuvent être mises en œuvre dans des conditions acceptables pour les entreprises …
ASSTICCOT, Hammamet, 20/10/0211 1) Profil du constructeur - étude de cas VERRE : terminologue et chercheur en ingénierie des connaissances (Agnès Busnel et Nathalie Aussenac-Gilles) REA : médecin ET en DEA d’informatique médicale (Sophie Le Moigno) DROIT : juriste de formation ET en thèse en ingénierie des connaissances (Guiraude Lame) Enseignements Le déficit en compétence métier peut être compensé par le recours intensif aux textes (à l’aide d’outils de TAL) Des spécialistes du domaine « avertis » et formés aux outils peuvent être autonomes (documentalistes ou ingénieurs).
ASSTICCOT, Hammamet, 20/10/0212 2) Construction du corpus Etape cruciale Le corpus est (une des) source(s) de connaissances Le corpus est un élément de documentation de la ressources construite Paramètres de construction Homogénéité avec les textes traités dans l’application cible (diversité de vocabulaire) Recours aux experts, disponibilité Diversité de genre Taille Préparation, balisage, pour les outils de TAL
ASSTICCOT, Hammamet, 20/10/0213 2) Construction du corpus – étude de cas VERRE 3 sous-corpus : livre (balisage en chiffre), brevets, veille ( mots) REA 600 compte rendus d’hospitalisation (CRH) en réanimation chirurgicale ( mots) Les CR ont été balisés de façon homogène (,,, …) DROIT Les 60 Codes de la législation française ( mots) Chaque Code a été balisé en Titres, Sections, Sous- sections
ASSTICCOT, Hammamet, 20/10/0214 2) Construction du corpus : importance du balisage L’étude de la répartition des termes dans les différents sous-corpus s’avère toujours extrêmement enrichissante. VERRE : Repérer les vocabulaires techniques spécifiques des procédés, du dépôt de brevets, de la finance REA Les termes représentant des symptômes se retrouvent de façon privilégiée dans certaines parties des CRH DROIT Les termes apparaissant dans les titres des intitulés sont importants L’analyse des proximités distributionnelles d’un même terme dans plusieurs codes révèle des polysémies.
ASSTICCOT, Hammamet, 20/10/0215 3) Structure de données Types de ressources : Thesaurus, index, ontologie, réseau sémantique, etc. ? Rôle de la ressource Le contenu, la forme, la couverture, le degré de formalisation, etc. sont choisis en fonction du rôle que doit jouer la ressource terminologique ou ontologique dans l’application cible. Deux extrêmes : Ontologie formelle Réseau de termes
ASSTICCOT, Hammamet, 20/10/0216 3) Structure de données Modèle figé Très précis, possibilités d’inférences, modélisation « fine » Coûteux, long, évaluation par la vérification puis par l’usage Convient si domaine stable, application informatique utilisant la formalisation de l’ontologie Modèle dynamique Plus approximatif, moins d’informations formalisées, modélisation rapide Moins cher, automatisable, rapide, évaluation par l’usage Convient dans un domaine très changeant,application peu formelle (indexation, portail sémantique, etc. )
ASSTICCOT, Hammamet, 20/10/0217 3) Structure de données – étude de cas VERRE Un début d’ontologie disponible en XML : une hiérarchie est-un de 127 concepts (dont 99 classes) décrits par 20 rôles (relations). REA Une ontologie régionale : une hiérarchie est-un de 2000 concepts et une hiérarchie est-un de 180 relations DROIT Une « ressource ontologique » d’environ termes, et quelques centaines de milliers de liens (non qualifiés, «voir-aussi»)
ASSTICCOT, Hammamet, 20/10/0218 4) Utilisation des outils de TAL Différents types d’outils de TAL ont été testés pour la constructions de ressources terminologique. Extraction de candidats termes Extraction de relations candidates Analyse distributionnelle Ces outils s’appuient sur des techniques linguistiques (morphosyntaxiques) et/ou statistiques (apprentissage) Difficultés Dépouiller les résultats de ces outils Faire face au volume de données Trouver des indices pour repérer des données pertinentes
ASSTICCOT, Hammamet, 20/10/0219 4) Utilisation des outils de TAL : Syntex et Upery Syntex : un analyseur syntaxique de corpus Fournit un réseau de candidats termes (syntagmes verbaux, nominaux, adjectivaux) Problème : la masse Les filtres statistiques (fréquences, tf*idf, entropie) ne sont pas pertinents. Définir des stratégies de dépouillement en fonction du type de la ressource à construire … et du temps disponible ! Upery : un outil d’analyse distributionnelle «à la Harris» Fournit des classes de mots ou syntagmes sur la base de contextes syntaxiques partagés La richesse et l’intérêt des résultats fournis sont très dépendants du corpus
ASSTICCOT, Hammamet, 20/10/0220 4) Utilisation des outils de TAL – étude de cas VERRE : Syntex et Upery, Yakwa et Caméléon Amorce : termes complexes les plus occurrents et en relations par l’analyse distributionnelle Recherche d’une organisation générale du domaine plus que d’une description fine Validation par l’expertise (multiplicité des points de vue) REA : Syntex et Upery Analyse terminologique entièrement guidée par les résultats de l’analyse distributionnelle (200 heures) DROIT : Syntex et Upery Pas de validation humaine : la ressource ontologique a pour ossature le réseau de candidats termes nominaux extrait par Syntex, enrichi des liens de proximité distributionnelle, des liens de coordination et des liens de cooccurrence statistique. Les éléments reliés à aucun autre sont éliminés ( )
ASSTICCOT, Hammamet, 20/10/0221 Liste des SN par fréq. décroissante Descendants en T Occurrences
ASSTICCOT, Hammamet, 20/10/0222 Contextes partagés par les termes douleur, syndrome, dyspnée, signe Contextes partagés par les termes douleur et syndrome
ASSTICCOT, Hammamet, 20/10/0223 5) Outils de modélisation Editeur d’ontologies Fonctions de base : saisie de concepts et de relations selon un langage de modélisation ; Au delà : Saisie et description de termes ; Lien vers des textes Gestion de documentaires structurés Saisie de règles, axiomes, heuristiques Possibilités de vérification du modèle Concilier Accès aux textes et aux résultats des outils de TAL Construction d’un réseau de concepts
ASSTICCOT, Hammamet, 20/10/0224 5) Outils de modélisation – étude de cas VERRE Terminae (B. Biébow, S. Szulmann) : consultation intégrée d’une partie des résultats de Syntex (réseau des syntagmes nominaux ; accès aux textes depuis les termes) REA OntoTerm (D. Bourigault) : fonctionnalités de construction d’un réseau de concepts intégrées dans l’interface de consultation des résultats de Syntex. DROIT La ressource ontologique est directement constituée par les résultats des outils. Interface ad hoc pour qualifier les liens
ASSTICCOT, Hammamet, 20/10/0225 Terminae
ASSTICCOT, Hammamet, 20/10/0226
ASSTICCOT, Hammamet, 20/10/0227 6) Validation et évaluation Une étape de validation « hors contexte » de la ressource terminologique Experts Absence d’erreurs flagrantes, vérification de la pertinence vis- à-vis du domaine Un processus d’évaluation « en usage » Démarche Génie logiciel Implication des utilisateurs PB : la ressource terminologique n’est qu’un constituant de l’application globale Evaluation comparative : avec / sans la ressource terminologique
ASSTICCOT, Hammamet, 20/10/0228 6) Validation et évaluation – étude de cas VERRE Validation par experts Amorce d’évaluation REA Validation par étude de la couverture de l’ontologie vis-à- vis d’un thesaurus de spécialité (100 %) Pas d’évaluation en usage DROIT Evaluation de la pertinence des liens proposés par des documentalistes juridiques (50%)
ASSTICCOT, Hammamet, 20/10/0229 Bilan Il existe des résultats théoriques, des méthodes et des outils, qui aboutissent à des résultats prometteurs. Un cadre unifié, un éventail de pratiques Approche qui rend compte de l’usage spécialisé de la langue Quelle complémentarité avec des ressources existantes (dictionnaires, WordNet) ? Exploitation par les outils (Synoterm) Exploitation par le cogniticien Faut-il replacer ces ontologies dans des cadres de haut niveau ?
ASSTICCOT, Hammamet, 20/10/0230 Perspectives Efforts à poursuivre Mieux intégrés les différents outils Mieux maîtriser le paramétrage par type de projet Trouver le bon compromis entre investissement et gain L’ontologie formelle n’est pas toujours nécessaire. Trouver le modèle optimal par contexte d’application Anticiper les besoins d’évolution Savoir faire des propositions pragmatiquement acceptables, utilisables dans un objectif d’ingénierie Aller au delà de propositions théoriques et disciplinaires