La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Construction de ressources terminologiques à partir de textes : études de cas Nathalie AUSSENAC-GILLES (CNRS, Toulouse) Didier BOURIGAULT (CNRS, Toulouse)

Présentations similaires


Présentation au sujet: "1 Construction de ressources terminologiques à partir de textes : études de cas Nathalie AUSSENAC-GILLES (CNRS, Toulouse) Didier BOURIGAULT (CNRS, Toulouse)"— Transcription de la présentation:

1 1 Construction de ressources terminologiques à partir de textes : études de cas Nathalie AUSSENAC-GILLES (CNRS, Toulouse) Didier BOURIGAULT (CNRS, Toulouse) Jean CHARLET (STIM/AP-HP, Paris)

2 ASSTICCOT, Hammamet, 20/10/022 Variétés des applications, variétés des ressources terminologiques utilisées… Point de vue de la terminologie classique : la base de données terminologiques pour le traducteur Renouvellement : des ressources terminologiques de types variés pour des applications variées :  Bases de données terminologiques multilingues pour traduction automatique  Thesaurus pour indexation automatique  Index hypertextuels pour documents électroniques  Réseaux de termes pour moteurs de recherche spécialisés  Ontologies pour systèmes à base de connaissances

3 ASSTICCOT, Hammamet, 20/10/023 … une approche unifiée Basée sur les textes  Les ressources terminologiques sont construites à partir de l’analyse d’un corpus de textes Mais cette approche n’est pas systématiquement pertinente et possible Recherches nécessairement pluridisciplinaires  Terminologie  Linguistique  Traitement automatique des langues  Recherche d’information  Ingénierie des connaissances

4 ASSTICCOT, Hammamet, 20/10/024 Problématique de recherche Objectif : proposer des éléments théoriques, méthodologiques et logiciels pour la tâche de construction de ressources terminologiques ou ontologiques à partir de textes ASSTICCOT, TIA, A3CTE, IC, … NB : la construction de ressources terminologiques est une tâche d’ingénierie.  Chaque projet d’ingénierie terminologique est unique.  C’est in fine l’art de l’ingénieur qui prime.

5 ASSTICCOT, Hammamet, 20/10/025 Objectifs de la présentation Illustrer, sur 3 études de cas, l’impact de l’application visée sur la démarche de construction de ressources terminologiques 1) Profil du « constructeur » 2) Construction du corpus 3) Choix de la structure de données 4) Utilisation des outils de TAL 5) Utilisation des outils de modélisation 6) Validation, évaluation Montrer les points communs et les divergences Dresser des perspectives pour une meilleure maîtrise et adéquation du processus

6 ASSTICCOT, Hammamet, 20/10/026 Le projet VERRE Participants  IRIT (N. Aussenac-Gilles, A. Busnel)  Centre de recherche de Saint-Gobain Objectif :  Construire une ontologie pour un système informatique de classement de document utilisé, par des ingénieur et des documentalistes, pour la veille technologique sur Internet et dans des bases documentaires de brevets  Domaine : connaissances techniques : procédés de fabrication et d’utilisation de la fibre de verre

7 ASSTICCOT, Hammamet, 20/10/027 Le projet REA Participants :  INSERM - UFR Broussais-Hôtel-Dieu (S. Le Moigno, M.-C. Jaulent)  DSI/AP-HP (J. Charlet) Objectif :  Construire une ontologie comme squelette conceptuel d’un thesaurus qui est utilisé par les médecins pour le codage des diagnostics et actes médicaux  Domaine : la traumatologie en réanimation chirurgicale

8 ASSTICCOT, Hammamet, 20/10/028 Le projet DROIT Partenaires  CRI Ecoles des Mines de Paris (G. Lame) Objectif :  Construire une ressource ontologique pour un système d’aide à la reformulation de requête installé sur le site www.droit.org, qui diffuse l'édition Lois et décrets du Journal Officiel de la République française  Domaine : Droit avec une exigence : couverture la plus large possible

9 ASSTICCOT, Hammamet, 20/10/029 Etude de cas : les applications Chacune des applications finales est une application de traitement de l’information textuelle.  Cas « idéal » pour une approche basée sur les textes Projets de R&D  Pas de « vrais » utilisateurs au début du projet  L’application elle-même est définie plus ou moins au cours du projet, parallèlement à l’élaboration de la ressource terminologique !  L’objectif est aussi de tester des méthodes et outils.

10 ASSTICCOT, Hammamet, 20/10/0210 1) Profil du constructeur Idéalement :  compétences métier  compétences (aptitudes, goûts) en linguistique / terminologie, en modélisation des connaissances, en psychologie, …  capacités à dialoguer avec des informaticiens Oiseaux rares ?  Nos propositions sortiront des laboratoires si elles peuvent être mises en œuvre dans des conditions acceptables pour les entreprises …

11 ASSTICCOT, Hammamet, 20/10/0211 1) Profil du constructeur - étude de cas VERRE : terminologue et chercheur en ingénierie des connaissances (Agnès Busnel et Nathalie Aussenac-Gilles) REA : médecin ET en DEA d’informatique médicale (Sophie Le Moigno) DROIT : juriste de formation ET en thèse en ingénierie des connaissances (Guiraude Lame) Enseignements  Le déficit en compétence métier peut être compensé par le recours intensif aux textes (à l’aide d’outils de TAL)  Des spécialistes du domaine « avertis » et formés aux outils peuvent être autonomes (documentalistes ou ingénieurs).

12 ASSTICCOT, Hammamet, 20/10/0212 2) Construction du corpus Etape cruciale  Le corpus est (une des) source(s) de connaissances  Le corpus est un élément de documentation de la ressources construite Paramètres de construction  Homogénéité avec les textes traités dans l’application cible (diversité de vocabulaire)  Recours aux experts, disponibilité  Diversité de genre  Taille  Préparation, balisage, pour les outils de TAL

13 ASSTICCOT, Hammamet, 20/10/0213 2) Construction du corpus – étude de cas VERRE  3 sous-corpus : livre (balisage en chiffre), brevets, veille (300 000 mots) REA  600 compte rendus d’hospitalisation (CRH) en réanimation chirurgicale (380 000 mots)  Les CR ont été balisés de façon homogène (,,, …) DROIT  Les 60 Codes de la législation française (6 400 000 mots)  Chaque Code a été balisé en Titres, Sections, Sous- sections

14 ASSTICCOT, Hammamet, 20/10/0214 2) Construction du corpus : importance du balisage L’étude de la répartition des termes dans les différents sous-corpus s’avère toujours extrêmement enrichissante.  VERRE : Repérer les vocabulaires techniques spécifiques des procédés, du dépôt de brevets, de la finance  REA Les termes représentant des symptômes se retrouvent de façon privilégiée dans certaines parties des CRH  DROIT Les termes apparaissant dans les titres des intitulés sont importants L’analyse des proximités distributionnelles d’un même terme dans plusieurs codes révèle des polysémies.

15 ASSTICCOT, Hammamet, 20/10/0215 3) Structure de données Types de ressources :  Thesaurus, index, ontologie, réseau sémantique, etc. ? Rôle de la ressource  Le contenu, la forme, la couverture, le degré de formalisation, etc. sont choisis en fonction du rôle que doit jouer la ressource terminologique ou ontologique dans l’application cible. Deux extrêmes :  Ontologie formelle  Réseau de termes

16 ASSTICCOT, Hammamet, 20/10/0216 3) Structure de données Modèle figé  Très précis, possibilités d’inférences, modélisation « fine »  Coûteux, long, évaluation par la vérification puis par l’usage  Convient si domaine stable, application informatique utilisant la formalisation de l’ontologie Modèle dynamique  Plus approximatif, moins d’informations formalisées, modélisation rapide  Moins cher, automatisable, rapide, évaluation par l’usage  Convient dans un domaine très changeant,application peu formelle (indexation, portail sémantique, etc. )

17 ASSTICCOT, Hammamet, 20/10/0217 3) Structure de données – étude de cas VERRE  Un début d’ontologie disponible en XML : une hiérarchie est-un de 127 concepts (dont 99 classes) décrits par 20 rôles (relations). REA  Une ontologie régionale : une hiérarchie est-un de 2000 concepts et une hiérarchie est-un de 180 relations DROIT  Une « ressource ontologique » d’environ 100 000 termes, et quelques centaines de milliers de liens (non qualifiés, «voir-aussi»)

18 ASSTICCOT, Hammamet, 20/10/0218 4) Utilisation des outils de TAL Différents types d’outils de TAL ont été testés pour la constructions de ressources terminologique.  Extraction de candidats termes  Extraction de relations candidates  Analyse distributionnelle Ces outils s’appuient sur des techniques linguistiques (morphosyntaxiques) et/ou statistiques (apprentissage) Difficultés  Dépouiller les résultats de ces outils  Faire face au volume de données  Trouver des indices pour repérer des données pertinentes

19 ASSTICCOT, Hammamet, 20/10/0219 4) Utilisation des outils de TAL : Syntex et Upery Syntex : un analyseur syntaxique de corpus  Fournit un réseau de candidats termes (syntagmes verbaux, nominaux, adjectivaux)  Problème : la masse Les filtres statistiques (fréquences, tf*idf, entropie) ne sont pas pertinents. Définir des stratégies de dépouillement en fonction du type de la ressource à construire … et du temps disponible ! Upery : un outil d’analyse distributionnelle «à la Harris»  Fournit des classes de mots ou syntagmes sur la base de contextes syntaxiques partagés  La richesse et l’intérêt des résultats fournis sont très dépendants du corpus

20 ASSTICCOT, Hammamet, 20/10/0220 4) Utilisation des outils de TAL – étude de cas VERRE : Syntex et Upery, Yakwa et Caméléon  Amorce : termes complexes les plus occurrents et en relations par l’analyse distributionnelle  Recherche d’une organisation générale du domaine plus que d’une description fine  Validation par l’expertise (multiplicité des points de vue) REA : Syntex et Upery  Analyse terminologique entièrement guidée par les résultats de l’analyse distributionnelle (200 heures) DROIT : Syntex et Upery  Pas de validation humaine : la ressource ontologique a pour ossature le réseau de candidats termes nominaux extrait par Syntex,  enrichi des liens de proximité distributionnelle, des liens de coordination et des liens de cooccurrence statistique.  Les éléments reliés à aucun autre sont éliminés (300 000  100 000)

21 ASSTICCOT, Hammamet, 20/10/0221 Liste des SN par fréq. décroissante Descendants en T Occurrences

22 ASSTICCOT, Hammamet, 20/10/0222 Contextes partagés par les termes douleur, syndrome, dyspnée, signe Contextes partagés par les termes douleur et syndrome

23 ASSTICCOT, Hammamet, 20/10/0223 5) Outils de modélisation Editeur d’ontologies  Fonctions de base : saisie de concepts et de relations selon un langage de modélisation ;  Au delà : Saisie et description de termes ; Lien vers des textes Gestion de documentaires structurés Saisie de règles, axiomes, heuristiques Possibilités de vérification du modèle Concilier  Accès aux textes et aux résultats des outils de TAL  Construction d’un réseau de concepts

24 ASSTICCOT, Hammamet, 20/10/0224 5) Outils de modélisation – étude de cas VERRE  Terminae (B. Biébow, S. Szulmann) : consultation intégrée d’une partie des résultats de Syntex (réseau des syntagmes nominaux ; accès aux textes depuis les termes) REA  OntoTerm (D. Bourigault) : fonctionnalités de construction d’un réseau de concepts intégrées dans l’interface de consultation des résultats de Syntex. DROIT  La ressource ontologique est directement constituée par les résultats des outils.  Interface ad hoc pour qualifier les liens

25 ASSTICCOT, Hammamet, 20/10/0225 Terminae

26 ASSTICCOT, Hammamet, 20/10/0226

27 ASSTICCOT, Hammamet, 20/10/0227 6) Validation et évaluation Une étape de validation « hors contexte » de la ressource terminologique  Experts  Absence d’erreurs flagrantes, vérification de la pertinence vis- à-vis du domaine Un processus d’évaluation « en usage »  Démarche Génie logiciel  Implication des utilisateurs  PB : la ressource terminologique n’est qu’un constituant de l’application globale  Evaluation comparative : avec / sans la ressource terminologique

28 ASSTICCOT, Hammamet, 20/10/0228 6) Validation et évaluation – étude de cas VERRE  Validation par experts  Amorce d’évaluation REA  Validation par étude de la couverture de l’ontologie vis-à- vis d’un thesaurus de spécialité (100 %)  Pas d’évaluation en usage DROIT  Evaluation de la pertinence des liens proposés par des documentalistes juridiques (50%)

29 ASSTICCOT, Hammamet, 20/10/0229 Bilan Il existe des résultats théoriques, des méthodes et des outils, qui aboutissent à des résultats prometteurs. Un cadre unifié, un éventail de pratiques Approche qui rend compte de l’usage spécialisé de la langue  Quelle complémentarité avec des ressources existantes (dictionnaires, WordNet) ? Exploitation par les outils (Synoterm) Exploitation par le cogniticien  Faut-il replacer ces ontologies dans des cadres de haut niveau ?

30 ASSTICCOT, Hammamet, 20/10/0230 Perspectives Efforts à poursuivre  Mieux intégrés les différents outils  Mieux maîtriser le paramétrage par type de projet Trouver le bon compromis entre investissement et gain  L’ontologie formelle n’est pas toujours nécessaire.  Trouver le modèle optimal par contexte d’application  Anticiper les besoins d’évolution Savoir faire des propositions pragmatiquement acceptables, utilisables dans un objectif d’ingénierie  Aller au delà de propositions théoriques et disciplinaires


Télécharger ppt "1 Construction de ressources terminologiques à partir de textes : études de cas Nathalie AUSSENAC-GILLES (CNRS, Toulouse) Didier BOURIGAULT (CNRS, Toulouse)"

Présentations similaires


Annonces Google