Constitution de produits terminologiques à partir de corpus Présentation de l’Action Spécifique STIC, Corpus et Terminologie (ASSTICCOT) N. Aussenac-Gilles (IRIT), A. Condamines (ERSS) Associée au RTP-DOC (J.M. Salaün), direction Interactions Humaines et Cognition (C. Garbay) www.irit.fr/ASSTICCOT/ ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
Des applications à base de connaissances autour des documents Des applications qui améliorent l’accès au contenu de documents non identifiés a priori (ex : RI) Des applications qui améliorent l’accès à des documents identifiés (ex : guide de procédure, mémoire d’entreprise) Des applications qui requièrent des ressources terminologiques (ex: aide à la traduction, aide à la rédaction, veille) ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
Rôle et nature des ressources terminologiques Ressources existantes Sans lien vers les textes (construites par introspection ou entretiens avec des experts) Générales (indépendantes du domaine et/ou de l’application). > peut-on les intégrer dans les applications ? Nouveaux besoins Domaines spécifiques => constituer des ressources terminologiques spécialisées Rôle majeur des documents => construire ces ressources à partir de textes pour mieux tenir compte des usages et rendre plus efficace l’accès aux documents ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
Documents et connaissances Documents comme possibles sources de connaissances d’un domaine Comment accéder à ces connaissances ? Comment accéder aux documents à travers les connaissances ? Quels produits terminologiques intermédiaires pourraient faciliter cet accès ? > lien avec l’ingénierie des connaissances Documents comme moyens d’accès à des manifestations linguistiques (s’oppose à l’introspection) : mise en œuvre vs enrichissement des connaissance de la langue Documents comme révélateurs d’usages (corpus) > lien avec la linguistique de corpus et la terminologie ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
Objectifs de l’Action Spécifique Faire se rencontrer plusieurs communautés sur la question de la modélisation de connaissances à partir de corpus : Linguistique de corpus et terminologie Sciences de l’information Informatique Ingénierie des connaissances Recherche d’information Traitement Automatique de la Langue Apprentissage à partir de textes ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
Mode de fonctionnement Composition Une trentaine de chercheurs issus de différentes disciplines Une dizaine de laboratoires dont DYALANG, LIPN, IRIT et ERSS. 4 groupes Linguistique de corpus et terminologie (M. Bouveret) TAL et apprentissage (P. Zweigenbaum) Sciences de l’information et recherche d’information (S. Lainé-Cruzel) Ingénierie des connaissances (S. Després) Deux types de réunions : travail par groupe (selon une grille de questions commune) séances plénières (mises en commun, confrontations entre disciplines) ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002 Motivations Des problématiques similaires Vers plus d’interdisciplinarité L’existant : des relations bilatérales L’enjeu : une évaluation systématique des complémentarités Repérer des axes de recherche à développer Valoriser et fédérer les acquis dans un contexte pluridisciplinaire ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
Exemples de collaborations bilatérales (1) Terminologie textuelle et TAL TAL pour la construction de ressources : Syntex et Caméléon Données terminologiques comme ressources pour le TAL : thésaurus pour traiter des dossiers patients ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
Exemples de collaborations bilatérales (2) Ontologies et recherche d’information Hiérarchie de termes pour la classification de documents DocCUBE Ontologies pour la reformulation de requêtes Ontologies pour l’interrogation de données semi-structurée PICSEL Terminologie textuelle et outils de TAL pour la construction d’ontologies Index d’un livre, Ontologie de l’ingénierie des connaissances ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
Expériences pluridisciplinaires Collaboration entre IC, Terminologie Textuelle et TAL : Bénéficie de l’expérience du groupe TIA Collaborations entre RI, IC et Sciences de l’information : réseau Rhône Alpes Passer d’expériences ponctuelles à une théorisation des problèmes et une vraie approche pluridisciplinaire ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002 Objectifs Mettre au jour et expliciter les méthodes, objectifs et présupposés de chaque discipline Identifier les manques, transferts et convergences possibles Localiser des questions théoriques nouvelles à traiter de manière interdisciplinaire pour rendre plus efficace l’élaboration de ressources terminologiques en fonction des besoins repérer l’impact de ces questions sur chaque discipline ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002 Questions préalables : objets et produits des recherches de chaque discipline 6 points de réflexion principaux : Positionnements théoriques Rôle des Corpus -> Définition des besoins Définition des méthodes et outils : logiciels de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes Description des modèles produits ou utilisés Mode d’évaluation des résultats ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002 Corpus Définition commune L’existant : des textes (ou portions de textes) Le corpus est construit en fonction d’un besoin particulier ou d’une hypothèse d’étude Des réalités différentes Nature et taille critères de construction modes et objectifs d’exploitation ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
Perspectives d’études sur les corpus Des besoins communs Nécessité de caractériser les textes au delà de leur thématique Meilleure maîtrise du lien entre caractéristiques des textes et nature des applications Prise en compte de la méthode utilisée pour construire des ressources dans la constitution du corpus ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002 Principes communs La construction de ressources terminologiques est un processus d’interprétation humaine de résultats fournis par des outils Les ressources doivent être spécialisées par domaine et par application (réutilisabilité ?) Les concepts sont élaborés à partir de réalisations textuelles avec lesquelles ils conservent un lien terminologique ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002
Présentation des exposés De la construction de corpus parallèle à l’extraction de terminologies bilingues : les problèmes spécifiques à l’arabe François Stuck Retour d’expérience sur l’utilisation de logiciels de TAL et de principes linguistiques pour la construction d’ontologies Tal, IC et linguistique Corpus et ressources terminologiques : les questions du genre et de la variation Linguistique, terminologie et Sciences de l’info Variation terminologique et corpus ASSTICCOT, CFD,Hammamet, 20-23 octobre 2002