Terminologie et corpus : la question du genre et de la variation

Slides:



Advertisements
Présentations similaires
Aides logicielles à l'écriture
Advertisements

De l’approche communicative à l’approche actionnelle
1 TCHAD ATELIER PARIS21 SUR LUTILISATION DES STATISTIQUES DANS LES POLITIQUES DE LUTTE CONTRE LA PAUVRETE ET DE DEVELOPPEMENT Yaoundé 09-11/12/02 Producteurs.
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
ASSTICCOT, RTP-DOC, Paris
Constitution de produits terminologiques à partir de corpus
5 décembre 2002TIA - prise en compte de l'application - Assises I31 Prise en compte de lapplication dans la constitution de produits terminologiques Groupe.
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
1. 2 LE DÎNER TRADITIONNEL CHINOIS OU LIMAGE DUN MODÈLE SYSTÉMIQUE DE LAPPRENTISSAGE EN MILIEU SCOLAIRE.
Urbanisation de Système d'Information
Urbanisation de Systèmes d'Information
JXDVDTEK – Une DVDthèque en Java et XML
Eric BONJOUR, Maryvonne DULMET
1 Premier bilan de l utilisation de LinguaStream pour le rep é rage de la coh é sion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006.
Apprendre à lire.
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
Expertise et formation du lméca ESIA / Université de Savoie
L’observation réfléchie de la langue au cycle 3
GIDEM : Gestion intégrée
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Des ressources pour l'enseignement en langue des signes aux élèves sourds Patrice DALLE • IRIT-UPS (Toulouse 3) •
Lutilisation de la langue est liée à laction et donc à des capacités de faire.
La prévention des difficultés d’écriture
Présentation du Cadre Européen Commun de Référence des Langues
Iryna Lehka, David Le Gac Laboratoire DYALANG, Université de Rouen
Recherche Documentaire et traitement de l’information
Représentations des objectifs à atteindre dans l’apprentissage des langues: processus qualifiant et compétences plurilingues Patrick Chardenet Maître de.
Le langage oral en maternelle
Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005
SCIENCES DE L ’INGENIEUR
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Ecaterina Giacomini Pacurar
© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.
Web sémantique : Web de demain
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le projet de terminologie
Apprendre à comprendre
Former à l’écrit en milieu professionnel
Patrons de conceptions de créations
Vers une génération automatique du mapping de sources biomédicales
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
Master spécialité recherche Didactiques et Interactions
inspection de l'éducation nationale circonscription le Vésinet
L’approche du code au cycle 2
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Supports de formation au SQ Unifié
Human Knowledge La nouvelle génération de moteurs sémantiques.
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Dictionnaires, lexicographie, lexicographes
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Du discours aux modèles… Une tentative d’articulation
Didactique(s) Introduction
Didactique du français langue première: histoire et perspectives
1 Construction de ressources terminologiques à partir de textes : études de cas Nathalie AUSSENAC-GILLES (CNRS, Toulouse) Didier BOURIGAULT (CNRS, Toulouse)
Stage à Ontomantics Master Pro TILDE
Le Traitement Automatique des Langues (TAL)
Évaluations nationales et maîtrise de la langue Continuité et perspective.
Meilleurs vœux pour 2011!.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Sciences du langage et de la communication Responsable du pilier : Corinne Rossari Professeure de linguistique française Présentation : Tobias von Waldkirch.
Laurie Buscail – CLLE-ERSS, Université Toulouse 2 & Université de Perpignan via Domitia.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Terminologie et corpus : la question du genre et de la variation Myriam Bouveret (DYALANG) Anne Condamines (ERSS) Valérie Delavigne (DYALANG) Pierre Zweigenbaum (DIAM/SIM) Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Introduction le corpus permet de construire des ressources langagières de types différents (glossaires, index, terminologies, thésaurus, ontologies…) mais le corpus est aussi en soi une ressource langagière à considérer en amont des corpus, méthodes, ressources adaptées aux applications, utilisateurs Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Sens / signification Ce déplacement en linguistique renvoie à la question de la signification Linguistique et informatique ont une base logique commune qui a permis de travailler sur le sens Nécessité de trouver de nouvelles bases entre linguistique et informatique reposant sur la signification (cf. Slodzian 2000) Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Contexte, variation, genre On pose ici le problème du sens en contexte : variation et genre pour des ressources crées à partir de textes le genre, une sorte de variation Un texte n’est pas normé, il est produit selon un genre (ex : comptes rendus médicaux, résumés de thèse, fiches de dégustation, etc…) Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet 2. La variation « La variation mesure un décalage entre une forme lexicalisée et son usage » (Slodzian 2000 :75) Le sens n’est pas figé. Synonymie et polysémie comme variation inhérente à la langue naturelle Cas de variation : variation sémantique (polysémie, synonymie), variantes morphologiques et variation multilingue Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Variation sémantique et morphologique Sortie 1 la sortie des informations output process Sortie 2 la sortie imprimée output data Sortie 3 la sortie du logiciel  computer output Sortie 4 la sortie plug exemples extraits du corpus LLI, Laboratoire de linguistique et d'informatique de l'université de Montréal Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Terme instrument localisation résultat mémoriser mémoire formater format indexation index impression imprimante imprimé Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

TAL: Différents aspects de la variation Terme entré Terme de référence Flexion Aberrations chromosomiques Aberration chromosomique Dérivation Sténose valve aorte Sténose aortique valvulaire Syntaxe (+ dérivation) Adénome de la prostate Adénome prostatique Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Sémantique Terme entré Terme de référence Synonymes Appareil Derme Dispositif Corium Co-référents Canal de Cuvier Veine cardinale commune Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Genre et variation lexicale Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique Une dimension du genre est le public visé Exemple: grand public vs spécialistes Crise cardiaque Infarctus du myocarde Rhume Rhinopharyngite Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Genre et variation morphologique Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique Cas: productivité des adjectifs dérivés dans des corpus médicaux (hématologie) Exemple: dérivés en –al sont plus productifs dans des documents Web que dans des comptes rendus hospitaliers Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Genre et variation syntaxique Les outils de TAL ont des performances qui varient avec le genre des textes L’étiquetage morpho-syntaxique (GRACE) diffère selon le genre: HEUR et Brill-Limsi Exemple :journaux, mémoires, romans et essais. Performances homogènes sauf pour mémoires Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet 3. La question du genre Problématique Caractériser les textes au-delà de leur contenu Prendre en compte la situation de production d’un texte Genre influe sur les ressources terminologiques ex : légitimité /illégitimité des textes de vulgarisation Définition Comportement discursif observable par des régularités langagières auxquelles les locuteurs obéissent (Bahktine) Compétence métalinguistique. Normes: horizon d’attente, modèle de création Descriptions insuffisantes: droit, génie génétique, physique nucléaire, art pariétal… Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Une typologie des genres est-elle possible ? Tentatives nombreuses: rhétorique classique,champ littéraire, institution scolaire. Mais : Multiplication des situations possibles Classes trop générales Hétérogénéité des genres (ex: écrit vs oral) Plusieurs genres dans un même texte Diversité des critères descriptifs (action sociale, fonctionnement rhétorique, situations énonciatives, finalité du discours, situation sociale, types d’interaction, actes de langage…) Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Marqueurs de reformulation Un exemple: les marqueurs des discours de vulgarisation indice fort : importance du métalangage juxtaposition, coordination, verbes (être, appeler, nommer, signifier, désigner…) expressions métalinguistiques (c'est-à-dire, autrement dit, en d’autres termes…), joncteurs (ou, soit…) - Mais Marqueurs non spécifiques Tous les textes de vulgarisation ne portent pas ces marques Certains textes spécialisés les portent Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Marqueurs de relation Marqueur d’anaphorique a permis de repérer 44 génériques (cf. Aussenac, Condamines et Szulman 2000) Exemple: Archivage de l’état de configuration logiciel. Cette activité… Ces génériques apparaissent comme têtes de termes complexes: acteur, activité, composant, processus Hypothèse: si plus fréquents dans textes non spécialistes on peut utiliser ces génériques pour constituer des ressources terminologiques s’adressant à des non-spécialistes Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Conclusion Pistes pour une étude de la variation Outils d’extraction cf. Syntex Patterns d’extraction Marqueurs de genre Modèles de ressources flexibles : intégrant la variation. Nature du sens ? Modèles de ressources économiques : indexant la variation Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Pistes: des marqueurs de genre Quelles questions poser pour typifier les genres ? Comment exploiter les outils existants pour étudier des genres ? Ex, Biber utilise les concordanciers pour une étude des marques discursives (« study of discourse characteristics » Biber, Conrad and Reppen, 1998 :106) Des marqueurs grand public/spécialisé  ? Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Pistes: des dimensions du genre Difficultés de caractériser les genres (ex Web, mémoires) On peut utiliser des traits ou des dimensions différentielles Exemple: dimensions externes (destinataire, objectif) et dimensions internes (style, factualité, technicité) cf.Sinclair (EAGLES), Biber Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Bibliographie Assadi H.et Bourigault D., 2000, « Analyse syntaxique et statistique pour la construction d’ontologies à partir de textes », in Actes d’IC 2000, Ingénierie des connaissances, Toulouse 2002, Eyrolles, 243-256  Aussenac, Condamines et Szulman, à paraître, « Prise en compte de l’application dans la constitution de produits terminologiques »  Biber D., Conrad S. and Reppen R., 1998, Corpus Linguistics. Investigating language stucture and use, Cambridge University Press  Biber D., 1994, “Representativeness in corpus design. Linguistica Computazionale, IX-X:377-408”. Current Issues in Computational Linguistics: in honor of Don Walker.  Condamines A. et Rebeyrolles J., 2000, « Construction d’une BCT à partir de textes : expérimentation d’une méthdoe », in Actes d’IC 2000, Ingénierie des connaissances, Toulouse 2002, Eyrolles, 191-206  Delavigne V. et Bouveret M. (Ed.), 2000, Sémantique des termes, Dyalang, Publications de l’Université de Rouen  Grabar et Zweigenbaum, à paraître, « Productivité à travers domaines et genres : dérivés adjectivaux et langue médicale », Langue française Illouz G., « Typage de données textuelles et adaptation des traitements linguistiques. Application à l’annotation morpho-syntaxique », thèse de l’Université de Paris XI, 2000  Illouz G ; 1999, « Méta-étiqueteurs adaptatif : vers une utilisation pragmatique des ressources linguistiques », Actes de TALN 99, (Pascal Amsili coord.), 185-194, ATALA Cargèse Sinclair J., 1996, « Preliminary Recommendations on Text Typology , document en ligne (http://nicolet.ilc.pi.cnr.it/EAGLES/texttyp/texttyp.html), EAGLES (Expert Advisory Group on Language Engineering Standards)  Slodzian M., 2000, « L’émergence d’une terminologie textuelle et le retour du sens », in Béjoint et Thoiron 2000, Le sens en terminologie, Duculot-Aupelf, 61-85  Zweigenbaum P. et Grabar N., « Liens morphologiques et structuration de terminologie », in Actes d’IC 2000, Ingénierie des connaissances, Toulouse 2002, Eyrolles, 325-334 Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet