Les collocations en langue de spécialité

Slides:



Advertisements
Présentations similaires
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Advertisements

Les langues de spécialité
Le modèle de communication
Culture et enseignement/ apprentissage des langues
Algorithmes et structures de données avancés
Olivier Kraif, Agnès Tutin LIDILEM
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
XML - Henry Boccon-Gibod 1 XML, Langage de description La question du choix de formalismes Les entités et leur représentations modalités de modèles et.
Urbanisation de Systèmes d'Information
Collecte de données F. Kohler.
Les TESTS STATISTIQUES
Le modèle de communication
Les TESTS STATISTIQUES
Analyse et structuration thématiques
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
OLST — Université de Montréal
Cordial, le TAL et les aides à la rédaction
Le lexique de la société de linformation 1. Mod. B : Le lexique de la société de linformation.1 Les TICE, quest-ce que cest?
Initiation au système d’information et aux bases de données
Recherche & Développement Mars 2006 Étude des profils relationnels dans les réseaux sociaux Christophe Martinetto LIAFA, FT R&D Encadrants : Christophe.
Etude des Technologies du Web services
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
L'apprentissage de l'abstraction Faire acquérir des concepts Animation pédagogique 12 décembre 2012 LRO.
Pour un système formel de description linguistique
Lutilisation de la langue est liée à laction et donc à des capacités de faire.
Les politiques linguistiques : définitions, modalités et enjeux
Initiation à la conception de systèmes d'information
Chap 4 Les bases de données et le modèle relationnel
Plan la séance 4 La problématique d’une recherche
3G / 4G L’attitude et la participation en classe L’étude à domicile La méthode de travail La tenue des notes de cours Le journal de classe L’évaluation.
Représentations des objectifs à atteindre dans l’apprentissage des langues: processus qualifiant et compétences plurilingues Patrick Chardenet Maître de.
Project de la langue française
Etude globale de système.
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
INFORMATION ET DONNEE COURS 2. ACTIVITE HUMAINE Recherche scientifique MédecineInformatique OBSERVATION Mesures Rassemblement de données de patients Introduction.
Présentation du mémoire
Systeme Question-Reponse SQR
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Systèmes d’informations : Définition, Composantes, Rôles et Approches.
la maîtrise de la langue française Inspection Pédagogique Régionale
Parler, lire, écrire en mathématiques
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
TRAITEMENT INSTRUMENTÉ DE CORPUS
Labov, (2001) Les linguistes s'accordent à penser que nous étudions la structure générale du langage, et non la compilation de faits particuliers sur.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
De la scientificité des théories à la scientificité de la didactique
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Vocabulaire La polysémie
Human Knowledge La nouvelle génération de moteurs sémantiques.
L’observation réfléchie de la langue
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Introduction et Généralités sur l’Algorithmique
Soutenance du mémoire de synthèse
( ) Collège de Maisonneuve
TEXT MINING Fouille de textes
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Video.
Martine Miny - MPInstitut - Référentiels et métiers de management de projet - Mastère IESTO - 9 février 2004 Référentiels et métiers de management de projet.
Les niveaux de langue et les questions ©Copyright 2015, Valia Tatarova
Mémoire de fin d’études
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
MES STRATÉGIES DE LECTURE
Ecole des sciences de l’information
ARIANE : Interopérabilité sémantique et accès aux sources d'information sur Internet Sylvain Aymard, Michel Joubert, Dominique Fieschi, Marius Fieschi.
1 Philippe TRIGANO - Université de Technologie de Compiègne - FRANCE Philippe TRIGANO INGÉNIERIE MULTIMÉDIA PÉDAGOGIQUE.
Transcription de la présentation:

Les collocations en langue de spécialité

L’une des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette prédominance quantitative de la terminologie fait de l’extraction terminologique un champ d’investigation privilégié en traitement automatique des langues.

Les expressions de patrons syntaxiques identiques (par exemple, celle du type Adjectif + Nom en anglais) peuvent être repérées automatiquement grâce à un étiquetage morpho-syntaxique Mais un étiquetage tenant compte de traits sémantiques est nécessaire pour séparer les termes des collocations.

Travaux récents en ESP G. Williams dans le domaine de la biologie végétale M-C. L’Homme dans le domaine de l’informatique F. Maniez dans le domaine de la médecine

G. Williams recherche les cooccurrences significatives entre deux lexèmes Son but est d'extraire des binômes ou des expressions polylexicales et de déterminer leur « rôle thématique, facteur de cohésion textuelle » Il représente ses « réseaux de collocation»sous forme graphique.

WILLIAMS G. (1998) “Collocational Networks : Interlocking Patterns of Lexis in a Corpus of Plant Biology Research Articles”. International Journal of Corpus Linguistics. Vol 3/1, pp. 151-171 Il utilise pour le repérage des collocations en corpus l’indice du MI score de Church et Hanks. Les réseaux ainsi définis décrivent en fait une combinatoire lexicale et grammaticale des termes du domaine.

A partir du repérage d’un terme (ptDNA), on peut découvrir un « encadrement collocationnel » (the ptDNA of) Ce cadre peut lui-même être intégré à des modèles de taille supérieure (in the ptDNA of <plant_name>, genes/regions in the ptDNA of <plant_name>). Williams regroupe les exemples faisant intervenir les formes nominales, verbales et adjectivales pour arriver à la définition de ses réseaux.

L’HOMME, M.C. (1998). « Définition du statut du verbe en langue de spécialité et sa description lexicographique. » Cahiers de lexicologie 73 (2), pp. 61-84. étudie les collocations à base verbale, en particulier dans le domaine de l’informatique. Se livre à une description des verbes spécialisés dans une optique de traitement automatique et la situe à différents niveaux (syntaxique, sémantique et combinatoire)

emplois du vocabulaire informatique tels que « tourner sur », formalisé par la formule Act1(logiciel) tourne(1) sur Act2(ordinateur) modèle descriptif qui s'inspire de la lexicologie explicative et combinatoire de Mel’čuk

Pour un liste des fonctions lexicales de Mel’čuk : http://engdep1.philo.ulg.ac.be/decide/LexicalFunctions.html Exemple : Function :Magn Description : intensifier Example : Magn(bachelor)=confirmed

Quelques difficultés concernant la description des collocations verbales faible fréquence et forte variation des formes verbales en langue de spécialité relativement aux groupes nominaux  recours à des corpus de très grande taille si l’on souhaite atteindre la significativité statistique nécessité d’un corpus arboré pour la détection de l’ensemble des structures faisant intervenir des syntagmes prépositionnels (souvent distants)

Exemples de dépendance à distance Il demeure entendu que les réductions de prix accordées aux clients étrangers par retenue à la source ou par voie de transfert doivent être déduites des 20% dont bénéficie l’exportateur au titre de la promotion des exportations à l’étranger à porter au crédit de son compte C.C.P.EX et/ou de son compte en devises.  accorder une réduction par voie de transfert bénéficier de % au titre de X porter % au crédit d’un compte

MANIEZ, F. (1999a) : « The use of electronic corpora and lexical frequency data in solving translation problems », in Altenberg, Bengt & Sylviane Granger (eds), Lexis in Contrast, Amsterdam, John Benjamins, 2001. absence de séparation nette entre vocabulaire spécialisé et vocabulaire général (polysémie de nombreux mots d’usage courant) Etude des emplois du mot « lit » à partir d’un corpus (2 M), compilé à partir des sites des Universités de Grenoble 2, Lyon 1 et Rennes 2.

Deux emplois distincts : le lit désigne l’objet matériel : surélévation de la tête du lit, repos au lit, (geste) réalisé / réalisable au lit du patient, pouvant être utilisé au lit du malade, confiné au lit, garder le lit il désigne une partie de l’anatomie lit vasculaire / artériel / vésiculaire / capillaire

expression de la langue générale  élément de la phraséologie médicale Un traitement automatique devrait distinguer deux homonymes : lit1 et lit2 9 emplois de l’expression métaphorique « faire le lit de » dans son sens étiologique : Les infarctus osseux qui accompagnent le processus infectieux semblent faire le lit des localisations septiques. expression de la langue générale  élément de la phraséologie médicale

Mais le MI score ou le Z-score des collocations impliquant des items lexicaux d’usage très fréquent (faire, lit) reste bas  Le repérage de ces collocations est impossible automatiquement sur la seule base de la fréquence

Repérage des collocations disjointes Results_NN2 of_IO trials_NN2 of_IO selective_JJ gut_NN1 decontamination_NN1 have_VH0 been_VBN mixed_VVN ._. (étiquetage CLAWS du BNC) Des résultats des épreuves de la décontamination sélective d’intestin ont été mélangés (traduction « littérale » par Systran Classic)

collocation non identifiée : mixed results (résultats mitigés) catégorie grammaticale incorrectement attribuée à mixed par le programme d’étiquetage (et par l’analyseur de Systran) : participe passé (au lieu d’adjectif).

Solutions envisageables en TAL recensement de tous les participes passés à emploi adjectival  l’analyse par défaut d’une forme de participe passé suivant been comme faisant partie d’une structure passive sera suivie d’une tentative de désambiguïsation automatique. 3 modes de désambiguïsation sont possibles:

a) vérification des verbes ayant "results" pour argument Exemples du corpus  combine est un collocant naturel de results dans le cadre de l'explication de la procédure de méta-analyse: How best to combine the results of different clinical trials to produce a single valid conclusion has been an issue in clinical pharmacology and the rest of medicine since literature reviews were first conducted. Although formal statistical methodology for combining clinical trial results, or meta-analysis, is an improvement over earlier methods of less formal literature review and interpretation […]

2 méthodes possibles : Vérification de la présence de <combine – results> dans une base de donnée collocationnelle regroupant les verbes et leurs principaux arguments recherche en corpus d’éventuelles cooccurrences entre results et les synonymes de mix fournis par une base lexicale comme Wordnet.

IM93 : corpus regroupant la totalité des articles parus en 1993 dans quatre revues médicales de langue anglaise et totalisant environ 12 millions de mots. la collocation combine results est présente sous sa forme liée dans 46 articles (le verbe s'y présente sous les trois formes combine, combined et combining) toutes les cooccurrences de mix et de results se présentent sous la forme mixed results, mixed étant un adjectif.

b) stockage de la collocation "mixed results" Repérage des collocations de mixed en langue générale (Time 20th Century, 10 M)

Collocants de MIXED TIME 20th Traductions signals 26 signaux, messages contradictoires race 25 race mixte blessing 21 avantage incertain feelings sentiments contraires, contradictoires reviews avis partagés results 19 résultats mitigés, bilan contrasté messages 16 economy 10 économie mixte emotions sentiments contradictoires

nécessité de disposer d'un corpus de grande taille seules deux des dix collocations comptent plus de 2 occurrences dans un sous-ensemble de Time 20th comptant 1,8 million de mots

c) repérage de la collocation sous sa forme disjointe telle qu'elle se présente dans le contexte Les programmes de collecte automatique de collocations fonctionnent : soit par repérage de mots immédiatement consécutifs soit en fournissant une série de contextes de cooccurrence de deux mots donnés dans des limites de proximité prédéfinies.

Adjonction d’information statistique concernant la fréquence d’emploi des différentes parties du discours et de leurs fonctions grammaticale par rapport au type de langue utilisé (langue générale / langue spécialisée)

Statut grammatical de mixed dans les corpus TIME91 et IM93 Nature et fonction de mixed L. Générale L. Médicale Voix active 4 2 Voix passive 9 8 Adj. Attribut 10 5 Adj. Épithète 44 (66%) 261(95%) Total 67 276

Quelle méthode adopter? Le premier critère (élimination de l'interprétation erronée grâce au stockage préalable en mémoire d'un collocat d'une plus grande probabilité d'occurrence) est difficilement applicable à la traduction automatique CAR le caractère incongru de l'interprétation passive est dû à la perception de l'acceptabilité d'une collocation dans le cadre d'une langue de spécialité, phénomène difficile à formaliser et quantifier.

Le deuxième critère est plus adapté à l'outil informatique, d'une grande puissance pour la génération de collocations tirées de textes numérisés.

Collocations de fréquence >4 dans un corpus médical de 200 000 mots FREQUENCE MOT 1 MOT 2 12 atteintes inflammatoires 8 anses grêles 7 aspects radiologiques atrophie villositaire 6 abcès hépatiques intestinales observés vasculaires 5 adénomes hépatocellulaires aspect pseudo-tumoral

homogénéité (typique de la langue scientifique) quant aux catégories grammaticales représentées (les collocations sont de type <Nom – Adjectif>. clivage assez net entre les termes (formes relevant du lexique spécialisé), et les collocations, dont les bases (aspect, atteinte) n’appartiennent pas au vocabulaire spécialisé.

Détection de « results… mixed? » 2 solutions : Optimisation de la fonction d'empan par la prise en compte de statistiques de présence à l'état disjoint (la collocation "aspects observés" sera plus souvent disjointe que la combinaison "atteinte vasculaire") Isolement des chunks dont la traduction dans une langue est homogène dans les corpus bilingues alignés : have been mixed  ont été mitigé(e)s (results, reviews, reactions, rating, marks, profile)

Les langues de spécialité Les grands corpus de références comme le TLF ou le BNC ont pour but principal de représenter le plus fidèlement possible la langue générale. Mais la linguistique de corpus s’applique toutefois également aux langues de spécialité, parfois appelées langues spécialisées ou sous-langages.

LERAT, P. (1995) : Les langues spécialisées, Paris, P.U.F. Il préfère le terme langue spécialisée, car il conçoit la langue de spécialité non pas comme une « sous-langue » mais comme une forme d’usage particulière de la langue. L’anglais language for special purposes (LSP) dit bien cette particularité […]. « langue spécialisée » renvoie au système linguistique pour l’expression et aux professions pour les savoirs. »

Sublanguage (les sous-langages) « Sublanguage », employé par Z. Harris, sous-entend, au delà d’une particularité du lexique, un fonctionnement langagier spécifique Le terme englobe non seulement les langages des disciplines scientifiques et techniques, mais également les méta-langages comme celui de la linguistique.

L’hypothèse de Harris veut que les sous-langages aient un lexique limité et un nombre fini de schémas de phrases, qui seraient des combinaisons de sous-classes de mots propres à ces sous-langages. Cette finitude rend l’utilisation des corpus particulièrement propice à l’étude des sous-langages.

McEnery & Wilson (1996) One key feature that has been hypothesised for a sublanguage is that it will show a high degree of closure at various levels of description. […] In short, a corpus should be an exceptionally good tool for identifying and describing a sublanguage, because they both have an important feature in common – a finite nature.

HABERT, B. , NAZARENKO, A. & SALEM A HABERT, B., NAZARENKO, A. & SALEM A. (1997) : Les linguistiques de corpus, Paris, Armand Colin / Masson. Les sous-langages ne sont pas forcément des sous-ensembles de la langue générale. Certains traits de la langue générale s’y retrouvent, d’autres leur sont propres. Inversement, les sous-langages peuvent recourir à des patrons syntaxiques particuliers qu’il serait difficile d’intégrer tels quels à une grammaire « de langue ». C’est le cas de certains motifs dénominatifs qui forment de véritables « grammaires locales ».

Exemple cité par Habert : The system will be unable to vary on the device. Mais cette tournure est une simple variation lexicale sur le verbe à particule adverbiale to turn on, et non pas un patron syntaxique typique de la langue de spécialité.

Il y a dissociation partielle des lexiques de la langue générale et des langues de spécialité des langues de spécialité entre elles Mais leur syntaxe est fondamentalement identique.

Notion de langue commune (Cabré, M. T. (1998) Notion de langue commune (Cabré, M. T. (1998). La Terminologie- Théorie, méthode et applications.) « La langue générale (…) peut être considérée comme un ensemble d’ensembles, imbriqués et reliés entre eux selon de nombreux points de vue. Le lien entre tous ces ensembles est la langue commune. Chacun de ces sous-ensembles peut être une langue de spécialité. » (1998 : 115) 

Anglais de spécialité : absence de lexèmes d’origine dialectale (bodacious) appartenant au registre familier (groovy) exprimant un jugement de manière affective (loathsome)

Inversement, les technolectes sont absents des corpus de langue générale : cervicothoracic-lumbosacral orthosis hypothalamic-pituitary-gonadal Mais une partie du lexique de la langue générale est investie d’un sens spécifique en langue de spécialité (cf. sensibilité)