La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les collocations en langue de spécialité

Présentations similaires


Présentation au sujet: "Les collocations en langue de spécialité"— Transcription de la présentation:

1 Les collocations en langue de spécialité

2 L’une des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette prédominance quantitative de la terminologie fait de l’extraction terminologique un champ d’investigation privilégié en traitement automatique des langues.

3 Les expressions de patrons syntaxiques identiques (par exemple, celle du type Adjectif + Nom en anglais) peuvent être repérées automatiquement grâce à un étiquetage morpho-syntaxique Mais un étiquetage tenant compte de traits sémantiques est nécessaire pour séparer les termes des collocations.

4 Travaux récents en ESP G. Williams dans le domaine de la biologie végétale M-C. L’Homme dans le domaine de l’informatique F. Maniez dans le domaine de la médecine

5 G. Williams recherche les cooccurrences significatives entre deux lexèmes Son but est d'extraire des binômes ou des expressions polylexicales et de déterminer leur « rôle thématique, facteur de cohésion textuelle » Il représente ses « réseaux de collocation»sous forme graphique.

6 WILLIAMS G. (1998) “Collocational Networks : Interlocking Patterns of Lexis in a Corpus of Plant Biology Research Articles”. International Journal of Corpus Linguistics. Vol 3/1, pp Il utilise pour le repérage des collocations en corpus l’indice du MI score de Church et Hanks. Les réseaux ainsi définis décrivent en fait une combinatoire lexicale et grammaticale des termes du domaine.

7 A partir du repérage d’un terme (ptDNA), on peut découvrir un « encadrement collocationnel » (the ptDNA of) Ce cadre peut lui-même être intégré à des modèles de taille supérieure (in the ptDNA of <plant_name>, genes/regions in the ptDNA of <plant_name>). Williams regroupe les exemples faisant intervenir les formes nominales, verbales et adjectivales pour arriver à la définition de ses réseaux.

8 L’HOMME, M.C. (1998). « Définition du statut du verbe en langue de spécialité et sa description lexicographique. » Cahiers de lexicologie 73 (2), pp étudie les collocations à base verbale, en particulier dans le domaine de l’informatique. Se livre à une description des verbes spécialisés dans une optique de traitement automatique et la situe à différents niveaux (syntaxique, sémantique et combinatoire)

9 emplois du vocabulaire informatique tels que « tourner sur », formalisé par la formule Act1(logiciel) tourne(1) sur Act2(ordinateur) modèle descriptif qui s'inspire de la lexicologie explicative et combinatoire de Mel’čuk

10 Pour un liste des fonctions lexicales de Mel’čuk :
Exemple : Function :Magn Description : intensifier Example : Magn(bachelor)=confirmed

11 Quelques difficultés concernant la description des collocations verbales
faible fréquence et forte variation des formes verbales en langue de spécialité relativement aux groupes nominaux  recours à des corpus de très grande taille si l’on souhaite atteindre la significativité statistique nécessité d’un corpus arboré pour la détection de l’ensemble des structures faisant intervenir des syntagmes prépositionnels (souvent distants)

12 Exemples de dépendance à distance
Il demeure entendu que les réductions de prix accordées aux clients étrangers par retenue à la source ou par voie de transfert doivent être déduites des 20% dont bénéficie l’exportateur au titre de la promotion des exportations à l’étranger à porter au crédit de son compte C.C.P.EX et/ou de son compte en devises.  accorder une réduction par voie de transfert bénéficier de % au titre de X porter % au crédit d’un compte

13 MANIEZ, F. (1999a) : « The use of electronic corpora and lexical frequency data in solving translation problems », in Altenberg, Bengt & Sylviane Granger (eds), Lexis in Contrast, Amsterdam, John Benjamins, 2001. absence de séparation nette entre vocabulaire spécialisé et vocabulaire général (polysémie de nombreux mots d’usage courant) Etude des emplois du mot « lit » à partir d’un corpus (2 M), compilé à partir des sites des Universités de Grenoble 2, Lyon 1 et Rennes 2.

14 Deux emplois distincts :
le lit désigne l’objet matériel : surélévation de la tête du lit, repos au lit, (geste) réalisé / réalisable au lit du patient, pouvant être utilisé au lit du malade, confiné au lit, garder le lit il désigne une partie de l’anatomie lit vasculaire / artériel / vésiculaire / capillaire

15 expression de la langue générale  élément de la phraséologie médicale
Un traitement automatique devrait distinguer deux homonymes : lit1 et lit2 9 emplois de l’expression métaphorique « faire le lit de » dans son sens étiologique : Les infarctus osseux qui accompagnent le processus infectieux semblent faire le lit des localisations septiques. expression de la langue générale  élément de la phraséologie médicale

16 Mais le MI score ou le Z-score des collocations impliquant des items lexicaux d’usage très fréquent (faire, lit) reste bas  Le repérage de ces collocations est impossible automatiquement sur la seule base de la fréquence

17 Repérage des collocations disjointes
Results_NN2 of_IO trials_NN2 of_IO selective_JJ gut_NN1 decontamination_NN1 have_VH0 been_VBN mixed_VVN ._. (étiquetage CLAWS du BNC) Des résultats des épreuves de la décontamination sélective d’intestin ont été mélangés (traduction « littérale » par Systran Classic)

18 collocation non identifiée : mixed results (résultats mitigés)
catégorie grammaticale incorrectement attribuée à mixed par le programme d’étiquetage (et par l’analyseur de Systran) : participe passé (au lieu d’adjectif).

19 Solutions envisageables en TAL
recensement de tous les participes passés à emploi adjectival  l’analyse par défaut d’une forme de participe passé suivant been comme faisant partie d’une structure passive sera suivie d’une tentative de désambiguïsation automatique. 3 modes de désambiguïsation sont possibles:

20 a) vérification des verbes ayant "results" pour argument
Exemples du corpus  combine est un collocant naturel de results dans le cadre de l'explication de la procédure de méta-analyse: How best to combine the results of different clinical trials to produce a single valid conclusion has been an issue in clinical pharmacology and the rest of medicine since literature reviews were first conducted. Although formal statistical methodology for combining clinical trial results, or meta-analysis, is an improvement over earlier methods of less formal literature review and interpretation […]

21 2 méthodes possibles : Vérification de la présence de <combine – results> dans une base de donnée collocationnelle regroupant les verbes et leurs principaux arguments recherche en corpus d’éventuelles cooccurrences entre results et les synonymes de mix fournis par une base lexicale comme Wordnet.

22 IM93 : corpus regroupant la totalité des articles parus en 1993 dans quatre revues médicales de langue anglaise et totalisant environ 12 millions de mots. la collocation combine results est présente sous sa forme liée dans 46 articles (le verbe s'y présente sous les trois formes combine, combined et combining) toutes les cooccurrences de mix et de results se présentent sous la forme mixed results, mixed étant un adjectif.

23 b) stockage de la collocation "mixed results"
Repérage des collocations de mixed en langue générale (Time 20th Century, 10 M)

24 Collocants de MIXED TIME 20th Traductions signals 26 signaux, messages contradictoires race 25 race mixte blessing 21 avantage incertain feelings sentiments contraires, contradictoires reviews avis partagés results 19 résultats mitigés, bilan contrasté messages 16 economy 10 économie mixte emotions sentiments contradictoires

25 nécessité de disposer d'un corpus de grande taille
seules deux des dix collocations comptent plus de 2 occurrences dans un sous-ensemble de Time 20th comptant 1,8 million de mots

26 c) repérage de la collocation sous sa forme disjointe telle qu'elle se présente dans le contexte
Les programmes de collecte automatique de collocations fonctionnent : soit par repérage de mots immédiatement consécutifs soit en fournissant une série de contextes de cooccurrence de deux mots donnés dans des limites de proximité prédéfinies.

27 Adjonction d’information statistique concernant la fréquence d’emploi des différentes parties du discours et de leurs fonctions grammaticale par rapport au type de langue utilisé (langue générale / langue spécialisée)

28 Statut grammatical de mixed dans les corpus TIME91 et IM93
Nature et fonction de mixed L. Générale L. Médicale Voix active 4 2 Voix passive 9 8 Adj. Attribut 10 5 Adj. Épithète 44 (66%) 261(95%) Total 67 276

29 Quelle méthode adopter?
Le premier critère (élimination de l'interprétation erronée grâce au stockage préalable en mémoire d'un collocat d'une plus grande probabilité d'occurrence) est difficilement applicable à la traduction automatique CAR le caractère incongru de l'interprétation passive est dû à la perception de l'acceptabilité d'une collocation dans le cadre d'une langue de spécialité, phénomène difficile à formaliser et quantifier.

30 Le deuxième critère est plus adapté à l'outil informatique, d'une grande puissance pour la génération de collocations tirées de textes numérisés.

31 Collocations de fréquence >4 dans un corpus médical de 200 000 mots
FREQUENCE MOT 1 MOT 2 12 atteintes inflammatoires 8 anses grêles 7 aspects radiologiques atrophie villositaire 6 abcès hépatiques intestinales observés vasculaires 5 adénomes hépatocellulaires aspect pseudo-tumoral

32 homogénéité (typique de la langue scientifique) quant aux catégories grammaticales représentées (les collocations sont de type <Nom – Adjectif>. clivage assez net entre les termes (formes relevant du lexique spécialisé), et les collocations, dont les bases (aspect, atteinte) n’appartiennent pas au vocabulaire spécialisé.

33 Détection de « results… mixed? »
2 solutions : Optimisation de la fonction d'empan par la prise en compte de statistiques de présence à l'état disjoint (la collocation "aspects observés" sera plus souvent disjointe que la combinaison "atteinte vasculaire") Isolement des chunks dont la traduction dans une langue est homogène dans les corpus bilingues alignés : have been mixed  ont été mitigé(e)s (results, reviews, reactions, rating, marks, profile)

34

35 Les langues de spécialité
Les grands corpus de références comme le TLF ou le BNC ont pour but principal de représenter le plus fidèlement possible la langue générale. Mais la linguistique de corpus s’applique toutefois également aux langues de spécialité, parfois appelées langues spécialisées ou sous-langages.

36 LERAT, P. (1995) : Les langues spécialisées, Paris, P.U.F.
Il préfère le terme langue spécialisée, car il conçoit la langue de spécialité non pas comme une « sous-langue » mais comme une forme d’usage particulière de la langue. L’anglais language for special purposes (LSP) dit bien cette particularité […]. « langue spécialisée » renvoie au système linguistique pour l’expression et aux professions pour les savoirs. »

37 Sublanguage (les sous-langages)
« Sublanguage », employé par Z. Harris, sous-entend, au delà d’une particularité du lexique, un fonctionnement langagier spécifique Le terme englobe non seulement les langages des disciplines scientifiques et techniques, mais également les méta-langages comme celui de la linguistique.

38 L’hypothèse de Harris veut que les sous-langages aient un lexique limité et un nombre fini de schémas de phrases, qui seraient des combinaisons de sous-classes de mots propres à ces sous-langages. Cette finitude rend l’utilisation des corpus particulièrement propice à l’étude des sous-langages.

39 McEnery & Wilson (1996) One key feature that has been hypothesised for a sublanguage is that it will show a high degree of closure at various levels of description. […] In short, a corpus should be an exceptionally good tool for identifying and describing a sublanguage, because they both have an important feature in common – a finite nature.

40 HABERT, B. , NAZARENKO, A. & SALEM A
HABERT, B., NAZARENKO, A. & SALEM A. (1997) : Les linguistiques de corpus, Paris, Armand Colin / Masson. Les sous-langages ne sont pas forcément des sous-ensembles de la langue générale. Certains traits de la langue générale s’y retrouvent, d’autres leur sont propres. Inversement, les sous-langages peuvent recourir à des patrons syntaxiques particuliers qu’il serait difficile d’intégrer tels quels à une grammaire « de langue ». C’est le cas de certains motifs dénominatifs qui forment de véritables « grammaires locales ».

41 Exemple cité par Habert :
The system will be unable to vary on the device. Mais cette tournure est une simple variation lexicale sur le verbe à particule adverbiale to turn on, et non pas un patron syntaxique typique de la langue de spécialité.

42 Il y a dissociation partielle des lexiques
de la langue générale et des langues de spécialité des langues de spécialité entre elles Mais leur syntaxe est fondamentalement identique.

43 Notion de langue commune (Cabré, M. T. (1998)
Notion de langue commune (Cabré, M. T. (1998). La Terminologie- Théorie, méthode et applications.) « La langue générale (…) peut être considérée comme un ensemble d’ensembles, imbriqués et reliés entre eux selon de nombreux points de vue. Le lien entre tous ces ensembles est la langue commune. Chacun de ces sous-ensembles peut être une langue de spécialité. » (1998 : 115) 

44

45 Anglais de spécialité : absence de lexèmes
d’origine dialectale (bodacious) appartenant au registre familier (groovy) exprimant un jugement de manière affective (loathsome)

46 Inversement, les technolectes sont absents des corpus de langue générale :
cervicothoracic-lumbosacral orthosis hypothalamic-pituitary-gonadal Mais une partie du lexique de la langue générale est investie d’un sens spécifique en langue de spécialité (cf. sensibilité)


Télécharger ppt "Les collocations en langue de spécialité"

Présentations similaires


Annonces Google