La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette.

Présentations similaires


Présentation au sujet: "Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette."— Transcription de la présentation:

1 Les collocations en langue de spécialité

2 Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette prédominance quantitative de la terminologie fait de lextraction terminologique un champ dinvestigation privilégié en traitement automatique des langues.

3 Les expressions de patrons syntaxiques identiques (par exemple, celle du type Adjectif + Nom en anglais) peuvent être repérées automatiquement grâce à un étiquetage morpho-syntaxique Mais un étiquetage tenant compte de traits sémantiques est nécessaire pour séparer les termes des collocations.

4 Travaux récents en ESP G. Williams dans le domaine de la biologie végétale M-C. LHomme dans le domaine de linformatique F. Maniez dans le domaine de la médecine

5 G. Williams recherche les cooccurrences significatives entre deux lexèmes Son but est d'extraire des binômes ou des expressions polylexicales et de déterminer leur « rôle thématique, facteur de cohésion textuelle » Il représente ses « réseaux de collocation»sous forme graphique.

6 WILLIAMS G. (1998) Collocational Networks : Interlocking Patterns of Lexis in a Corpus of Plant Biology Research Articles. International Journal of Corpus Linguistics. Vol 3/1, pp Il utilise pour le repérage des collocations en corpus lindice du MI score de Church et Hanks. Les réseaux ainsi définis décrivent en fait une combinatoire lexicale et grammaticale des termes du domaine.

7 A partir du repérage dun terme (ptDNA), on peut découvrir un « encadrement collocationnel » (the ptDNA of) Ce cadre peut lui-même être intégré à des modèles de taille supérieure (in the ptDNA of, genes/regions in the ptDNA of ). Williams regroupe les exemples faisant intervenir les formes nominales, verbales et adjectivales pour arriver à la définition de ses réseaux.

8 LHOMME, M.C. (1998). « Définition du statut du verbe en langue de spécialité et sa description lexicographique. » Cahiers de lexicologie 73 (2), pp étudie les collocations à base verbale, en particulier dans le domaine de linformatique. Se livre à une description des verbes spécialisés dans une optique de traitement automatique et la situe à différents niveaux (syntaxique, sémantique et combinatoire)

9 emplois du vocabulaire informatique tels que « tourner sur », formalisé par la formule Act1(logiciel) tourne(1) sur Act2(ordinateur) modèle descriptif qui s'inspire de la lexicologie explicative et combinatoire de Melčuk

10 Pour un liste des fonctions lexicales de Melčuk : de/LexicalFunctions.html de/LexicalFunctions.html Exemple : Function :Magn Description : intensifier Example : Magn(bachelor)=confirmed

11 Quelques difficultés concernant la description des collocations verbales faible fréquence et forte variation des formes verbales en langue de spécialité relativement aux groupes nominaux recours à des corpus de très grande taille si lon souhaite atteindre la significativité statistique nécessité dun corpus arboré pour la détection de lensemble des structures faisant intervenir des syntagmes prépositionnels (souvent distants)

12 Exemples de dépendance à distance Il demeure entendu que les réductions de prix accordées aux clients étrangers par retenue à la source ou par voie de transfert doivent être déduites des 20% dont bénéficie lexportateur au titre de la promotion des exportations à létranger à porter au crédit de son compte C.C.P.EX et/ou de son compte en devises. accorder une réduction par voie de transfert bénéficier de % au titre de X porter % au crédit dun compte

13 MANIEZ, F. (1999a) : « The use of electronic corpora and lexical frequency data in solving translation problems », in Altenberg, Bengt & Sylviane Granger (eds), Lexis in Contrast, Amsterdam, John Benjamins, absence de séparation nette entre vocabulaire spécialisé et vocabulaire général (polysémie de nombreux mots dusage courant) Etude des emplois du mot « lit » à partir dun corpus (2 M), compilé à partir des sites des Universités de Grenoble 2, Lyon 1 et Rennes 2.

14 Deux emplois distincts : le lit désigne lobjet matériel : surélévation de la tête du lit, repos au lit, (geste) réalisé / réalisable au lit du patient, pouvant être utilisé au lit du malade, confiné au lit, garder le lit il désigne une partie de lanatomie lit vasculaire / artériel / vésiculaire / capillaire

15 Un traitement automatique devrait distinguer deux homonymes : lit1 et lit2 9 emplois de lexpression métaphorique « faire le lit de » dans son sens étiologique : Les infarctus osseux qui accompagnent le processus infectieux semblent faire le lit des localisations septiques. expression de la langue générale élément de la phraséologie médicale

16 Mais le MI score ou le Z-score des collocations impliquant des items lexicaux dusage très fréquent (faire, lit) reste bas Le repérage de ces collocations est impossible automatiquement sur la seule base de la fréquence

17 Repérage des collocations disjointes Results_NN2 of_IO trials_NN2 of_IO selective_JJ gut_NN1 decontamination_NN1 have_VH0 been_VBN mixed_VVN._. (étiquetage CLAWS du BNC) Des résultats des épreuves de la décontamination sélective dintestin ont été mélangés (traduction « littérale » par Systran Classic)

18 collocation non identifiée : mixed results (résultats mitigés) catégorie grammaticale incorrectement attribuée à mixed par le programme détiquetage (et par lanalyseur de Systran) : participe passé (au lieu dadjectif).

19 Solutions envisageables en TAL recensement de tous les participes passés à emploi adjectival lanalyse par défaut dune forme de participe passé suivant been comme faisant partie dune structure passive sera suivie dune tentative de désambiguïsation automatique. 3 modes de désambiguïsation sont possibles:

20 a) vérification des verbes ayant "results" pour argument Exemples du corpus combine est un collocant naturel de results dans le cadre de l'explication de la procédure de méta- analyse: How best to combine the results of different clinical trials to produce a single valid conclusion has been an issue in clinical pharmacology and the rest of medicine since literature reviews were first conducted. Although formal statistical methodology for combining clinical trial results, or meta-analysis, is an improvement over earlier methods of less formal literature review and interpretation […]

21 2 méthodes possibles : Vérification de la présence de dans une base de donnée collocationnelle regroupant les verbes et leurs principaux arguments recherche en corpus déventuelles cooccurrences entre results et les synonymes de mix fournis par une base lexicale comme Wordnet.

22 IM93 : corpus regroupant la totalité des articles parus en 1993 dans quatre revues médicales de langue anglaise et totalisant environ 12 millions de mots. la collocation combine results est présente sous sa forme liée dans 46 articles (le verbe s'y présente sous les trois formes combine, combined et combining) toutes les cooccurrences de mix et de results se présentent sous la forme mixed results, mixed étant un adjectif.

23 b) stockage de la collocation "mixed results" Repérage des collocations de mixed en langue générale (Time 20th Century, 10 M)

24 Collocants de MIXED TIME 20th Traductions signals26signaux, messages contradictoires race25race mixte blessing21avantage incertain feelings21sentiments contraires, contradictoires reviews21avis partagés results19résultats mitigés, bilan contrasté messages16signaux, messages contradictoires economy10économie mixte emotions10sentiments contradictoires

25 nécessité de disposer d'un corpus de grande taille seules deux des dix collocations comptent plus de 2 occurrences dans un sous-ensemble de Time 20th comptant 1,8 million de mots

26 c) repérage de la collocation sous sa forme disjointe telle qu'elle se présente dans le contexte Les programmes de collecte automatique de collocations fonctionnent : soit par repérage de mots immédiatement consécutifs soit en fournissant une série de contextes de cooccurrence de deux mots donnés dans des limites de proximité prédéfinies.

27 Adjonction dinformation statistique concernant la fréquence demploi des différentes parties du discours et de leurs fonctions grammaticale par rapport au type de langue utilisé (langue générale / langue spécialisée)

28 Statut grammatical de mixed dans les corpus TIME91 et IM93 Nature et fonction de mixed L. GénéraleL. Médicale Voix active 4 2 Voix passive 9 8 Adj. Attribut10 5 Adj. Épithète44 (66%) 261(95%) Total67 276

29 Quelle méthode adopter? Le premier critère (élimination de l'interprétation erronée grâce au stockage préalable en mémoire d'un collocat d'une plus grande probabilité d'occurrence) est difficilement applicable à la traduction automatique CAR le caractère incongru de l'interprétation passive est dû à la perception de l'acceptabilité d'une collocation dans le cadre d'une langue de spécialité, phénomène difficile à formaliser et quantifier.

30 Le deuxième critère est plus adapté à l'outil informatique, d'une grande puissance pour la génération de collocations tirées de textes numérisés.

31 Collocations de fréquence >4 dans un corpus médical de mots FREQUENCEMOT 1MOT 2 12atteintesinflammatoires 8ansesgrêles 7aspectsradiologiques 7atrophievillositaire 6abcèshépatiques 6ansesintestinales 6aspectsobservés 6atteintesvasculaires 5adénomeshépatocellulaires 5aspectpseudo-tumoral

32 homogénéité (typique de la langue scientifique) quant aux catégories grammaticales représentées (les collocations sont de type. clivage assez net entre les termes (formes relevant du lexique spécialisé), et les collocations, dont les bases (aspect, atteinte) nappartiennent pas au vocabulaire spécialisé.

33 Détection de « results… mixed? » 2 solutions : Optimisation de la fonction d'empan par la prise en compte de statistiques de présence à l'état disjoint (la collocation "aspects observés" sera plus souvent disjointe que la combinaison "atteinte vasculaire") Isolement des chunks dont la traduction dans une langue est homogène dans les corpus bilingues alignés : have been mixed ont été mitigé(e)s (results, reviews, reactions, rating, marks, profile)

34

35 Les langues de spécialité Les grands corpus de références comme le TLF ou le BNC ont pour but principal de représenter le plus fidèlement possible la langue générale. Mais la linguistique de corpus sapplique toutefois également aux langues de spécialité, parfois appelées langues spécialisées ou sous-langages.

36 LERAT, P. (1995) : Les langues spécialisées, Paris, P.U.F. Il préfère le terme langue spécialisée, car il conçoit la langue de spécialité non pas comme une « sous-langue » mais comme une forme dusage particulière de la langue. Langlais language for special purposes (LSP) dit bien cette particularité […]. « langue spécialisée » renvoie au système linguistique pour lexpression et aux professions pour les savoirs. »

37 Sublanguage (les sous-langages) « Sublanguage », employé par Z. Harris, sous-entend, au delà dune particularité du lexique, un fonctionnement langagier spécifique Le terme englobe non seulement les langages des disciplines scientifiques et techniques, mais également les méta-langages comme celui de la linguistique.

38 Lhypothèse de Harris veut que les sous-langages aient un lexique limité et un nombre fini de schémas de phrases, qui seraient des combinaisons de sous-classes de mots propres à ces sous-langages. Cette finitude rend lutilisation des corpus particulièrement propice à létude des sous-langages.

39 McEnery & Wilson (1996) One key feature that has been hypothesised for a sublanguage is that it will show a high degree of closure at various levels of description. […] In short, a corpus should be an exceptionally good tool for identifying and describing a sublanguage, because they both have an important feature in common – a finite nature.

40 HABERT, B., NAZARENKO, A. & SALEM A. (1997) : Les linguistiques de corpus, Paris, Armand Colin / Masson. Les sous-langages ne sont pas forcément des sous-ensembles de la langue générale. Certains traits de la langue générale sy retrouvent, dautres leur sont propres. Inversement, les sous-langages peuvent recourir à des patrons syntaxiques particuliers quil serait difficile dintégrer tels quels à une grammaire « de langue ». Cest le cas de certains motifs dénominatifs qui forment de véritables « grammaires locales ».

41 Exemple cité par Habert : The system will be unable to vary on the device. Mais cette tournure est une simple variation lexicale sur le verbe à particule adverbiale to turn on, et non pas un patron syntaxique typique de la langue de spécialité.

42 Il y a dissociation partielle des lexiques de la langue générale et des langues de spécialité des langues de spécialité entre elles Mais leur syntaxe est fondamentalement identique.

43 Notion de langue commune (CABRÉ, M. T. (1998). La Terminologie- Théorie, méthode et applications.) « La langue générale (…) peut être considérée comme un ensemble densembles, imbriqués et reliés entre eux selon de nombreux points de vue. Le lien entre tous ces ensembles est la langue commune. Chacun de ces sous-ensembles peut être une langue de spécialité. » (1998 : 115)

44

45 Anglais de spécialité : absence de lexèmes dorigine dialectale (bodacious) appartenant au registre familier (groovy) exprimant un jugement de manière affective (loathsome)

46 Inversement, les technolectes sont absents des corpus de langue générale : cervicothoracic-lumbosacral orthosis hypothalamic-pituitary-gonadal Mais une partie du lexique de la langue générale est investie dun sens spécifique en langue de spécialité (cf. sensibilité)


Télécharger ppt "Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette."

Présentations similaires


Annonces Google