La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

A la découverte de la polysémie des spécificités du français technique RÉCITAL 2005 - Dourdan Ann Bertels University of Leuven RU Quantitative Lexicology.

Présentations similaires


Présentation au sujet: "A la découverte de la polysémie des spécificités du français technique RÉCITAL 2005 - Dourdan Ann Bertels University of Leuven RU Quantitative Lexicology."— Transcription de la présentation:

1 A la découverte de la polysémie des spécificités du français technique RÉCITAL 2005 - Dourdan
Ann Bertels University of Leuven RU Quantitative Lexicology and Variational Linguistics

2 Plan de la présentation
Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 2 2 RÉCITAL, Dourdan, 6-10 juin 2005

3 1. Introduction et question de recherche
Thèse de doctorat : Etude sémantique quantitative du français scientifique et technique Monosémie – polysémie dans un corpus technique = Corpus de textes relevant d’un domaine de spécialité  machines-outils pour l’usinage des métaux 3 3 RÉCITAL, Dourdan, 6-10 juin 2005

4 1. Introduction et question de recherche
Monosémie – polysémie dans un corpus technique Question de recherche  2 axes : Identifier le vocabulaire spécifique (les spécificités) Déterminer la monosémie ou la polysémie Vérifier dans quelle mesure les spécificités sont monosémiques Quantifier la recherche => corrélation entre le continuum de spécificité (le degré de spécificité) le continuum de monosémie (le degré de monosémie) Question de recherche mesurable et objectivable 4 4 RÉCITAL, Dourdan, 6-10 juin 2005

5 1. Introduction et question de recherche
Question de recherche principale : Corrélation entre rang de spécificité et rang de monosémie Hypothèse de recherche : Les mots (les plus) spécifiques du corpus technique ne sont pas nécessairement (les plus) monosémiques (=> non-biunivocité) Questions de recherche supplémentaires : Fréquence, classe lexicale, longueur, nombre de classes lex. Vérifier l’impact des variables indépendantes sur le rang de monosémie (variable dépendante) 5 5 RÉCITAL, Dourdan, 6-10 juin 2005

6 1. Introduction et question de recherche
Monosémie – polysémie dans un corpus technique Etude de corpus de textes spécialisés : Approche sémasiologique, linguistique et descriptive (>< approche onomasiologique et normative traditionnelle) Remise en question : Monosémie et univocité (Cf. Terminologie traditionnelle) Dichotomie entre langue générale et langue spécialisée : termes font partie de la langue générale véhiculent des connaissances spécialisées (Lerat 1995) 6 6 RÉCITAL, Dourdan, 6-10 juin 2005

7 1. Introduction et question de recherche
tour fq 1478 machine-outil pour l’usinage des pièces rotation, révolution sens général : attendre son tour / à son tour découpe fq 965 action de découper résultat de la découpe (= pièce découpée) usiner fq 1035 Façonner, travailler une pièce (avec un outil) => indéterminé Spécification du sens en fonction du contexte / complément usiner des trous = tarauder / usiner des pièces = fraiser, rectifier 7 7 RÉCITAL, Dourdan, 6-10 juin 2005

8 Plan de la présentation
Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 8 8 RÉCITAL, Dourdan, 6-10 juin 2005

9 2. Corpus technique Corpus de textes techniques (1.760.000) :
machines-outils pour l’usinage des métaux  lemmatisé : Cordial 7 Analyseur 4 sous-corpus Revues électroniques (Internet) Fiches techniques (Internet) Normes et directives (Internet + IBN (ISO)) Manuels (4) Corpus de référence : Le Monde : 1998 ( )  lemmatisé : Cordial 7 Analyseur 9 9 RÉCITAL, Dourdan, 6-10 juin 2005

10 2. Corpus technique 10 10 RÉCITAL, Dourdan, 6-10 juin 2005

11 Plan de la présentation
Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 11 11 RÉCITAL, Dourdan, 6-10 juin 2005

12 A. Spécificités Mots et termes spécifiques (unités simples)
KeyWords Method (Log Likelihood Ratio (Dunning 1993)) AV + AV Frequency List Tool WordSmith Tools : KeyWords Calcul des spécificités (distribution hypergéométrique) Lexico3 Liste de spécificités + mesure statistique indiquant le degré de spécificité 12 12 RÉCITAL, Dourdan, 6-10 juin 2005

13 A. Spécificités Spécificités  les mots les plus fréquents
= les mots les plus représentatifs Comment calculer la spécificité ? Fréquence dans le corpus technique ~ fréquence dans le corpus de référence (ou corpus entier (Lexico3)), taille des deux corpus Fréquence observée ~ fréquence attendue (corpus de référence) Différence entre fq observée et fq attendue significative Keywords / mots-clés / spécificités significativement plus fréquents dans le corpus technique 13 13 RÉCITAL, Dourdan, 6-10 juin 2005

14 A. Spécificités KeyWords Method : AV Frequency List Tool :
le corpus technique (1.7 mio) le corpus de référence Le Monde (15.3 mio) spécificités positives (p  0.05) Filtrer les mots grammaticaux et les noms propres ! code Cordial = indication de la classe lexicale Liste de mots grammaticaux (450) + noms propres (7200) Script Python: filtrer  7240 spécificités Mots spécifiques qui ne sont pas des termes : permettre, modèle 2112 hapax à supprimer  +/ spécificités 14 14 RÉCITAL, Dourdan, 6-10 juin 2005

15 A. Spécificités Tête de liste (4717) : les mots les plus spécifiques du corpus technique 15 15 RÉCITAL, Dourdan, 6-10 juin 2005

16 Plan de la présentation
Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 16 16 RÉCITAL, Dourdan, 6-10 juin 2005

17 B. Polysémie : cooccurrences
Expérimentation : échantillon de 30 termes techniques Découpe, avance, tour, usinage, … Dictionnaires techniques spécialisés Étude de corpus : contexte linguistique accès au(x) sens Analyse sémantique : automatiser ? quantifier ? tentative d’opérationalisation du degré de monosémie Cooccurrences : distinguer les différents usages et sens (Schütze 1998, François, Manguin & Victorri 2003, Véronis 2003, Audibert 2003) Cooccurrences des cooccurrences (Martinez 2000, Ferret 2004) 17 17 RÉCITAL, Dourdan, 6-10 juin 2005

18 B. Polysémie : cooccurrences
Exemple : cooccurrences de tour L'atelier de sous-traitance le fabrique en quatre étapes. La première est un tour sur lequel on usine l'alésage central. Ensuite, un centre d'usinage … = “machine-outil pour l’usinage des pièces” La technologie actuelle de la grande vitesse fait appel à …, ce qui convient à des broches pouvant monter jusqu'à quinze mille tours par minute, … =  “rotation, révolution” 18 18 RÉCITAL, Dourdan, 6-10 juin 2005

19 B. Polysémie : cooccurrences
Pourquoi les cooccurrences de deuxième ordre ? Caractère monosémique ou polysémique d’une unité linguistique  contextes sémantiquement homogènes ou non Accès à la sémantique de ces cooccurrences  cooccurrences de deuxième ordre : recouvrement Degré de recouvrement : plus élevé homogénéité sémantique des cooccurrences mot de base : plus monosémique Degré de recouvrement : plus faible hétérogénéité sémantique des cooccurrences mot de base : plus polysémique 19 19 RÉCITAL, Dourdan, 6-10 juin 2005

20 B. Polysémie : cooccurrences
Recouvrement des cooccurrents des cooccurrents d’un mot spécifique (p.ex. tour) Tous les cooccurrents statistiquement pertinents de tour dans le corpus technique (vertical, numérique, bi-broches, mille, minute, …) Mesure d’association : LLR (log de vraisemblance) Valeur p  0.05 ( 0.01 /  /  ) Tous les cooccurrents de ces coocccurrents de tour Recouvrement de ces cooccurrents de deuxième ordre 20 20 RÉCITAL, Dourdan, 6-10 juin 2005

21 B. Polysémie : cooccurrences
Tour (= mot de base / spécificité) vertical  fraiseuse, axes, horizontal, centre, position, … numérique  fraiseuse, axes, commande, perceuse, … minute  tours, environ, heures, secondes, prend, … c cc cooccurrents cooccurrents des cooccurrents 21 21 RÉCITAL, Dourdan, 6-10 juin 2005

22 B. Polysémie : cooccurrences
Algorithme  scripts Python À partir des fichiers *.cnr techniques : cooccurrences pertinentes Collocatif / base / co-fréquence / cfreq / nfreq Traitement statistique (~ table de contingence) Collocatif / base / co-fréquence / LLR / valeur p Base de données indexée C.colstats + CC.colstats Interroger la base de données pour chaque spécificité (base) + déterminer le degré de monosémie Recouvrement des cooccurrents de deuxième ordre  mesure 22 22 RÉCITAL, Dourdan, 6-10 juin 2005

23 B. Polysémie : cooccurrences
Mot de base c1  x y z1 z2 z3 … c2  x y z4 z5 z6 … c3  w v z7 z8 z9 … c4  w v z10 z11 z12 … c5  w z13 z14 z15 z16 … c cc Poids de chaque x : 2 / (5 * 25) Poids de chaque w : 3 / (5 * 25) 23 23 RÉCITAL, Dourdan, 6-10 juin 2005

24 B. Polysémie : cooccurrences
Mesure de recouvrement : = recouvrement formel des cooccurrents de deuxième ordre fq cc : nombre de c qui ont un cc en commun (cc partagé) # total c : nombre de cooccurrents (c) différents # total cc : nombre de cooccurrents des cooccurrents (cc) Poids de chaque cc = fq cc (nombre de c avec ce cc) # total c * # total cc Poids près de 1  fort partagés  monosémie Poids près de 0  très peu partagés  distribution hétérogène 24 24 RÉCITAL, Dourdan, 6-10 juin 2005

25 B. Polysémie : cooccurrences
Mise au point de la mesure de recouvrement quantifier la monosémie (homogénéité sémantique) Tenir compte du nombre de c ? des cc isolés / cc partagés ? du nombre de cc par c ? Quelle configuration pour le corpus technique ? Fenêtre d’observation : [-5;+5] ou [-3;+3] ? Seuil de significativité : (1-p) : 0.95 / 0.99 / / ? Mot de base = lemme, MAIS c et cc = formes fléchies ? 25 25 RÉCITAL, Dourdan, 6-10 juin 2005

26 Plan de la présentation
Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 26 26 RÉCITAL, Dourdan, 6-10 juin 2005

27 4. Analyses statistiques
Comment déterminer la corrélation ? Évaluer l’impact du rang de spécificité (VI) sur le rang de monosémie (VD)  analyse de régression simple Évaluer l’impact des variables indépendantes (VI) sur le rang de monosémie (VD)  analyse de régression multiple Spécificité (des plus spécifiques aux moins spécifiques) Fréquence absolue dans le corpus technique ! Classe lexicale (Cordial) Nombre de classes lexicales Longueur (~ fréquence) 27 27 RÉCITAL, Dourdan, 6-10 juin 2005

28 4. Analyses statistiques
Analyse de régression simple et visualisation dans R : Corpus technique (1.7mio) : 4717 mots (LWW_5_0.9999)  Coefficient de corrélation (Pearson) : lm(formula = rang_v_mono_ ~ rang_v_spec, data = cl_mots4717) Residuals: Min Q Median Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) <2e-16 *** rang_v_spec <2e-16 *** --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 949 on 4715 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 4715 DF, p-value: < 2.2e-16 28 28 RÉCITAL, Dourdan, 6-10 juin 2005

29 29 29 RÉCITAL, Dourdan, 6-10 juin 2005

30 4. Analyses statistiques
Recherches futures : Analyse de régression multiple Analyses de régression détaillées Par classe lexicale (subst / adj / verbe / adv) Par catégorie (ex. substantifs déverbaux, abréviations et sigles, mots à plusieurs étiquettes …) Analyses de régression détaillées par sous-corpus Revues / fiches techniques / normes / manuels  Meilleure corrélation entre le rang de spécificité et le rang de monosémie dans les normes ? Validation manuelle de la mesure de recouvrement 30 30 RÉCITAL, Dourdan, 6-10 juin 2005

31 Pour plus d’informations :


Télécharger ppt "A la découverte de la polysémie des spécificités du français technique RÉCITAL 2005 - Dourdan Ann Bertels University of Leuven RU Quantitative Lexicology."

Présentations similaires


Annonces Google