A la découverte de la polysémie des spécificités du français technique RÉCITAL 2005 - Dourdan Ann Bertels University of Leuven RU Quantitative Lexicology and Variational Linguistics
Plan de la présentation Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 2 2 RÉCITAL, Dourdan, 6-10 juin 2005
1. Introduction et question de recherche Thèse de doctorat : Etude sémantique quantitative du français scientifique et technique Monosémie – polysémie dans un corpus technique = Corpus de textes relevant d’un domaine de spécialité machines-outils pour l’usinage des métaux 3 3 RÉCITAL, Dourdan, 6-10 juin 2005
1. Introduction et question de recherche Monosémie – polysémie dans un corpus technique Question de recherche 2 axes : Identifier le vocabulaire spécifique (les spécificités) Déterminer la monosémie ou la polysémie Vérifier dans quelle mesure les spécificités sont monosémiques Quantifier la recherche => corrélation entre le continuum de spécificité (le degré de spécificité) le continuum de monosémie (le degré de monosémie) Question de recherche mesurable et objectivable 4 4 RÉCITAL, Dourdan, 6-10 juin 2005
1. Introduction et question de recherche Question de recherche principale : Corrélation entre rang de spécificité et rang de monosémie Hypothèse de recherche : Les mots (les plus) spécifiques du corpus technique ne sont pas nécessairement (les plus) monosémiques (=> non-biunivocité) Questions de recherche supplémentaires : Fréquence, classe lexicale, longueur, nombre de classes lex. Vérifier l’impact des variables indépendantes sur le rang de monosémie (variable dépendante) 5 5 RÉCITAL, Dourdan, 6-10 juin 2005
1. Introduction et question de recherche Monosémie – polysémie dans un corpus technique Etude de corpus de textes spécialisés : Approche sémasiologique, linguistique et descriptive (>< approche onomasiologique et normative traditionnelle) Remise en question : Monosémie et univocité (Cf. Terminologie traditionnelle) Dichotomie entre langue générale et langue spécialisée : termes font partie de la langue générale véhiculent des connaissances spécialisées (Lerat 1995) 6 6 RÉCITAL, Dourdan, 6-10 juin 2005
1. Introduction et question de recherche tour fq 1478 machine-outil pour l’usinage des pièces rotation, révolution sens général : attendre son tour / à son tour découpe fq 965 action de découper résultat de la découpe (= pièce découpée) usiner fq 1035 Façonner, travailler une pièce (avec un outil) => indéterminé Spécification du sens en fonction du contexte / complément usiner des trous = tarauder / usiner des pièces = fraiser, rectifier 7 7 RÉCITAL, Dourdan, 6-10 juin 2005
Plan de la présentation Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 8 8 RÉCITAL, Dourdan, 6-10 juin 2005
2. Corpus technique Corpus de textes techniques (1.760.000) : machines-outils pour l’usinage des métaux lemmatisé : Cordial 7 Analyseur 4 sous-corpus Revues électroniques (Internet) 800.000 Fiches techniques (Internet) 300.000 Normes et directives (Internet + IBN (ISO)) 300.000 Manuels (4) 360.000 Corpus de référence : Le Monde : 1998 (15.300.000) lemmatisé : Cordial 7 Analyseur 9 9 RÉCITAL, Dourdan, 6-10 juin 2005
2. Corpus technique 10 10 RÉCITAL, Dourdan, 6-10 juin 2005
Plan de la présentation Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 11 11 RÉCITAL, Dourdan, 6-10 juin 2005
A. Spécificités Mots et termes spécifiques (unités simples) KeyWords Method (Log Likelihood Ratio (Dunning 1993)) AV + AV Frequency List Tool WordSmith Tools : KeyWords Calcul des spécificités (distribution hypergéométrique) Lexico3 Liste de spécificités + mesure statistique indiquant le degré de spécificité 12 12 RÉCITAL, Dourdan, 6-10 juin 2005
A. Spécificités Spécificités les mots les plus fréquents = les mots les plus représentatifs Comment calculer la spécificité ? Fréquence dans le corpus technique ~ fréquence dans le corpus de référence (ou corpus entier (Lexico3)), taille des deux corpus Fréquence observée ~ fréquence attendue (corpus de référence) Différence entre fq observée et fq attendue significative Keywords / mots-clés / spécificités significativement plus fréquents dans le corpus technique 13 13 RÉCITAL, Dourdan, 6-10 juin 2005
A. Spécificités KeyWords Method : AV Frequency List Tool : le corpus technique (1.7 mio) le corpus de référence Le Monde (15.3 mio) 13.000 spécificités positives (p 0.05) Filtrer les mots grammaticaux et les noms propres ! code Cordial = indication de la classe lexicale Liste de mots grammaticaux (450) + noms propres (7200) Script Python: filtrer 7240 spécificités Mots spécifiques qui ne sont pas des termes : permettre, modèle 2112 hapax à supprimer +/- 5000 spécificités 14 14 RÉCITAL, Dourdan, 6-10 juin 2005
A. Spécificités Tête de liste (4717) : les mots les plus spécifiques du corpus technique 15 15 RÉCITAL, Dourdan, 6-10 juin 2005
Plan de la présentation Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 16 16 RÉCITAL, Dourdan, 6-10 juin 2005
B. Polysémie : cooccurrences Expérimentation : échantillon de 30 termes techniques Découpe, avance, tour, usinage, … Dictionnaires techniques spécialisés Étude de corpus : contexte linguistique accès au(x) sens Analyse sémantique : automatiser ? quantifier ? tentative d’opérationalisation du degré de monosémie Cooccurrences : distinguer les différents usages et sens (Schütze 1998, François, Manguin & Victorri 2003, Véronis 2003, Audibert 2003) Cooccurrences des cooccurrences (Martinez 2000, Ferret 2004) 17 17 RÉCITAL, Dourdan, 6-10 juin 2005
B. Polysémie : cooccurrences Exemple : cooccurrences de tour L'atelier de sous-traitance le fabrique en quatre étapes. La première est un tour sur lequel on usine l'alésage central. Ensuite, un centre d'usinage … = “machine-outil pour l’usinage des pièces” La technologie actuelle de la grande vitesse fait appel à …, ce qui convient à des broches pouvant monter jusqu'à quinze mille tours par minute, … = “rotation, révolution” 18 18 RÉCITAL, Dourdan, 6-10 juin 2005
B. Polysémie : cooccurrences Pourquoi les cooccurrences de deuxième ordre ? Caractère monosémique ou polysémique d’une unité linguistique contextes sémantiquement homogènes ou non Accès à la sémantique de ces cooccurrences cooccurrences de deuxième ordre : recouvrement Degré de recouvrement : plus élevé homogénéité sémantique des cooccurrences mot de base : plus monosémique Degré de recouvrement : plus faible hétérogénéité sémantique des cooccurrences mot de base : plus polysémique 19 19 RÉCITAL, Dourdan, 6-10 juin 2005
B. Polysémie : cooccurrences Recouvrement des cooccurrents des cooccurrents d’un mot spécifique (p.ex. tour) Tous les cooccurrents statistiquement pertinents de tour dans le corpus technique (vertical, numérique, bi-broches, mille, minute, …) Mesure d’association : LLR (log de vraisemblance) Valeur p 0.05 ( 0.01 / 0.001 / 0.0001) Tous les cooccurrents de ces coocccurrents de tour Recouvrement de ces cooccurrents de deuxième ordre 20 20 RÉCITAL, Dourdan, 6-10 juin 2005
B. Polysémie : cooccurrences Tour (= mot de base / spécificité) vertical fraiseuse, axes, horizontal, centre, position, … numérique fraiseuse, axes, commande, perceuse, … minute tours, environ, heures, secondes, prend, … c cc cooccurrents cooccurrents des cooccurrents 21 21 RÉCITAL, Dourdan, 6-10 juin 2005
B. Polysémie : cooccurrences Algorithme scripts Python À partir des fichiers *.cnr techniques : cooccurrences pertinentes Collocatif / base / co-fréquence / cfreq / nfreq Traitement statistique (~ table de contingence) Collocatif / base / co-fréquence / LLR / valeur p Base de données indexée C.colstats + CC.colstats Interroger la base de données pour chaque spécificité (base) + déterminer le degré de monosémie Recouvrement des cooccurrents de deuxième ordre mesure 22 22 RÉCITAL, Dourdan, 6-10 juin 2005
B. Polysémie : cooccurrences Mot de base c1 x y z1 z2 z3 … c2 x y z4 z5 z6 … c3 w v z7 z8 z9 … c4 w v z10 z11 z12 … c5 w z13 z14 z15 z16 … c cc Poids de chaque x : 2 / (5 * 25) Poids de chaque w : 3 / (5 * 25) 23 23 RÉCITAL, Dourdan, 6-10 juin 2005
B. Polysémie : cooccurrences Mesure de recouvrement : = recouvrement formel des cooccurrents de deuxième ordre fq cc : nombre de c qui ont un cc en commun (cc partagé) # total c : nombre de cooccurrents (c) différents # total cc : nombre de cooccurrents des cooccurrents (cc) Poids de chaque cc = fq cc (nombre de c avec ce cc) # total c * # total cc Poids près de 1 fort partagés monosémie Poids près de 0 très peu partagés distribution hétérogène 24 24 RÉCITAL, Dourdan, 6-10 juin 2005
B. Polysémie : cooccurrences Mise au point de la mesure de recouvrement quantifier la monosémie (homogénéité sémantique) Tenir compte du nombre de c ? des cc isolés / cc partagés ? du nombre de cc par c ? Quelle configuration pour le corpus technique ? Fenêtre d’observation : [-5;+5] ou [-3;+3] ? Seuil de significativité : (1-p) : 0.95 / 0.99 / 0.999 / 0.9999 ? Mot de base = lemme, MAIS c et cc = formes fléchies ? 25 25 RÉCITAL, Dourdan, 6-10 juin 2005
Plan de la présentation Introduction et question de recherche Corpus technique Méthodologie Spécificités : Keywords Method Polysémie : cooccurrences Analyses statistiques : premiers résultats 26 26 RÉCITAL, Dourdan, 6-10 juin 2005
4. Analyses statistiques Comment déterminer la corrélation ? Évaluer l’impact du rang de spécificité (VI) sur le rang de monosémie (VD) analyse de régression simple Évaluer l’impact des variables indépendantes (VI) sur le rang de monosémie (VD) analyse de régression multiple Spécificité (des plus spécifiques aux moins spécifiques) Fréquence absolue dans le corpus technique ! Classe lexicale (Cordial) Nombre de classes lexicales Longueur (~ fréquence) 27 27 RÉCITAL, Dourdan, 6-10 juin 2005
4. Analyses statistiques Analyse de régression simple et visualisation dans R : Corpus technique (1.7mio) : 4717 mots (LWW_5_0.9999) Coefficient de corrélation (Pearson) : -0.7181 lm(formula = rang_v_mono_0.9999 ~ rang_v_spec, data = cl_mots4717) Residuals: Min 1Q Median 3Q Max -2719.62 -658.64 -17.86 574.79 3972.32 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4066.70091 27.79260 146.32 <2e-16 *** rang_v_spec -0.73239 0.01033 -70.87 <2e-16 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 949 on 4715 degrees of freedom Multiple R-Squared: 0.5158, Adjusted R-squared: 0.5157 F-statistic: 5022 on 1 and 4715 DF, p-value: < 2.2e-16 28 28 RÉCITAL, Dourdan, 6-10 juin 2005
29 29 RÉCITAL, Dourdan, 6-10 juin 2005
4. Analyses statistiques Recherches futures : Analyse de régression multiple Analyses de régression détaillées Par classe lexicale (subst / adj / verbe / adv) Par catégorie (ex. substantifs déverbaux, abréviations et sigles, mots à plusieurs étiquettes …) Analyses de régression détaillées par sous-corpus Revues / fiches techniques / normes / manuels Meilleure corrélation entre le rang de spécificité et le rang de monosémie dans les normes ? Validation manuelle de la mesure de recouvrement 30 30 RÉCITAL, Dourdan, 6-10 juin 2005
Pour plus d’informations : http://wwwling.arts.kuleuven.be/qlvl/ ann.bertels@ilt.kuleuven.be